Z6·尊龙凯时「中国区」官方网站微软与东南大学联手: 让AI助手着实学会"拖拽"和"绘制"

发布日期：2026-05-20 20:46 来源：未知作者：admin 浏览次数：

这项由东南大学、微软操办院、武汉大学、中山大学及阿布扎比穆罕默德·本·扎耶德东谈主工智能大学结伙完成的操办，以预印本阵势于2026年5月发布在arXiv平台，论文编号为arXiv:2605.12501v1。感风趣风趣的读者可通过该编号在arXiv上找到齐全论文。

**鼠标不单会点击——AI助手的"操作盲区"**

每当你掀开电脑，险些悉数与屏幕的交互都不单是点击按钮那么毛糙。你在Excel里拖动单位格边际来填没收式，在Word里框选一段翰墨然后拖到新位置，在Photoshop里用套索器用一笔一划地描出东谈主物概述，在PowerPoint里把一个方式拖到另一个方式的正中心——这些操作稀松平常，却对自动化AI助手组成了着实的艰巨。

开云中国2026世界杯app下载

频年来，像GPT-o3和Claude这么的"电脑操控AI"仍是唐突匡助用户自动完成一些屏幕上的使命。这类AI被称为"狡计机使用智能体"，它们通过"看"屏幕截图来清楚面前景象，然后决定下一步该作念什么。然则，操办团队在现实测试中发现了一个让东谈主有些窘态的风景：哪怕是现在最顽强的AI模子，在靠近"拖拽"、"框选"、"描边"这类略微复杂小数的操作时，格外率远远高于毛糙点击。换句话说，这些AI就像一个刚学会按门铃的机器东谈主，却王人备不知谈若何开锁。

操办团队把这个风景称为"长尾问题"——绝大多数的操作失败，都辘集在那些复杂度高、出现频率相对较低的交互类型上。他们的中枢判断是：这个问题很猛进度上源于检会数据的严重匮乏。毛糙点击的数据到处都是，但"在Photoshop里描出一只猫的概述"这种操作，险些莫得现成的检会数据不错用。

**一次摸底测试：GPT-o3在"使命场景"中的真实发扬**

为了摸清问题所在，操办团队在微软Azure平台上网罗了近200个真实任务，涵盖办公软件操作、网页浏览和电子游戏三大场景，让GPT-o3一一完成，并凝视分析悉数失败案例。

终结相配直不雅。在办公软件场景里，每100个失败案例中，有37个是因为AI找错了位置——也便是说，它知谈该作念什么，却不知谈该在屏幕的哪个处所作念。这类误差被称为"动作定位误差"，是最主要的失败原因，远高出"打算误差"（知谈在那儿，但不知谈该作念什么）。而在那些需要拖拽或其他复合动作的任务里，坐标定位误差的比例更是显耀高于毛糙点击任务。

网页浏览场景的情况稍好一些，但规矩访佛。游戏场景中打算误差占主导，因为游戏需要更多计谋性判断，而非精确定位。

这份测试论述径直指向了两个亟待惩处的问题：现存的评测基准无法规划复杂操作才能，而检会数据里险些莫得这类复杂操作的样本。

**一把新尺子：CUActSpot评测基准的出生**

既然旧的尺子量不准，就得造一把新尺子。操办团队手工构建了一个名为CUActSpot的评测基准，专门用来测试AI在复杂交互上的才能。

这个评测基准的中枢调动，在于它冲突了畴昔"只测点击"的传统。以往的评测基准，无论多难，基本上都是兼并个模式：给AI看一张截图，让它找出某个按钮的位置，然后检查它指出的位置是否在按钮范围内。这就像只评语文的"找错别字"，而王人备不考"写稿文"。

CUActSpot把测试范围膨胀到了五种不同的操作对象：尺度界面元素（按钮、复选框之类）、文本内容（选中某段话、在某处点击开荒光标）、表格（Excel里的各式操作）、画布（PowerPoint里的图形操作）以及当然图像（Photoshop里对相片内容进行操作）。动作类型也从单纯的点击膨胀到了拖拽（需要细则最先和非常两个坐标）和绘制（需要细则一系列一语气坐标点，比如描出物体概述）。

通盘基准包含206个尽心想象的样本，涵盖12种高层任务类型和33种细分任务类型。为了确保质料，每个样本都经过了至少四个东谈主的测试和修正——原始标注者想象任务，另外三个东谈主落寞尝试完成，若有歧义就修改，东谈主类无法完成的就径直删除。

评分方式也经过了尽心想象。关于需要多个坐标点的任务，评测系统会分袂"有序"和"无序"两种情况——拖拽鼠标画圆是有序的（必须从圆心运转），而框选一段翰墨是无序的（从赶赴后或从后往前都不错）。此外，系统还引入了"不容区域"的主见，箝制AI通过在全屏立地乱点来蒙对谜底。

**数据工场：用代码"渲染"出检会数据**

有了评测尺度，下一步是惩处检会数据匮乏的问题。操办团队提倡了一套全新的数据合成活水线，其中枢念念路是：与其从现实全国的软件截图里艰辛地标注数据，不如径直用表率"生成"带有精确坐标信息的截图。

这个念念路不错用烘焙来清楚。传统门径就像从街上买蛋糕然后分析因素，奋力而不精确；新门径例是我方按照食谱烤蛋糕，从一运转就知谈每一种材料的精确用量。由于截图自己便是用代码渲染出来的，每个元素的坐标信息自然则然就记载在案，王人备不需要东谈主工标注。

在此基础上，操办团队让高档AI模子（具体使用的是OpenAI的o3模子）饰演"任务想象师"的变装，左证这些坐标信息自动生成对应的操作辅导。更奥妙的是，他们允许o3在生成任务时进行数学推算。举一个论文中的真实例子：屏幕上有一个箭头方式和一个椭圆方式，已知箭头圆心坐标、箭头尖危坐标、椭圆顶部坐标，o3就能推算出"把箭头的圆心拖到某处，使箭头顶端恰恰指向椭圆顶部"这么的复杂任务，并自动狡计出正确的最先和非常坐标。这种才能极地面丰富了生成任务的种种性。

五种操作对象各自有一套专属的渲染决策。界面元素数据复用了Phi-Ground相貌的网页爬取活水线：从Common Crawl这个纷乱的网页归档库中捏取网页，经过言语过滤、领域去重（兼并网站最多保留50个页面，箝制单一网站作风主导模子）、渲染截图、端正过滤等多个清洗设施，最终用GPT-4o为每个元素生成形色标签，共获取约1050万个高质料样本。

文本数据的渲染则给与了一个"拼贴"决策：团队网罗了2500种开源英翰墨体和约200张不同分辨率的翰墨配景图（包括空缺Word文档、记事本窗口截图等），然后用Python的PyQt5库把维基百科和GitHub上的翰墨内容渲染到这些配景上，同期精确记载每个字符的坐标。

表格数据的生成尤为清雅，分四步完成。最初从开源数据集网罗约1.6万张原始表格，然后用GPT对每张表格进行"演化"——改变主题（比如把"使命时分统计表"改成"数学得益统计表"）、改变结构（添加合并单位格、新增列等），生成约16万张各不沟通的表格。接着用o3生成约1万套不同作风的CSS姿首表，通过立地支柱情绪、字体、边框等参数膨胀成种种化的视觉作风。临了把内容和姿首立地组合，并对一半的表格立地遮拦大批单位格（模拟Excel中大批空缺格的真实情况），得到视觉作风高度种种的表格截图。

画布数据给与了一个表率化的PowerPoint模拟器，撑持76种基本方式，涵盖矩形、椭圆、三角形、箭头、贯穿线、标注框、星形、多边形等九大类别。每个生成的画面都包含3到8个立地搁置的方式，并模拟了PowerPoint剪辑模式下的视觉细节——八个红色扫尾点、顶角的蓝色极点记号、旋转手柄等，让合成数据尽可能靠拢真实软件的外不雅。

当然图像数据则径直开始于Meta开源的SAM（Segment Anything）数据集。关于每张图片，团队立地登科五个区域，用GPT-4o为每个区域生成凝视形色，再用概述索要算法把区域的分割掩码调换成20个极点的多边形范围弧线。这套范围数据主要用于撑持Photoshop式的"抠图"和"涂抹遮罩"任务。

通过这套活水线，操办团队共生成了约5000万条检会样本，其中界面元素数据约3000万条，其余四种模态各约500万条。

**检会与对比：一个4B参数的小模子逆袭**

有了数据，操办团队用它来检会模子。他们选用了Phi-3.5-VL行为基础模子，这是微软开发的一个参数领域约40亿的视觉言语模子。选用这个相对"小"的模子，是因为他们想测试纯数据质料和种种性的终结，而不是单纯靠模子领域取胜。

检会出来的模子被定名为Phi-Ground-Any-4B，在CUActSpot评测基准上取得了44.4%的总体得分，高出了悉数参数目低于320亿的开源模子。对比一下其他模子的发扬：领有70亿参数的UI-TARS-1.5-7B得了28.5%，领有320亿参数的EvoCUA-32B一样得了28.5%，参数目相配的OpenCUA-7B得了39.8%，而同为320亿参数的OpenCUA-32B得了52.5%。谈判到Phi-Ground-Any-4B只须40亿参数，这个得益相配出色。

虽然，若是只看另外两个主流评测基准——ScreenSpot-Pro和UI-Vision，Phi-Ground-Any-4B的发扬就相对普通了，分别只得了26.3%和15.8%，远低于一些竞争敌手。这个反差引出了一个值得深念念的问题。

**评测基准的"常识壁垒"之争**

操办团队在论文中专门花了相配篇幅讨论这个反差背后的深层原因，这亦然整篇论文最挑升念念的不雅察之一。

ScreenSpot-Pro和UI-Vision这两个面前最流行的评测基准，都隐敝了大批真实桌面软件，包括Photoshop、AutoCAD、各种专科欺诈等。这些基准的一个弥留特质是：好多任务自己就需要软件专科常识才能完成。以论文中举的例子为例："点击Photoshop中的减淡器用图标"——若是你从来没用过Photoshop，根柢不知谈减淡器用长什么样，即便图标就在目下也很难认出来。这对东谈主类用户亦然一样的。

这种想象有其合理之处：真实的AI助手如实需要练习各式软件。但问题在于，Z6·尊龙凯时「中国区」官方网站这么的评测终结，很难分了了一个模子得分高，究竟是因为它的"定位才能"强，还只是是因为它恰恰在检会数据里见过这款软件的界面截图。一个专门用ScreenSpot-Pro联悉数据检会的模子，会在这个基准上得高分，但这不代表它竟然学会了如何准细则位屏幕上的率性指标。

操办团队用了一个径直的实验来考据这小数。他们把Phi-Ground-Any-4B在Phi-Ground相貌的欺诈数据（通过必应搜索网罗的常见软件截图，可能与两个基准有重迭）上进一步微调，终结在ScreenSpot-Pro上的得分从26.3%跳升到41.5%，在UI-Vision上从15.8%跳升到29.7%，双双大幅耕种。但与此同期，在CUActSpot上的得分却从44.4%下落到了36.5%。检会特定软件的数据，如实能让模子在依赖软件常识的基准上发扬更好，但这种耕种并不代表通用定位才能的着实向上。

为了进一步考据评测基准的有用性，操办团队还作念了一个很有劝服力的实验。他们用GPT-o3斡旋充任"打算者"（决定下一步该作念什么），然后让不同的模子充任"实施者"（把打算周折为具体坐标），在OSWorld这个端到端的真实任务基准上测试。终结发现，有几个模子在ScreenSpot-Pro上的得分比GPT-o3高出近30个百分点，但在OSWorld上的得分却并不比GPT-o3高几许。而Phi-Ground-Any-4B在ScreenSpot-Pro上只须26.3%，在OSWorld上却能达到42.4%，接近GPT-o3我方实施时的44.1%。这评释CUActSpot的排行终结，与真实任务完成才能的联系性更高。

**种种性的魔法：为什么"博物洽闻"比"深刻专精"更弥留**

论文中另一个弥留发现，来自对检会数据组成的系统性消融实验。

操办团队从零运转，每次只加多一种模态的检会数据，不雅察模子在各项测试上的发扬变化。这个实验揭示了一个反直观但又很有劝服力的规矩：单独扩大某一种数据的领域，带来的收益赶快递减；但每次引入一种新模态的数据，不仅该模态的测试分数大幅耕种，其他模态的分数也会随着涨。

具体来看，从零到200万条界面元素数据，总体得分从0跳到14.8%。加入100万条规本数据后，总体得分升到21.5%，而且不单是文簿子项耕种，界面元素子项也从31.6%升到了34.2%。加入100万条表格数据后，表格子项从21.9%大幅升到了40.6%，同期画布和图像子项也有小幅耕种。加入画布和当然图像数据后，各子项不竭稳步耕种。

比拟之下，若是只是把某一种数据从200万条加多到500万条，带来的耕种远远莫得引入新模态来得显耀，以致会际遇平台期。

操办团队把这个风景定名为"种种性缩放"，并提倡了一个讲授：要想同期处理好文本选用、表格操作、画布拖拽、图像区域定位这些看似不同的任务，模子必须学习一些底层的、跨任务通用的才能——比如清楚"指标在那儿"、"这个指标的范围是什么"、"从这里拖到那儿才合理"。这些通用才能只须在见过富有种种化的任务之后才能着实酿成，单纯在一类任务上堆数据，反而会让模子过度专精于某种特定的模式识别。

这个发现，在某种进度上呼应了大型言语模子的一个经典不雅察：言语模子在言语任务上展现出的"清晰才能"，往走动自于检会数据在话题、作风、言语方面的极高种种性，而不单是是数据量。

**跨任务泛化：学会了1加2，也学会了2加1**

除了种种性缩放，操办团队还发现了一个风趣风趣的"举一反三"风景。他们统计了Phi-Ground-Any-4B在CUActSpot上能收效完成的细分任务类型数目：CUActSpot包含33种细分任务，检会数据只隐敝了其中20种，但模子现实上能收效完成其中27种。

也便是说，有7种检会数据里王人备莫得的细分任务，模子通过"组合"已有常识，我方摸索出了完成门径。论文中给出的讲授是：模子分别学会了"操作翰墨内容"和"操作图像区域"这两种才能，然后在靠近"操作图像里的翰墨"（比如选中PPT幻灯片图片里的翰墨）这种新任务时，唐突把两种才能交融起来，在莫得专门检会数据的情况下完成任务。

这种跨任务的泛化才能，让操办者对改日充满期待：随着检会数据的模态和任务类型不竭膨胀，AI助手在莫得见过的新式操作上的发扬，很可能也会随着耕种，而不是始终只会作念检会时见过的那几件事。

**说到底，这项操办在作念什么**

归根结底，这篇论文作念了三件相互关联的事。

第一，它指出了一个被历久冷落的问题：现存的AI操控才能评测，基本上只测"点击"，王人备忽略了拖拽、绘制这类在现实使命中极为常见的操作。评测基准的想象偏差，导致通盘领域的操办主见也随着偏了。

第二，它提供了一套器用：CUActSpot评测基准，让操办者能更准确地测量模子在复杂操作上的真实才能；以及一套数据合成活水线，让这类稀缺的复杂操作检会数据唐突以大领域的方式自动生成。

第三，它给出了一个主见性的论断：关于电脑操控AI来说，检会数据的种种性可能比数据领域更弥留。想要检会出能着实匡助用户完成日常使命的AI助手，与其在兼并类操作上堆积海量数据，不如系统地膨胀它所见过的操作类型。

虽然，这项操办也有它坦承的局限。CUActSpot只须206个样本，是一个会诊性的袖珍基准，并不可隐敝真实使命流中的悉数复杂情况，尤其是需要一语气多步操作的长序列任务。合成数据与真实软件截图之间的分散各异，亦然一个尚未王人备惩处的问题——从实验终结就能看出，在合成数据上检会好的模子，还需要出奇的真实数据微调才能在软件常识密集的基准上发扬出色。

不外，从另一个角度来看，能在40亿参数领域上通过纯合成数据达到这么的性能，自己仍是评释了这条道路的可行性。随着合成数据质料和种种性的不竭耕种，以及模子架构的进一步优化，一个着实能帮你在Photoshop里描概述、在Excel里拖公式的AI助手，可能不再是远方的改日。

有风趣风趣深刻了解的读者，不错通过arXiv编号2605.12501查阅齐全论文，操办团队也在GitHub（microsoft/Phi-Ground）上绽开了基准数据、检会数据、代码和模子权重，不错径直下载使用。

---

Q&A

Q1：CUActSpot评测基准和ScreenSpot-Pro这类主流评测基准有什么现实区别？

A：ScreenSpot-Pro等主流基准基本上只测试点击操作，指标以尺度界面元素为主，而且好多题目需要软件专科常识才能作答，导致分数很难分袂"定位才能"和"软件驰念"。CUActSpot则专门膨胀了拖拽和绘制等复合动作，隐敝文本、表格、画布、当然图像五种操作对象，并刻意减少了对软件专科常识的依赖，让评测终结更能反应模子的通用定位才能。实考据明，CUActSpot的排行与真实任务完成率的联系性更高。

Q2：Phi-Ground-Any-4B的检会数据是若何生成的，为什么不径直用真实截图？

A：操办团队给与了代码渲染的方式生成截图，因为渲染经由中每个元素的坐标自然便是已知的，王人备不需要东谈主工标注。五种模态分别用网页渲染、字体渲染、HTML表格渲染、表率化画布模拟器和SAM分割数据集终了。比拟从真实软件截图里艰辛标注，这种方式能以极低本钱生成数千万条带有精确坐标的检会样本，何况通过让o3模子进行数学推算来自动生成复杂操作辅导。

Q3："种种性缩放"这个发现对AI检会有什么现实意旨？

A：这个发现评释，关于电脑操控AI来说，与其在兼并类操作（比如只点击界面按钮）上堆积大批数据，不如系统地引入更多种类的操作类型。实验炫耀，每引入一种新模态数据，不仅该模态的性能大幅耕种，其他模态也会随着受益。这与堆同类数据很快际遇收益递减酿成光显对比。实践层面的意旨是：构建通用操控AI助手时，应该优先追求操作类型的广度Z6·尊龙凯时「中国区」官方网站，而不单是是某一类操作的数据量。

上一篇：上一篇：Z6·尊龙凯时「中国区」官方网站 EMSA实践中枢成分之胞浆与胞核卵白索求的蹙迫性及试剂遴荐

下一篇：下一篇：Z6·尊龙凯时「中国区」官方网站贵州：从“急促过”到“闲隙住”

Z6尊龙凯时中国官方网站

尊龙凯时app

Z6·尊龙凯时「中国区」官方网站微软与东南大学联手: 让AI助手着实学会"拖拽"和"绘制"

尊龙凯时app

Z6·尊龙凯时「中国区」官方网站 微软与东南大学联手: 让AI助手着实学会&quot;拖拽&quot;和&quot;绘制&quot;

Z6·尊龙凯时「中国区」官方网站微软与东南大学联手: 让AI助手着实学会"拖拽"和"绘制"