EMNLP 2025｜vivo 等提出 DiMo-GUI：模态分治+动态聚焦，GUI 智能体推理时扩展的新范式

富牛牛 發表於 2025-8-26 16:25:00

EMNLP 2025｜vivo 等提出 DiMo-GUI：模态分治+动态聚焦，GUI 智能体推理时扩展的新范式

<blockquote data-pm-slice="0 0 []">
作者：vivo 互联网算法团队
本文入选 EMNLP 2025 Main Conference
EMNLP会议全称为Conference on Empirical Methods in Natural Language Processing，由国际计算语言学协会ACL举办，是自然语言处理和人工智能领域最重要的学术会议之一。EMNLP 2025会议共有8174篇投稿，Main Conference接收率仅为22.16%。
</blockquote>
 
<img alt="图片" data-pm-attrs="{"src":"https://static001.geekbang.org/infoq/e8/e8740c5a381666aff2f9b07f04ffe16c.png","alt":"图片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}" data-src="https://static001.geekbang.org/infoq/e8/e8740c5a381666aff2f9b07f04ffe16c.png" class="lazyload">
项目主页：
https://github.com/vivo/DiMo-GUI
 
<blockquote>
摘要：
本文介绍了一种无需额外训练的GUI定位框架DiMo-GUI，针对多模态大语言模型（MLLMs）在复杂图形用户界面（GUI）定位任务中的挑战，通过动态视觉推理与模态感知优化显著提升性能。DiMo-GUI采用逐级缩放的动态定位机制，迭代裁剪聚焦目标区域，减少视觉冗余；同时分离文本与图标模态，独立推理后结合指令评估确定最终目标，有效平衡多模态处理能力。在GUI定位任务最新的基准数据集上，DiMo-GUI相较基线展现显著性能提升。作为即插即用框架，DiMo-GUI适用于网页导航、移动应用自动化等场景，未来可通过回溯机制进一步提升鲁棒性。
该工作由vivo互联网算法团队、加州大学默塞德分校、昆士兰大学共同完成。
</blockquote>
 
<h1>一、引言</h1>
随着图形用户界面（Graphical User Interface, GUI）在自动化导航和操作系统控制等领域的广泛应用，基于自然语言查询的GUI 定位（GUI Grounding）成为多模态大语言模型（multimodal large language models, MLLMs）的重要研究方向。然而，GUI 环境的视觉复杂性、语言歧义以及空间杂乱等问题为精准定位带来了显著挑战。
 
本文基于最新研究《DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning》，介绍了一种无需额外训练的 GUI 定位框架——DiMo-GUI，通过动态视觉推理和模态感知优化显著提升了多模态大模型在复杂 GUI 环境中的定位性能，推动了推理时扩展（test-time scaling）在该领域的发展。
<img alt="图片" data-pm-attrs="{"src":"https://static001.geekbang.org/infoq/ef/effcb64f3aaca9324dac04b6e26c90e7.png","alt":"图片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}" data-src="https://static001.geekbang.org/infoq/ef/effcb64f3aaca9324dac04b6e26c90e7.png" class="lazyload">
日常生活中，我们与电脑、手机的交互离不开图形用户界面。小到点赞、大到数据分析，我们都希望AI能像人一样，理解屏幕上的每一个按钮、每一段文字，并准确执行指令。然而，对于飞速发展中的多模态大模型来说，这却是前所未有的艰巨挑战。在一个复杂的App、网页或桌面软件中，用户可能随手一句“点击开始播放”，但对于AI来说，准确找到这个指令对应的图标/按钮并不简单：
<blockquote>
<ul>
<li>
模态混杂：用户界面同时包含文本、图标、背景、装饰性元素等，干扰多；并且大多数VLM对文字理解更强，图标处理却弱，造成严重偏差；
</li>
<li>
冗余信息：高分辨率UI中，重要区域可能只占整体的几十分之一，模型容易定位错误区域。
</li>
</ul>
</blockquote>
研究发现，传统方法如基于文本推理或单次视觉定位的管道在高分辨率、视觉拥挤的 GUI 中表现不佳。例如在最新的 ScreenSpot-Pro 数据集上，大多数通用模型如GPT-4o, Qwen2-VL等只有1%左右的正确率，即使是针对于GUI定位任务的ShowUI, Aria-UI等智能体也只有10%左右的正确率。
 
<h1>二、关键改进：模态分离 + 动态定位</h1>
从上述问题出发，该研究推出零训练成本的DiMo-GUI，通过模态感知的视觉推理推进训练时扩展，显著提升多模态大模型的图形界面（GUI）理解能力。主要的改进方式包括以下两点：
<blockquote>
<ul>
<li>
动态视觉定位：DiMo-GUI 采用逐级缩放机制，从粗略预测开始，基于初始坐标生成候选焦点区域，并通过迭代裁剪逐步聚焦目标。例如，首次推理后，模型以预测坐标为中心裁剪半个图像大小的区域作为下一轮输入，显著减少视觉冗余。动态迭代机制根据前后预测的坐标距离（小于图像对角线六分之一时停止）实现自适应停止，避免“过度思考”。
</li>
<li>
模态感知优化：DiMo-GUI 将 GUI 元素分为文本和图标两类，分别进行独立的定位推理，生成文本坐标（C_text）和图标坐标（C_icon）。随后，模型结合原始指令和全分辨率图像评估两个候选坐标，确定最终目标（C*），有效平衡文本和图标的处理能力。
</li>
</ul>
</blockquote>
 
这样的方式推动了推理时拓展（Test-time Scaling）在GUI定位这一领域的发展，提供了新的思路和方式。
<img alt="图片" data-pm-attrs="{"src":"https://static001.geekbang.org/infoq/1f/1fbb24d53abacb93d655d23773a83e11.png","alt":"图片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}" data-src="https://static001.geekbang.org/infoq/1f/1fbb24d53abacb93d655d23773a83e11.png" class="lazyload">
 
<h1>三、实验结果：无需训练和任何额外数据，只在推理阶段就可以大幅提升性能</h1>
<img alt="图片" data-pm-attrs="{"src":"https://static001.geekbang.org/infoq/39/392b36e49f089f4b41f9a67947289748.png","alt":"图片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}" data-src="https://static001.geekbang.org/infoq/39/392b36e49f089f4b41f9a67947289748.png" class="lazyload">
团队在最新的高分辨率GUI数据集 ScreenSpot-Pro 上验证发现：
<blockquote>
<ul>
<li>
DiMo-GUI可以作为即插即用的框架大幅提升多个GUI模型的性能。
</li>
<li>
其中OS-Atlas-7B在引入DiMo-GUI之后获得了超过两倍的指标提升（18.9% -- 49.7%）, UGround-7B和UGround-V1-7B也均获得了超过10%的指标提升。
</li>
</ul>
</blockquote>
 
在相对简单的ScreenSpot数据集上，DiMo-GUI同样可以提升多个模型的性能。
<img alt="图片" data-pm-attrs="{"src":"https://static001.geekbang.org/infoq/96/9621ee856f928e2b658491f412be689b.png","alt":"图片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}" data-src="https://static001.geekbang.org/infoq/96/9621ee856f928e2b658491f412be689b.png" class="lazyload">
定性结果表示，模型加入DiMo-GUI之后可以通过动态定位逐步逼近正确结果。
<img alt="图片" data-pm-attrs="{"src":"https://static001.geekbang.org/infoq/7c/7cb41fdec32a977ea5c441257e170cb5.png","alt":"图片","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}" data-src="https://static001.geekbang.org/infoq/7c/7cb41fdec32a977ea5c441257e170cb5.png" class="lazyload">
 
<h1>四、总结</h1>
DiMo-GUI 提供了一种高效、通用且无需训练的GUI定位框架，通过动态视觉推理和模态感知优化显著提升了多模态大语言模型在复杂 GUI 环境中的表现。其“即插即用”特性使其可无缝集成到现有GUI Agent中，适用于网页导航、移动应用自动化等场景。未来研究可探索引入回溯机制以纠正早期错误，进一步提升定位鲁棒性。

</div>
<div id="MySignature" role="contentinfo">
分享 vivo 互联网技术干货与沙龙活动，推荐最新行业动态与热门会议。 
来源：https://www.cnblogs.com/vivotech/p/19059214

頁: [1]

圆梦公社's Archiver

EMNLP 2025｜vivo 等提出 DiMo-GUI：模态分治+动态聚焦，GUI 智能体推理时扩展的新范式