当前位置: 首页 > news >正文

EMNLP 2025|vivo 等提出 DiMo-GUI:模态分治+动态聚焦,GUI 智能体推理时扩展的新范式

作者:vivo 互联网算法团队

本文入选 EMNLP 2025 Main Conference

EMNLP会议全称为Conference on Empirical Methods in Natural Language Processing,由国际计算语言学协会ACL举办,是自然语言处理和人工智能领域最重要的学术会议之一。EMNLP 2025会议共有8174篇投稿,Main Conference接收率仅为22.16%。

 

图片

项目主页:

https://github.com/vivo/DiMo-GUI

 

摘要:

本文介绍了一种无需额外训练的GUI定位框架DiMo-GUI,针对多模态大语言模型(MLLMs)在复杂图形用户界面(GUI)定位任务中的挑战,通过动态视觉推理与模态感知优化显著提升性能。DiMo-GUI采用逐级缩放的动态定位机制,迭代裁剪聚焦目标区域,减少视觉冗余;同时分离文本与图标模态,独立推理后结合指令评估确定最终目标,有效平衡多模态处理能力。在GUI定位任务最新的基准数据集上,DiMo-GUI相较基线展现显著性能提升。作为即插即用框架,DiMo-GUI适用于网页导航、移动应用自动化等场景,未来可通过回溯机制进一步提升鲁棒性。

该工作由vivo互联网算法团队、加州大学默塞德分校、昆士兰大学共同完成。

 

一、引言

随着图形用户界面(Graphical User Interface, GUI)在自动化导航和操作系统控制等领域的广泛应用,基于自然语言查询的GUI 定位(GUI Grounding)成为多模态大语言模型(multimodal large language models, MLLMs)的重要研究方向。然而,GUI 环境的视觉复杂性、语言歧义以及空间杂乱等问题为精准定位带来了显著挑战。

 

本文基于最新研究《DiMo-GUI: Advancing Test-time Scaling in GUI Grounding via Modality-Aware Visual Reasoning》,介绍了一种无需额外训练的 GUI 定位框架——DiMo-GUI,通过动态视觉推理和模态感知优化显著提升了多模态大模型在复杂 GUI 环境中的定位性能,推动了推理时扩展(test-time scaling)在该领域的发展。

图片

日常生活中,我们与电脑、手机的交互离不开图形用户界面。小到点赞、大到数据分析,我们都希望AI能像人一样,理解屏幕上的每一个按钮、每一段文字,并准确执行指令。然而,对于飞速发展中的多模态大模型来说,这却是前所未有的艰巨挑战。在一个复杂的App、网页或桌面软件中,用户可能随手一句“点击开始播放”,但对于AI来说,准确找到这个指令对应的图标/按钮并不简单:

  • 模态混杂:用户界面同时包含文本、图标、背景、装饰性元素等,干扰多;并且大多数VLM对文字理解更强,图标处理却弱,造成严重偏差;

  • 冗余信息:高分辨率UI中,重要区域可能只占整体的几十分之一,模型容易定位错误区域。

研究发现,传统方法如基于文本推理或单次视觉定位的管道在高分辨率、视觉拥挤的 GUI 中表现不佳。例如在最新的 ScreenSpot-Pro 数据集上,大多数通用模型如GPT-4o, Qwen2-VL等只有1%左右的正确率, 即使是针对于GUI定位任务的ShowUI, Aria-UI等智能体也只有10%左右的正确率。

 

二、关键改进:模态分离 + 动态定位

从上述问题出发,该研究推出零训练成本的DiMo-GUI,通过模态感知的视觉推理推进训练时扩展,显著提升多模态大模型的图形界面(GUI)理解能力。主要的改进方式包括以下两点:

  • 动态视觉定位:DiMo-GUI 采用逐级缩放机制,从粗略预测开始,基于初始坐标生成候选焦点区域,并通过迭代裁剪逐步聚焦目标。例如,首次推理后,模型以预测坐标为中心裁剪半个图像大小的区域作为下一轮输入,显著减少视觉冗余。动态迭代机制根据前后预测的坐标距离(小于图像对角线六分之一时停止)实现自适应停止,避免“过度思考”。

  • 模态感知优化:DiMo-GUI 将 GUI 元素分为文本和图标两类,分别进行独立的定位推理,生成文本坐标(C_text)和图标坐标(C_icon)。随后,模型结合原始指令和全分辨率图像评估两个候选坐标,确定最终目标 (C*),有效平衡文本和图标的处理能力。

 

这样的方式推动了推理时拓展(Test-time Scaling)在GUI定位这一领域的发展,提供了新的思路和方式。

图片

 

三、实验结果:无需训练和任何额外数据,只在推理阶段就可以大幅提升性能

图片

团队在最新的高分辨率GUI数据集 ScreenSpot-Pro 上验证发现:

  • DiMo-GUI可以作为即插即用的框架大幅提升多个GUI模型的性能。

  • 其中OS-Atlas-7B在引入DiMo-GUI之后获得了超过两倍的指标提升(18.9% -- 49.7%), UGround-7B和UGround-V1-7B也均获得了超过10%的指标提升。

 

在相对简单的ScreenSpot数据集上,DiMo-GUI同样可以提升多个模型的性能。

图片

定性结果表示,模型加入DiMo-GUI之后可以通过动态定位逐步逼近正确结果。

图片

 

四、总结

DiMo-GUI 提供了一种高效、通用且无需训练的GUI定位框架,通过动态视觉推理和模态感知优化显著提升了多模态大语言模型在复杂 GUI 环境中的表现。其“即插即用”特性使其可无缝集成到现有GUI Agent中,适用于网页导航、移动应用自动化等场景。未来研究可探索引入回溯机制以纠正早期错误,进一步提升定位鲁棒性。

http://www.sczhlp.com/news/40423/

相关文章:

  • 网站开发流程任务windows优化大师自动下载
  • 做外贸网站包括哪些徐州百度推广公司
  • 做网站怎样做清远今日头条新闻
  • 智慧树网站的章节题做不了本周国内重大新闻十条
  • 网页转向功能网站飞猪关键词排名优化
  • 研发项目如何高效协作?10款主流需求管理工具全景对比与选型建议(2025年最新版)
  • 基于草图序列二次规划的约束随机优化统计推断
  • 在vue中contenteditable元素的双向数据绑定
  • 宁波专业网站建设怎么做aso优化教程
  • 山西省网站建设价格百度电商平台app
  • seo做的好的网站如何制作自己的网站
  • 织梦可以做视频网站么建站系统推荐
  • 自己做网站卖别人的机械设备深圳seo优化公司搜索引擎优化方案
  • 阿里云虚拟主机做2个网站吗今天的病毒感染情况
  • 连衣裙一起做网站线上营销模式
  • 大连seo关键词排名seo刷网站
  • 空间计算指北
  • MySQL History List
  • 蓝队网络流量分析脚本:自动化威胁检测与防御利器
  • Notion根本不算项目管理软件?排行榜重新洗牌!
  • 网上怎么接单做网站链接是什么意思
  • 坪山做网站的公司合肥seo优化公司
  • 小白学做网站买什么书2024年3月份病毒会爆发吗
  • 国内做外单的网站有哪些资料中国域名注册官网
  • 《奖励自己的网站》整合营销传播最基础的形式是
  • 家里电脑可以做网站空间吗郑州seo联系搜点网络效果好
  • 企业信息系统规划的含义安卓手机优化
  • 见网站建设客户技巧搜索引擎优化方案案例
  • 海淀网站制作服务公司百度快速排名技术培训
  • 北京海淀区网站建设搜索关键词排名提升