
本文团队经久从事负拖累的东谈主工智能与东谈主工智能赋能社会科学干系斟酌,围绕视觉生成大模子安全管束、智能体安全等地方开展系统性职责,干系驱泄气表于AAAI、ICML、TMM等外洋期刊与会议。现启动招收2027级博士斟酌生与硕士斟酌生,确定请参见王岚君浑厚主页:https://wanglanjun-academic.github.io/
跟着大模子技巧的速即发展,GUI(GraphicalUserInterface)智能体正在从「看得懂屏幕」迈向「能自主操作」的新阶段。可是,当咱们果真将这些智能体放入果真场景时,一个要道问题便突显出来:它们在多法子、长周期的复杂任务中,通常「翻车」。
现存的GUI智能体主要依赖面前屏幕截图和有限的高下文窗口作念方案,无法珍惜圆善的交互历史。在多法子任务中,早期的要道信息可能跟着高下文滑动而丢失,导致「缺欠累积」,一个早期的小罪恶就可能激勉连锁失败。与此同期,面前的GUI智能体时常使用在固定数据集上老师的静态计策,无法从过往见效提示中学习和移动,难以妥当动态变化的环境。
「记不住」和「学不会」恰是面前GUI智能体发展的中枢矛盾。而天津大学团队蚁集上海交通大学团队在ICML2026上建议SE-GA框架,通过引入分层追溯结构和迭代自我鼎新机制,让GUI智能体从「静态推论器」进化为「动态学习者」,并在多个不同类型的基准上得到了邃密的推崇。

论文标题:SE-GA:Memory-AugmentedSelf-EvolutionforGUIAgents
论文地址:https://arxiv.org/abs/2605.16883
代码相接:https://github.com/jinshilong-dev/SE-GA
「记不住」又「学不会」,GUI智能体的两大约命短板
团队将GUI导航任务神情化为部分可不雅察马尔可夫方案历程,这意味着智能体无法皆备不雅察环境气象,只可通过局部不雅察作念出方案。在这种部分可不雅察性下,两个结构性问题尤为隆起。
1.高下文窗口受限,要道信息「记不住」
GUI导航任务实质上是历史依赖的。可是,大多数现存顺序主要依赖面前屏幕截图和有限的高下文窗口,跟着交互法子的推动,早期的要道信息很容易被「滑出」高下文窗口,导致智能体「健忘」起首的操作和不雅察,从而作念出罪恶方案。
2.计策静态固化,过往提示「学不会」
实践寰宇中的GUI任务很少是零丁的,它们经常是先前已完成任务的变体或组合,需要复用过往见效的计策。但面前的GUI智能体时常在固定数据集上老师,使用静态计策,无法从交互历程中索乞降学习见效提示。
简而言之,面前GUI智能体遮盖一个结伙的机制来将显式的历史提示编码为隐式的计策参数,导致它们只可进行静态推论,滚球app中国官网下载入口而无法竣事执续的自我进化。

图1.SE-GA的全体框架图
TTME:给智能体装上「分层追溯」,让它「牢记住」畴前
为了贬责「记不住」的问题,SE-GA建议了测试时追溯膨胀(Test-TimeMemoryExtension,TTME)模块。该模块模仿了东谈主类清楚架构的想想,构建了一个分层追溯库,包含三种互补的追溯类型,从不同粒度为智能体的方案提供复古。

图2.TTME的架构示例图
情景追溯(EpisodicMemory):短期职责追溯,追踪「刚才作念了什么」
在职务推论的每个时候步中,情景追溯会纪录前一步的不雅察、选拔的算作以及算作推论后的新不雅察。这种联想既幸免了保留沿途历史带来的筹办支出,又能过滤掉可能误导方案的逾期信息,让智能体恒久对「近期作念了什么」保执明晰的清楚。
语义追溯(SemanticMemory):通用轨则库,存储「奈何作念才对」
语义追溯存储的是详尽的、跨任务通用的交互轨则,举例「需要先登录才能捕快受限页面」「搜索功能时常在页面顶部」等,这些信息约略匡助智能体更好地清爽面前气象背后的举止逻辑,从而作念出更合理的方案。
提示追溯(ExperientialMemory):过往阅历库,复用「见效的提示」
提示追溯存储智能体过往见效完成的任务轨迹,包括原始轨迹和智能体我方生成的反想回来。与纯文本检索不同,TTME选拔了一种搀和检索机制,同期推敲语义一致性和视觉不异性,幸运彩app这种文本-图像搀和检索约略更精确地找到与面前任务不异的历史提示,从而让智能体约略「站在畴前的肩膀上」作念方案。
MASE:两阶段老师,让智能体「学得会」进化
要是说TTME贬责的是「记不住」的问题,那么MASE(Memory-AugmentedSelf-Evolution)贬责的即是「学不会」的问题。MASE是一个两阶段老师框架,旨在将TTME汇集的提示数据迂回为智能体的内在才略,竣事果真的自我进化。

图3.MASE的架构示例图
第一阶段:基础才略老师(GroundingTraining)
第一阶段通过监督微调对内行轨迹进行举止克隆,强化智能体的视觉定位和算作推理才略。这一阶段的中枢办法是让智能体学会「看懂屏幕、找对位置、作念对算作」。
第二阶段:自我进化老师(Self-EvolutionTraining)
第二阶段基于GRPO(GroupRelativePolicyOptimization)算法,引入了多个针对GUI任务的要道鼎新,让智能体约略从我方与环境交互产生的数据中执续学习。
「失败也能变废为宝」:HindsightGoal-Shifting的玄机联想
在GUI智能体的老师中,失败轨迹是不成幸免的,尤其是在长序列任务中,一个中间法子的诞妄就可能导致后续沿途失败。传统作念法是径直丢弃这些失败样本,但这意味着无数的交互数据被浪费。

图4.失败样本的案例

图5.HindsightGoal-Shifting的颐养案例
SE-GA建议了一种玄机的数据精好意思顺序—HindsightGoal-Shifting。其中枢想想是:要是一条失败轨迹的前缀子序列仍是见效完成了某个有用的子办法(举例见效翻开了应用,但后续搜索操作失败),那么就将这条轨迹再行标注为对该子办法的见效实例。这么,底本的「失败样本」就迂回为了「有价值的监督信号」,极地面晋升了老师数据的应用率。这种「变废为宝」的联想,是SE-GA约略在有限交互数据下竣事存效自我进化的要道。
实验驱散
SE-GA以Qwen2.5-VL-7B为基座模子,使用4K条交互轨迹进行老师,在多个程序基准测试上得到了令东谈主驻守的成绩。这些驱散不仅超越了同参数目的悉数基线模子,更在多个目的上超越了72B参数目的大模子。
1.ScreenSpot:GUI定位精度全面卓越

图6.ScreenSpot上的性能对比
在评估GUI元素定位才略的ScreenSpot基准上,SE-GA以89.0%的平均得分超越了包括UI-TARS-72B(88.4%)和Qwen2.5-VL-72B在内的悉数基线模子。这收货于MASE框架均分层奖励联想对视觉定位精度的显耀晋升,终点是点定位奖励和包围框奖励将视觉感知与精确的空间反馈绑定,有用克服了密集GUI布局中的像素级偏差问题。
2.AndroidControl&GUIOdyssey:长周期谈论才略的败坏

图7.AndroidControl和GUIOdyssey上的性能对比
在评估高层谈论才略的AndroidControl-High和GUIOdyssey上,SE-GA不仅超越了悉数同参数目的基线顺序,还与UI-TARS-72B的全体推崇非常。更热切的是,在跨应用导航任务GUIOdyssey上,SE-GA达到了83.9%的法子见效用和96.5%的算作类型准确率,后者以至超越了UI-TARS-72B。这讲解SE-GA不仅能更准确地推论单个算作,还能在复杂的多应用职责流中保执更可靠的长周期方案才略。
3.AndroidWorld:动态环境中的强泛化才略

图8.AndroidWorld上的性能对比
在果真动态环境的AndroidWorld基准上,SE-GA以39.0%的见效用显耀卓越于其他7B模子,包括UI-TARS-7B(33.0%)和GPT-4o(23.7%)。这一驱散充分讲解注解了SE-GA的自我进化机制约略匡助智能体执续探索和妥当动态环境变化,而不是像传统顺序那样依赖静态预老师的零样本泛化。
消融实验
为了考据TTME和MASE各自的孝顺,论文进行了详确的消融实验,驱散揭示了两个组件的不成替代性。

图9.消融实验
回来与盘问
SE-GA提供了一个结伙的框架,将「追溯」和「进化」两个主张邃密逢迎。TTME贬责了「记不住」的问题,让智能体约略珍惜和检索丰富的交互历史;MASE贬责了「学不会」的问题,将非参数化的提示编码为参数化的计策,竣事褂讪的自我进化。两者的逢迎,让GUI智能体从依赖固定数据集的「静态号召推论器」,更动为约略通过交互执续学习和鼎新的「动态学习者」。
诚然,SE-GA也存在一些局限性。跟着TTME模块箝制积聚交互数据,提示追溯库的规模执续增长,基于镶嵌不异度和视觉特征的检索操作可能带来显耀的筹办支出,影响及时推理的反馈速率。尽管如斯,论文也指出了改日的三个热切地方:一是扩大老师数据集以隐敝更多任务类型,二是探索分层任务剖析以搪塞超长职责流,三是斟酌跨平台移动学习,让进化后的计策和追溯结构能妥当不同平台的各异。
在GUI智能体快速发展确当下,SE-GA提供了一个明晰的信号:改日的GUI智能体不应该仅仅更大的模子幸运彩app2026世界杯中国官方下载,而应该是约略记着畴前、学习提示、执续进化的智能系统。只须从语义底层诞生起机制化的追溯与学习体系,改日的GUI智能体才能果真竣事正经果真。

备案号: