文章来源:智汇AI 发布时间:2025-08-07
ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模型(VLM)构建的,能够与真实计算机屏幕进行交互。S
暂无访问ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模型(VLM)构建的,能够与真实计算机屏幕进行交互。研究人员构建了一个包含“计划-执行-反思”的运行流程,以引导智能体与计算机屏幕进行持续性的交互。ScreenAgent的核心功能是通过观察屏幕截图,并输出相应的鼠标和键盘动作来操纵图形用户界面(GUI),从而执行多步骤的复杂任务。

屏幕观察:ScreenAgent能够观察和理解计算机屏幕上的截图。该特性通过VNC协议实现,允许智能体查看桌面操作系统的实时图像。动作生成:基于观察到的屏幕截图,ScreenAgent可以生成相应的鼠标和键盘动作。这些动作以JSON格式的命令序列输出,包括移动鼠标、点击、双击、滚动、拖动以及键盘输入等。任务规划:ScreenAgent 能够根据用户的任务提示,分解复杂的任务为一系列子任务,并为每个子任务规划相应的动作序列。这涉及到对任务的理解、分解和策略制定。执行动作:在规划阶段之后,ScreenAgent执行规划好的子任务,通过发送鼠标和键盘动作命令到计算机,以实现用户的目标。反思评估:在执行动作之后,ScreenAgent会评估执行的结果,决定是否需要重试当前子任务、继续执行下一个子任务,或者调整整个计划。