Press "Enter" to skip to content

认识 Pix2Act:一种可以使用基于像素的屏幕截图和通用键盘和鼠标操作与GUI进行交互的AI代理,其使用与人类通常使用的概念界面相同

认识 Pix2Act:一种可以使用基于像素的屏幕截图和通用键盘和鼠标操作与GUI进行交互的AI代理,其使用与人类通常使用的概念界面相同 机器学习 第1张认识 Pix2Act:一种可以使用基于像素的屏幕截图和通用键盘和鼠标操作与GUI进行交互的AI代理,其使用与人类通常使用的概念界面相同 机器学习 第2张

通过使用户连接工具和服务,能够遵循图形用户界面(GUI)指令的系统可以自动化繁琐的工作,增加可访问性,并增加数字助手的实用性。

许多基于GUI的数字代理实现都依赖于HTML衍生的文本表示,这些表示并不总是容易获取。人们通过感知视觉输入并使用标准的鼠标和键盘快捷键来使用GUI;他们不需要查看应用程序的源代码来弄清楚程序的工作原理。无论底层技术如何,他们都可以通过直观的图形用户界面快速掌握新的程序。

雅达利游戏系统只是一个例子,说明了一个从仅像素输入中学习的系统可以表现得多么出色。然而,在尝试基于GUI的指令跟随任务时,从仅像素输入中学习时会面临许多障碍,这与通用的低级动作相结合。要对GUI进行视觉解释,必须熟悉界面的结构,能够识别和解释视觉定位的自然语言,识别和识别视觉元素,并预测这些元素的功能和交互方法。

谷歌DeepMind和谷歌介绍了PIX2ACT,这是一个模型,它以基于像素的截屏作为输入,并选择与基本鼠标和键盘控件匹配的操作。研究小组首次证明,一个只有像素输入和通用操作空间的代理可以超过人类众包工作者,并达到使用DOM信息和相当数量的人类演示的最先进代理的性能。

为此,研究人员扩展了PIX2STRUCT。这个基于Transformer的图像到文本模型已经通过大规模在线数据进行了训练,将截图转换为基于HTML的结构化表示。PIX2ACT应用树搜索来反复构建新的专家轨迹进行训练,采用人类演示和与环境的交互的组合。

团队在这里的努力包括创建一个通用的基于浏览器的环境框架,并使用标准的跨域观察和操作格式调整了两个基准数据集MiniWob++和WebShop,以在其环境中使用。使用他们提出的选项(不带DOM的CC-Net),PIX2ACT在MiniWob++上的表现比人类众包工作者高出约四倍。削减实验表明,PIX2STRUCT的基于像素的预训练对PIX2ACT的性能至关重要。

对于基于GUI的指令跟随像素输入,研究结果表明PIX2STRUCT通过屏幕截图解析的预训练的有效性。在行为克隆环境中进行预训练将MiniWob++和WebShop任务得分分别提高了17.1和46.7。尽管与使用基于HTML的输入和任务特定操作的较大语言模型相比仍存在性能劣势,但这项工作为这个环境设置了第一个基准。

Leave a Reply

Your email address will not be published. Required fields are marked *