认识 Pix2Act：一种可以使用基于像素的屏幕截图和通用键盘和鼠标操作与GUI进行交互的AI代理，其使用与人类通常使用的概念界面相同

认识 Pix2Act：一种可以使用基于像素的屏幕截图和通用键盘和鼠标操作与GUI进行交互的AI代理，其使用与人类通常使用的概念界面相同机器学习第1张

通过使用户连接工具和服务，能够遵循图形用户界面(GUI)指令的系统可以自动化繁琐的工作，增加可访问性，并增加数字助手的实用性。

许多基于GUI的数字代理实现都依赖于HTML衍生的文本表示，这些表示并不总是容易获取。人们通过感知视觉输入并使用标准的鼠标和键盘快捷键来使用GUI；他们不需要查看应用程序的源代码来弄清楚程序的工作原理。无论底层技术如何，他们都可以通过直观的图形用户界面快速掌握新的程序。

雅达利游戏系统只是一个例子，说明了一个从仅像素输入中学习的系统可以表现得多么出色。然而，在尝试基于GUI的指令跟随任务时，从仅像素输入中学习时会面临许多障碍，这与通用的低级动作相结合。要对GUI进行视觉解释，必须熟悉界面的结构，能够识别和解释视觉定位的自然语言，识别和识别视觉元素，并预测这些元素的功能和交互方法。

谷歌DeepMind和谷歌介绍了PIX2ACT，这是一个模型，它以基于像素的截屏作为输入，并选择与基本鼠标和键盘控件匹配的操作。研究小组首次证明，一个只有像素输入和通用操作空间的代理可以超过人类众包工作者，并达到使用DOM信息和相当数量的人类演示的最先进代理的性能。

为此，研究人员扩展了PIX2STRUCT。这个基于Transformer的图像到文本模型已经通过大规模在线数据进行了训练，将截图转换为基于HTML的结构化表示。PIX2ACT应用树搜索来反复构建新的专家轨迹进行训练，采用人类演示和与环境的交互的组合。

团队在这里的努力包括创建一个通用的基于浏览器的环境框架，并使用标准的跨域观察和操作格式调整了两个基准数据集MiniWob++和WebShop，以在其环境中使用。使用他们提出的选项（不带DOM的CC-Net），PIX2ACT在MiniWob++上的表现比人类众包工作者高出约四倍。削减实验表明，PIX2STRUCT的基于像素的预训练对PIX2ACT的性能至关重要。

对于基于GUI的指令跟随像素输入，研究结果表明PIX2STRUCT通过屏幕截图解析的预训练的有效性。在行为克隆环境中进行预训练将MiniWob++和WebShop任务得分分别提高了17.1和46.7。尽管与使用基于HTML的输入和任务特定操作的较大语言模型相比仍存在性能劣势，但这项工作为这个环境设置了第一个基准。