Press "Enter" to skip to content

“见证GPT-4V-Act:一个将GPT-4V(视觉)和网络浏览器和谐结合的多模态人工智能助手”

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/ezgif-2-c195e4f047.gif”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/ezgif-2-c195e4f047-150×150.gif”/><p>一位机器学习研究人员最近在Reddit社区上分享了他们最新的项目GPT-4V-Act的发布。这个想法是受到了关于GPT-4V中的一种名为Mark集的视觉定位策略的最近讨论的启发。有趣的是,测试表明具有这种功能的GPT-4V可以分析用户界面截屏,并提供鼠标和键盘完成某个任务所需的准确像素坐标。</p><p>到目前为止,该代理已经显示出在Reddit上发布帖子、进行产品搜索以及启动结账过程方面的能力,尽管只经过了有限的测试。有趣的是,它还识别出了自动标注器在尝试玩游戏时的缺陷,并试图纠正这一行为。</p><p>利用GPT-4V(ision)和浏览器的完美协调,GPT-4V-Act是一个口才流畅的多模态人工智能助手。它以低级鼠标和键盘输入和输出的方式模拟人类控制。其目标是在人类和计算机之间提供流畅的工作流程,从而推动技术的发展,大大提高任何用户界面的可用性,促进工作流程的自动化,并使自动化用户界面测试成为可能。</p><p><strong>其功能</strong></p><p>通过将GPT-4V(ision)和Mark集提示与个体自动标注器结合起来,我们实现了GPT-4V-Act。此自动标注器为每个可以进行交互的用户界面元素分配了其数字ID。</p><p>GPT-4V-Act可以从任务和屏幕截图中推断完成任务所需的步骤。当使用鼠标或键盘输入时,这些数字标签可以用作指向精确像素坐标的指针。</p><p><strong>重要提示</strong></p><p>由于GPT-4V(ision)尚未向广大公众发布,因此在此项目上进行多模态提示需要当前的ChatGPT Plus订阅。值得注意的是,该项目使用的未经批准的GPT-4V API可能违反相应的ChatGPT服务条款。</p><p>包含函数调用等功能的语言模型(LMs)正在兴起。这些主要在API和文本表示的状态上运行。具有用户界面(UI)的代理在一般情况下可能更有用,因为这些情况下它们是不可行的。由于代理与计算机的交互类似于人类的交互,可以通过专家演示来进行训练,而不需要广泛的专业知识。</p>

Leave a Reply

Your email address will not be published. Required fields are marked *