在人工智能迅速发展的领域中,长文本语言模型(LLM)无疑改变了我们在互联网上学习和创作的方式。它们能够提供广泛而富有对话性的答案,回答各种问题。然而,它们也存在一些局限性。它们难以及时更新,常常产生错误信息,并且在理解数学、科学和逻辑等复杂主题方面面临挑战。这些缺点导致在提供准确可靠的信息方面出现了空白,尤其是在STEM领域。
为了应对这些挑战,You.com在2022年推出了一款消费产品,利用LLM的功能来访问和参考互联网,确保答案全面更新,并附带引用文献。在此成功的基础上,You.com在2023年春季推出了多模态聊天输出,通过提供绘图、图表和应用等交互式视觉效果,增强了用户体验,为实时话题提供了可靠的文本回答的替代方案。
现在,You.com推出了具有开创性的YouAgent,将AI代理概念提升到一个新的水平。与传统的LLM不同,YouAgent不仅能够处理信息,还可以在其环境中执行操作。这是通过运行Python代码的计算环境实现的。LLM可以编写和执行代码,为复杂的STEM问题解决打开了可能性。结合YouAgent的多步推理过程,这个代码解释器使其能够以无与伦比的准确性解决复杂的STEM问题。
使用YouAgent非常简单。用户可以在AI聊天界面中使用“@agent”或“/agent”发起查询。这将促使You.com与YouAgent进行交互,YouAgent可以在其计算环境中执行Python代码。目前,每个登录用户每天可以进行最多五次YouAgent查询,而YouPro订阅用户每天可以进行多达100次查询。
YouAgent在STEM基准测试中的表现令人印象深刻。与强大的GPT-4相比,YouAgent在各种任务中始终表现出卓越的准确性。值得注意的是,在官方ACT数学部分的准确性上,有27%的绝对增加。这相当于C-和A+学生之间的差距,展示了YouAgent在计算密集型评估中的能力。

YouAgent的一个突出特点是它能够回答其他消费者LLM产品难以解答的STEM问题。凭借对代码执行环境和多步推理能力的访问,YouAgent可以可靠地回答涉及复杂数学操作的问题,使其与竞争对手区别开来。
尽管取得了一定的成就,YouAgent也意识到还有改进的空间。在基准测试中实现100%的准确性是一个需要持续研究和开发的目标。此外,团队还希望改进代码的执行方式,确保其在优化问题解决方面的合理使用。
展望未来,YouAgent有着雄心勃勃的扩展计划。包括支持文件上传,生成绘图和图形等图像输出,并通过代码执行进行网络搜索。还将增加更多的数学和科学库,改进数学文本的格式,以及在各种STEM基准测试中持续提高性能。
总之,YouAgent代表了在利用AI代理的潜能方面的重大飞跃。它解决了传统LLM所面临的重要限制,在STEM领域提供准确可靠的信息。通过利用计算环境执行Python代码,YouAgent在复杂问题解决方面展示了无与伦比的能力。展望未来,YouAgent有望彻底改变我们与AI技术互动和获取洞见的方式,为STEM学科的学习和问题解决开辟了新的时代。