Press "Enter" to skip to content

四海吧 Posts

“认识高级推理基准(ARB):一个评估大型语言模型的新基准”

自然语言处理在最近几年取得了显著进展,特别是创建了复杂的语言模型。几乎所有的自然语言任务,包括翻译和推理,在像GPT 3.5、GPT 4、BERT、PaLM等著名模型的性能方面都取得了显著进步。一些基准用于评估和评估人工智能领域中这些发展。基准基本上是一组标准化任务的集合,用于测试语言模型的能力。 考虑到GLUE和SuperGLUE基准,它们是最早的几个语言理解基准,像BERT和GPT-2这样的模型更具挑战性,因为语言模型一直在击败这些基准,引发了模型开发和基准难度之间的竞争。通过使模型变得更大并在更大的数据集上进行训练,可以提高性能。LLMs在各种基准测试中展示了出色的表现,评估了它们的知识和数量推理能力,但是当这些模型在当前标准上得分更高时,很明显这些基准已不再适用于评估模型的能力。 为了解决这些限制,一组研究人员提出了一个新的独特基准,称为ARB(高级推理基准)。ARB旨在传达各种学科领域(如数学、物理、生物学、化学和法律)中更困难的问题。与早期的基准相比,ARB侧重于复杂的推理问题,以提高LLM的性能。该团队还引入了一组数学和物理问题,作为ARB的子集,需要复杂的符号思维和深入的学科知识。这些问题非常困难,超出了当前LLMs的范围。 该团队对ARB基准进行了评估,包括GPT-4和Claude。这些模型在处理这些困难的复杂性方面遇到了困难,这些发现表明它们在ARB中更困难的任务上的表现得分明显低于50%。该团队还演示了一种基于评分表的评估方法,以改进评估过程。通过使用这种策略,GPT-4可以评估自己的中间推理过程,试图解决ARB问题。这扩大了审查过程的范围,并揭示了模型的问题解决策略。 ARB的符号子集也经过了人工审查。人工注释员被要求解决问题并提供自己的评估。人类评估者和GPT-4的基于评分表的评估分数之间存在有希望的一致性,表明模型的自我评估与人类判断相当一致。在需要专业推理的数量领域中,新数据集明显优于以前的基准,其中有数百个问题。 与过去基准中的多项选择题不同,大部分问题由简答和开放式回答组成,这使得LLMs更难进行评估。通过专家级推理任务和更现实的问题格式的结合,可以更准确地评估模型处理复杂的现实问题的能力。

Leave a Comment

《佐治亚理工学院论文提出了一种更快地识别潜在超导体的人工智能方法》

超导体在交通、能源和其他行业的尖端技术中是一个重要组成部分来自乔治亚理工学院和河内科技大学的一项新论文提议使用由人工智能驱动的方法更快地识别潜在的超导体根据该论文,这个合作团队…

Leave a Comment

遇见FACTOOL:一种用于检测大型语言模型(例如ChatGPT)生成的文本中事实错误的任务和领域无关框架

GPT-4是生成式人工智能(AI)技术的一个例子,它将自然语言处理中的多个任务结合成一个单一的序列生成问题。这种统一的架构具有卓越的效率和交互性,使用户能够使用自然语言界面执行各种活动(包括代码生成、数学问题解决和科学出版物的创建)。然而,这种生成式范式也带来了一些特定的困难。由于大型语言模型(LLMs)的限制,自动生成的文本经常显示错误或偏离事实。 LLMs往往会创建出令人信服的信息,但可能需要在事实上更准确或精确。这种限制限制了生成式AI在医疗、金融和法律等高风险行业的使用。因此,必须通过系统地识别这些错误来改进所创建材料的实用性和可靠性。例如,用于质量保证的检索增强验证模型、用于文本摘要的幻觉检测模型以及用于代码的执行评估模型等都是当前文献中关注的检测和减轻机器学习模型产生的事实错误的单一特定任务的例子。 鉴于LLMs处理的活动和领域的非凡灵活性,这些方法已经在各自的领域取得了成功。然而,拥有一个更全面的事实性检测和验证框架同样重要。此外,事实性检测的问题在当前文献中通常被概括为:(i)在给定一个主张的情况下评估一个主张是否事实准确,或者(ii)检测生成的主张是否得到给定证据的支持。 在用户与生成模型(如ChatGPT)进行交互时,他们经常需要评估长篇生成的事实准确性,而不是明确的主张和证据,因此需要更好地匹配这个任务定义。在这项研究中,来自上海交通大学、卡内基梅隆大学、香港城市大学、纽约大学、Meta AI、香港科技大学和上海人工智能实验室的研究人员提供了FACTOOL,这是一个任务和领域无关的框架,用于查找LLM生成的文档中的事实错误。在图1中,他们将“工具使用”和“事实性检测”的概念联系起来,并解释了他们的方法。 图1:带有工具增强的事实性检测框架。 为了获得所创建信息的事实性证据,FACTOOL专门使用多种资源,如Google搜索、Google学术、代码解释器、Python甚至LLMs。此外,他们的方法利用LLMs的批判性思维能力,根据可用数据评估内容的事实性。他们创建了一个基准,并对四个任务进行了实验: 基于知识的质量保证 代码生成 解决数学问题 撰写科学文献综述 他们解决了事实性识别的工作,并扩展了它以实现对最新生成式AI模型的更全面审计。根据他们对使用FACTOOL的现代聊天机器人的事实性分析,GPT-4在几乎所有情况下都具有最高的事实性。基于知识的质量保证测试显示,经过精心调整的聊天机器人(Vicuna-13B)具有可观的事实性。然而,它们在撰写科学文献综述和解答算术问题等更困难的任务上还存在困难。

Leave a Comment

谷歌DeepMind与东京大学研究人员推出WebAgent:一种由LLM驱动的代理,可以根据自然语言指令在真实网站上完成任务

通过利用大型语言模型(LLM)的HTML理解和多步推理能力,可以解决一些自然语言任务,包括算术、常识、逻辑推理、问答任务、文本生成,甚至是交互式决策任务。在自主网页导航方面,LLM最近在满足给定的自然语言指令时通过一系列计算机动作控制计算机或浏览互联网展现出了出色的成功。然而,预先定义的动作空间的缺失、与模拟器相比更长的HTML观察以及LLM缺乏HTML领域知识都对实际网站上的网页导航产生了负面影响(图1)。 图1:实际网页导航的困难。现代语言模型代理可以探索虚拟网站,在那里他们控制预定义的操作并接收经过简化且易于理解的HTML文本。然而,在导航实际网站时,代理必须处理开放性任务和包含多个与任务无关的组件的较长HTML文本,因此语言模型代理仍然面临困难。 由于指令的复杂性和开放性的实际网站,预先选择正确的动作空间并不容易。尽管有各种研究表明指令微调或从人类输入中进行强化学习可以提高HTML理解和在线导航的准确性,但目前的LLM只有在处理HTML文本方面偶尔具有最佳性能设计。大多数LLM都优先考虑广泛的任务泛化和模型大小可扩展性,通过优先选择较短的上下文持续时间而不是真实网页中的典型HTML令牌,并且不采用过去用于结构化文档的方法,包括文本-XPath对齐和文本-HTML令牌分离。 即使对这样的长文本应用令牌级别的对齐,成本也相对较低。通过在程序空间中对规范的Web操作进行分组,他们提供了WebAgent,这是一个由LLM驱动的自主代理,可以在实际网站上执行导航任务并遵循人类命令。通过将自然语言指令分解为更小的步骤,WebAgent实现了以下功能: 为每个步骤规划子指令。 基于子指令将较长的HTML页面压缩为与任务相关的片段。 在实际网站上执行子指令和HTML片段。 在这项研究中,来自Google DeepMind和东京大学的研究人员结合了两个LLM,创建了WebAgent:最近创建的HTML-T5是一个专业领域的预训练语言模型,用于工作规划和条件HTML摘要生成。Flan-U-PaLM用于基于代码的生成。通过在编码器中包含本地和全局注意力方法,HTML-T5专门用于更好地捕获较长HTML页面的结构语法和语义。它是自我监督的,使用CommonCrawl1创建的大型HTML语料库进行预训练,并结合了长跨度去噪目标。现有的LLM驱动代理通常使用单个LLM完成决策任务,并为每个任务提示各种示例。然而,对于现实世界的任务来说,这是不够的,因为其复杂性超过了模拟器的复杂性。 通过全面的评估,他们的集成策略与插件语言模型相结合,可以提高HTML理解和连接性,并提供更好的泛化能力。全面的研究表明,将任务规划与HTML摘要结合在专门的语言模型中对于任务性能至关重要,可以使实际在线导航的成功率提高50%以上。与声音基准相比,WebAgent在静态网站理解任务中的问答准确性表现优异,并且具有可比较的性能。此外,HTML-T5还作为WebAgent的关键插件,可以独立地在基于Web的任务上产生尖端结果。在MiniWoB++测试中,HTML-T5比天真的局部-全局注意模型及其指令微调变体表现更好,比以前最佳技术提高了14.9%的成功率。 他们主要做出了以下贡献: • 他们提供了WebAgent,该代理结合了两个LLM,用于实际的网络导航。通用语言模型生成可执行程序,而领域专家语言模型处理规划和HTML摘要。 • 通过采用局部-全局注意力和在大规模HTML语料库上进行长跨度去噪预训练的组合,他们提供了HTML-T5,一种新的HTML特定语言模型。 • 在真实的网站中,HTML-T5的成功率显著提高了50%以上,在MiniWoB++中,它超过了之前的LLM代理14.9%。

Leave a Comment

MLOps覆盖整个机器学习生命周期:论文摘要

这篇AI论文对MLOps领域进行了广泛的研究。 MLOps是一门新兴的学科,专注于自动化整个机器学习生命周期。调查涵盖了广泛的主题,包括MLOps流水线、挑战和最佳实践。它深入探讨了机器学习过程的各个阶段,从模型需求分析、数据收集、数据准备、特征工程、模型训练、评估、系统部署和模型监控等开始。此外,它还讨论了整个生命周期中的业务价值、质量、人类价值和伦理等重要考虑因素。 该论文旨在全面调查MLOps,并强调其在自动化机器学习生命周期中的重要性。调查涵盖了多个主题,包括MLOps流水线、挑战、最佳实践以及机器学习过程的各个阶段。 本文在下图中提供了一个概览: https://arxiv.org/abs/2304.07296:机器学习流程 模型需求分析 为了启动一个机器学习项目,利益相关者必须分析和确定模型需求。本节概述了四个考虑因素:业务价值、模型质量、人类价值(隐私、公平性、安全性和问责制)以及伦理。鼓励利益相关者定义目标,评估用于识别价值和问题的工具,优先考虑需求,涉及相关利益相关者,并确定必要的功能。 数据收集和准备 数据准备阶段在确保机器学习任务的高质量数据方面起着至关重要的作用。本节介绍了数据收集、数据发现、数据增强、数据生成和ETL(提取、转换、加载)过程。强调了数据质量检查、数据清洗、数据合并、数据匹配以及进行探索性数据分析(EDA)以获得数据集洞察的重要性。 特征工程 特征工程对于提高预测建模性能至关重要。本节重点介绍了特征选择和提取、特征构建、特征缩放、数据标记和特征填充等技术。提到了与每种技术相关的具体算法和方法,包括主成分分析(PCA)、独立成分分析(ICA)以及标准化和归一化。 模型训练 模型训练阶段涵盖了不同类型的机器学习模型,包括有监督学习、无监督学习、半监督学习和强化学习。本节讨论了模型选择,包括为特定问题选择适当模型的过程。还探讨了模型选择的方法,如交叉验证、自助法和随机拆分。还讨论了超参数调优,即优化模型参数的过程。 模型评估 模型评估侧重于使用各种指标评估模型的性能。本节介绍了常见的评估指标,如准确率、精确率、召回率、F值和ROC曲线下的面积(AUC)。强调同时考虑模型性能和业务价值的重要性。 系统部署 系统部署涉及选择适当的ML模型操作平台,集成系统,进行系统集成测试,并将系统发布给最终用户。解释了部署策略,包括金丝雀部署和蓝绿部署。还讨论了部署ML系统所面临的挑战,以及实现顺畅部署过程的提示。 模型监控 本文强调在ML系统中进行模型监控的重要性。强调开发人员在ML模型监控和维护方面缺乏知识和经验。本节探讨了模型监控的各个方面,包括漂移检测、模型监控质量、合规性、系统日志记录和模型解释(XAI)。提供了监控数据分布变化、确保模型性能、符合行业特定标准和法规、用于ML流水线的系统日志记录以及实现模型透明度的洞察。 结论 本文通过讨论MLOps的未来以及需要解决的可扩展性和可靠性挑战来总结。它强调了对机器学习模型进行持续监控和维护的重要性,以实现长期成功。 总之,这份综合调研涵盖了MLOps领域内整个机器学习生命周期。它为MLOps管道、挑战、最佳实践、模型需求分析、数据准备、特征工程、模型训练、评估、系统部署和模型监控提供了宝贵的见解。通过详细研究这些主题,本调研旨在帮助研究人员和从业者全面了解MLOps及其实际意义。

Leave a Comment

认识Mentat:一种AI工具,它可以在命令行中协助您完成任何编码任务,并允许它在多个文件中进行编辑协调

术语“Mentat”源于著名作家弗兰克·赫伯特(Frank Herbert)在他的《沙丘》系列科幻书籍中创造的概念。Mentat是经过培训的人类或机器人,类似于人工智能,能够执行复杂的任务,如机器学习和数据分析。他们在执行这些任务时不使用计算机。他们通过大量的训练数据集来增强这些能力。Mentat的角色类似于顾问和分析师。 Mentat是一种能够从命令行协调多个文件的任何编码任务的AI工具。研究人员仍在开发Mentat,因为存在一些问题。最主要的错误是当用户从GitHub账户安装时,总是会出现无效语法的错误。但是,这些问题已经在Python的高级版本中得到解决。第二个错误是由于SSL证书导致的。研究人员表示,SSL证书错误可能是由于证书过期、域名不匹配、自签名证书、不完整的证书链、证书被吊销和弱密码协议等引起的。为了解决这些错误,研究人员建议确保我们在正确的网站上。他们还告诉我清除浏览器中的缓存和Cookie。如果问题仍然存在,他们还提到可以尝试从不同的浏览器访问网站。 Mentat的代码库非常庞大。因此,研究人员建议只检索代码库的一小部分,这样有助于将所有代码库整合到发送给LLM的提示中。提示是与人工智能进行对话的工具。另一个问题涉及使用的API。根据研究团队的说法,用户还可以使用本地llama模型代替OpenAI API。随着问题的解决,Mentat在后期也有所发展。如前所述,Mentat是进化而来的人类机器人,能够执行复杂的数据分析和机器学习任务。 研究人员还提到Mentat在各种领域都有应用。它们也用于处理大型项目。借助Mentat的帮助,可以轻松处理大型项目,因为它们为其提供指导。它们还修复测试错误和清理测试。Mentat还在金融分析和预测、网络安全和威胁分析、医疗保健、自然语言处理、研究、优化、自动驾驶车辆、游戏和欺诈检测等各个领域中找到应用。这些是Mentat应用的一些重要领域。

Leave a Comment

Stack Overflow通过OverflowAI革新开发者支持

Stack Overflow是一个为开发人员寻找技术答案的知名平台。它通过开创性的OverflowAI产品,充分发挥生成式人工智能的潜力。通过利用人工智能的能力,Stack Overflow旨在革新开发人员查找和使用信息的方式。OverflowAI与现有的社区驱动方式相辅相成,使开发人员和企业更容易获得准确和可信赖的解决方案。 了解更多:生成式人工智能:定义、工具、模型、优势等 认识OverflowAI:一项改变游戏规则的人工智能计划 Stack Overflow的新计划OverflowAI引入了一系列强大的人工智能功能,以增强平台的搜索功能。由于对人工智能的信任是一个关键问题,Stack Overflow致力于提供一种能够赋予开发人员权力的解决方案,同时保留社区交互的本质。 通过自然语言处理(NLP)赋予开发人员权力 OverflowAI利用自然语言处理(NLP)实现会话式查询,从Stack Overflow的5800万个问题和答案的庞大知识库中生成高度准确的结果。这种新的人工智能搜索旨在快速有效地为开发人员提供可靠的解决方案。 增强而非替代社区 Stack Overflow强调OverflowAI不是用来取代现有社区的,而是用来补充的。现在,所有经验水平的开发人员都可以从OverflowAI中受益,无需担心社区反馈可能带来的障碍,从而简化搜索流程并提高效率。 Stack Exchange:一个专门的人工智能论坛 作为OverflowAI计划的一部分,Stack Overflow推出了一个新一代的人工智能Stack Exchange。Stack Exchange是一个专门讨论人工智能相关话题的论坛。该平台确保了对人工智能的讨论保持专注,促进了开发人员之间的有价值的思想交流。 OverflowAI适用于Visual Studio Code的扩展 Stack Overflow…

Leave a Comment

对话式人工智能中的LLM:构建更智能的聊天机器人和助手

介绍 语言模型在引人入胜的对话型人工智能领域中占据重要地位,该领域涉及技术和人类之间进行自然对话。最近,一种令人瞩目的突破性进展被称为大型语言模型(LLM)引起了大家的注意。像OpenAI令人印象深刻的GPT-3一样,LLM在理解和生成类似人类文本方面表现出了异常能力。这些令人难以置信的模型已成为一种改变游戏规则的技术,尤其在创建更智能的聊天机器人和虚拟助手方面。 在本博客中,我们将探讨LLM如何为对话型人工智能做出贡献,并提供易于理解的代码示例来展示它们的潜力。让我们深入研究一下,看看LLM如何使我们的虚拟互动更具吸引力和直观性。 学习目标 了解大型语言模型(LLM)的概念及其在推进对话型人工智能能力方面的重要性。 了解LLM如何使聊天机器人和虚拟助手能够理解和生成类似人类的文本。 探索提示工程在指导基于LLM的聊天机器人行为中的作用。 认识到LLM相对于传统方法在改进聊天机器人响应方面的优势。 发现LLM在对话型人工智能的实际应用。 本文是作为数据科学博客马拉松的一部分发表的。 理解对话型人工智能 对话型人工智能是人工智能创新领域,专注于开发能够以自然和类似人类的方式理解和回应人类语言的技术。通过使用自然语言处理和机器学习等先进技术,对话型人工智能赋予聊天机器人、虚拟助手和其他对话系统与用户进行动态和交互式对话的能力。这些智能系统可以理解用户的查询,提供相关信息,回答问题,甚至执行复杂任务。 对话型人工智能已经在客户服务、医疗保健、教育和娱乐等各个领域得到应用,彻底改变了人类与技术互动的方式,为更具共情和个性化的人机交互打开了新的前沿。 语言模型的演进:从基于规则的聊天机器人到LLM 在不久的过去,与聊天机器人和虚拟助手的互动往往感觉呆板和令人沮丧。这些基于规则的系统遵循严格预定义的脚本,依靠开发人员编程的特定关键字和响应。同时,它们提供了回答常见问题等基本功能。由于它们缺乏上下文理解,对话感觉僵硬和有限。 基于规则的聊天机器人时代 语言模型的历程始于基于规则的聊天机器人。这些早期聊天机器人基于预定义的规则和模式运行,依靠开发人员编程的特定关键字和响应。与此同时,它们提供了回答常见问题等基本功能。由于它们缺乏上下文理解,对话感觉僵硬和有限。 统计语言模型的兴起 随着技术的进步,统计语言模型进入了舞台。这些模型利用统计算法分析大量的文本数据集,并从数据中学习模式。采用这种方法,聊天机器人可以处理更广泛的输入范围,并提供稍微更具上下文相关的响应。然而,它们仍然难以捕捉人类语言的复杂性,经常导致不自然和脱节的响应。 基于Transformer模型的兴起 真正的突破发生在基于Transformer模型的出现时,尤其是革命性的GPT(Generative Pre-trained Transformer)系列。第三代GPT-3代表了对话型人工智能的一次重大变革。GPT-3在大量互联网文本的预训练基础上,利用深度学习和注意力机制的威力,使其能够理解上下文、语法、语法甚至类似人类的情感。 理解大型语言模型 具有复杂神经网络的LLM,由开创性的GPT-3(Generative…

Leave a Comment

在无源领域适应中突破障碍:NOTELA对生物声学和视觉领域的影响

深度学习在各种应用领域取得了重要的进展。一个重要的贡献因素是越来越大型的数据集和模型的可用性。然而,这一趋势的一个缺点是,训练最先进的模型也变得越来越昂贵,这引起了环境问题,并对一些从业者的可访问性造成了困扰。此外,在部署过程中,直接重用预训练模型可能会导致性能下降,因为面对分布转移。研究人员已经探索了无源域自适应(SFDA)来解决这些挑战。这种技术在没有访问原始训练数据的情况下,将预训练模型适应到新的目标域。本文重点介绍了SFDA问题,并介绍了一种名为NOTELA的新方法,旨在解决音频领域(特别是生物声学)中的分布转移问题。 广泛用于鸟类物种分类的生物声学数据集(XC)包括: 聚焦录音。 在自然条件下针对个体鸟类。 通过全向麦克风获取的声景录音。 它存在独特的挑战,声景录音具有较低的信噪比,同时多只鸟类同时发声,以及环境噪音等显著的干扰因素。此外,声景录音是从不同地理位置收集的,导致标签出现极端转移,因为XC中的物种只有一小部分可能出现在特定区域。此外,源域和目标域都存在类别不平衡问题,并且由于每个录音中存在多个鸟类物种,该问题是一个多标签分类任务。 在这项研究中,Google研究人员首先评估了生物声学数据集上的几种现有SFDA方法,包括熵最小化、伪标注、降噪师生和流形正则化。评估结果显示,虽然这些方法在传统视觉任务中取得了成功,但在生物声学中的表现差异显著。在某些情况下,它们的性能甚至不如没有自适应。这个结果凸显了需要专门的方法来处理生物声学领域的独特挑战。 为了解决这个局限性,研究人员提出了一种名为NOisy student TEacher with Laplacian Adjustment(NOTELA)的新颖方法。这种新方法结合了降噪师生(DTS)方法和流形正则化(MR)技术的原则。NOTELA引入了一种向学生模型添加噪声的机制(受DTS启发),同时在特征空间中强制实施簇假设(类似于MR)。这种组合有助于稳定适应过程,并增强模型在不同领域的泛化能力。该方法将模型的特征空间作为额外的真实信息源,使其能够在具有挑战性的生物声学数据集中取得成功,并实现最先进的性能。 在生物声学领域,NOTELA在源模型之上展现出了显著的改进,并在多个测试目标域中优于其他SFDA方法。它在多标签分类的标准指标——平均精度(mAP)和类别平均精度(cmAP)方面表现出色。它在不同目标域上的显著表现,如S. Nevada(mAP 66.0,cmAP 40.0)、Powdermill(mAP 62.0,cmAP 34.7)和SSW(mAP 67.1,cmAP 42.7),突显了其在处理生物声学数据集的挑战方面的有效性。 在视觉任务的背景下,NOTELA始终展现出强大的性能,优于其他SFDA基线。它在各种视觉数据集上都取得了显著的Top-1准确率结果,包括CIFAR-10(90.5%)和S. Nevada(73.5%)。尽管在ImageNet-Sketch(29.1%)和VisDA-C(43.9%)上的表现略低,但NOTELA在处理生物声学和视觉领域的SFDA问题方面的整体有效性和稳定性是显而易见的。 https://arxiv.org/abs/2302.06658 上图显示了六个声景数据集上多标签分类测试平均精度(mAP)的演变。它将NOTELA和Dropout…

Leave a Comment

康奈利斯网络软件工程副总裁道格·富勒 – 采访系列

作为软件工程副总裁,Doug负责Cornelis Networks的软件栈的所有方面,包括Omni-Path架构驱动程序、消息软件和嵌入式设备控制系统在加入Cornelis Networks之前,Doug在Red Hat领导云存储和数据服务的软件工程团队Doug在HPC和云计算领域有着丰富的职业生涯[…]

Leave a Comment