在推出模型并在生产中支持它们时,更多的是工程方面而不是机器学习方面当机器学习项目进入生产阶段时,越来越多的人参与其中:后端…
Leave a CommentTag: Machine learning
本文是基于以下文章的 https//www.sciencedirect.com/science/article/abs/pii/S0377221723006598 如果您正在阅读这篇文章,您可能知道人工智能(AI)的关键性…
Leave a Comment这篇文章是AWS SageMaker系列的一部分,旨在探索“塑造财富500机器学习策略的31个问题”之前的博客文章有“数据采集与探索”和“数据…”
Leave a Comment“Oracle CloudWorld主题演讲与行业领袖们讨论利用云计算和人工智能进行数字化转型的旅程,重新塑造体验和商业模式”
Leave a Comment大型语言模型(LLM)是人工智能中最热门的趋势之一它们展示出令人印象深刻的文本生成能力,范围涵盖与人类用户进行对话的能力…
Leave a Comment搜索革命:Chat GPT、语音和图像技术正在改变我们在线搜索的方式,使其更加自然、高效和包容
Leave a Comment大型语言模型(LLMs)在过去几个月取得了巨大的进展,在许多不同领域击败了最先进的基准。人们在使用和研究大型语言模型(LLMs)方面有了明显的增长,特别是在自然语言处理(NLP)领域。除了在SAT、LSAT、医学院考试和智商测试等方面通过甚至超越,这些模型在各种自然语言任务中也显著超过了最先进技术(SOTA)。这些显著的发展引发了关于在日常任务中采用和依赖这些模型的广泛讨论,从医疗建议到安全应用再到分类工作项。 由苹果研究人员提出的一种新的测试范式之一,使用了当前LLMs正在使用的训练数据中可能被排除的表达式。他们表明,LLMs广泛使用了有性别偏见的假设。他们研究了LLMs对其决策的理由,并发现LLMs经常对刻板印象本身进行明确陈述,除了使用关于句子结构和语法的主张,这些主张在更详细的调查中并不成立。LLM的行为与西方文明的集体智慧相一致,至少在用于训练LLMs的数据中编码。找到这种行为模式、分离其原因并提出解决方案至关重要。 语言习得算法的性别偏见 关于语言模型中的性别偏见已经有了广泛的研究和记录。根据研究,无约束的语言模型反映并加剧了所处文化中的偏见。除了自动字幕、情感分析、毒性检测、机器翻译和其他NLP任务,性别偏见还在各种模型中得到了证明。性别不是唯一一个受到这种偏见影响的社会类别;宗教、肤色、国籍、残疾和职业都包括在内。 句子理解中的无意识偏见 人类句子处理文献还广泛记录了使用几种实验方法来证明性别偏见。总之,研究表明,了解文本中名词的有性别类别可以帮助理解,代词通常被认为是指主语而不是宾语。因此,在不太可能的情况下,句子得分可能会下降,阅读速度可能会降低,并且眼动实验中的回归等意外效应可能会发生。 社会对女性的偏见 鉴于性别成见和偏见在当今文化中的存在和普遍性,也许不应该奇怪语言模型的输出也会表现出偏见。从医学和经济学到教育和法律等各个领域都已经记录了性别偏见,但是这些发现的完整调查超出了本研究的范围。例如,研究发现各种学科和教育环境中存在偏见。即使是学前儿童也容易受到刻板印象的负面影响,这可能对自我认知、学业和职业选择以及其他发展领域产生持久影响。 设计 科学家们设计了一个类似于但与WinoBias不同的框架来研究性别偏见。每个研究项目都包括一对描述职业的名词,一个与男性刻板印象相关,另一个与女性刻板印象相关,以及一个男性化或女性化的代词。根据战术的不同,他们预期会有各种不同的反应。此外,根据与句子的词汇成分相关的假设和世界知识,该技术可能会从句子到句子不断变化。 由于研究人员认为WinoBias句子现在已成为多个LLMs的训练数据的一部分,他们在工作中避免使用这些句子。相反,他们按照上述模式构建了15个句子模式。此外,与WinoBias不同,他们不是根据美国劳工部的数据选择名词,而是根据衡量英语使用者对特定表示男性或女性倾向的职业名词看法的研究进行选择。 2023年,研究人员检查了四个对公众开放的LLMs。在模型有许多配置选项时,他们使用了工厂默认设置。他们提供了关于代词和职业选择之间关系的对比结果和解释。 研究人员没有考虑LLMs的行为,例如使用(和不使用)诸如单数they和新代词等性别中立代词,如何反映和影响跨性别个体的现实。鉴于这些二元范式的发现和以往研究的数据缺失,他们推测包含更多性别将对LLM的性能产生更加沉重的影响。在这里,他们承认接受这些假设可能会伤害那些不符合这些简单性别观念的边缘化群体,并且他们对未来研究专注于这些微妙关系并为其带来新的启示表示乐观。 总结 为了确定现有的大型语言模型是否存在性别偏见,研究人员设计了一个简单的场景。WinoBias是一个流行的性别偏见数据集,预计已包含在现有LLM的训练数据中,而这个范式扩展了但又有所区别于该数据集。研究人员检查了2023年第一季度发布的四个LLM。他们发现不同模型之间存在一致的结果,表明他们的发现可能适用于当前市场上的其他LLM。他们显示LLM对男性和女性存在性别偏见的假设,特别是那些符合人们对男性和女性职业的观念,而不是基于来自美国劳工局的数据揭示的情况的观念。其中一个关键发现是: (a) LLM在决定哪个代词最有可能指代哪个性别时使用了性别刻板印象;例如,LLM使用代词“他”指代男性,“她”指代女性。 (b) LLM倾向于放大关于女性的性别偏见观念,而不是男性。虽然LLM在特定提示下普遍观察到这一点,但在自由发挥时很少这样做。 (d) LLM对其决策给出似乎有权威性的理由,但这些理由往往是错误的,可能掩盖了其预测背后的真正动机。 这些模型的另一个重要特征因此被揭示出来:由于LLM是在有偏见的数据上进行训练的,即使在使用人类反馈进行强化学习时,它们也倾向于反映和加剧这些偏见。研究人员坚持认为,就像其他形式的社会偏见一样, marginalized people and…
Leave a Comment令人难以置信的大型语言模型(LLM)的引入在人工智能领域具有划时代的意义。由于这些复杂算法受到大量数据和计算能力的驱动,人类与技术的互动方式发生了变化。人工智能正在改变人与机器的互动方式,而借助于LLM的强大能力,许多领域正在得到革命性的改变。 Transformer模型需要前馈层,因为它们对模型的性能至关重要。这些层负责转换输入数据,并且对模型的性能起着核心作用。近年来,Transformer模型的规模不断扩大,其前馈层现在包含数万个隐藏神经元。因为模型规模的增长导致了推断过程中更高的计算开销,因此寻找加速前馈层计算的策略至关重要。 在非常大的网络中,只需要前馈隐藏神经元的一小部分就足以确定给定输入的输出。为了应对这一认识,人们努力创建利用这种现象的模块化网络。最近在这个领域的研究集中在鼓励前馈层稀疏性的架构布局上。这些设计要求训练一个门控层,在推断过程中选择要使用的专家,并将前馈层细分为不同的神经元块。这种方法增加了训练复杂性,缩短了推断时间,但也依赖于有噪声的门控。 作为现有方法的替代方案,来自苏黎世联邦理工学院的两位研究人员引入了快速前馈(FFF)架构。FFF使用可微分的二叉树,将输入空间分为多个区域,同时学习每个区域的边界和相关的神经元块。与传统的前馈层和模块化技术相比,FFF具有优势。它通过对数时间访问特定的神经元块,降低了推断时间。这与之前方法的前馈层宽度线性扩展形成对比。 FFF与混合专家(MoE)方法进行了比较,后者也使用专家块但包含有噪声的门控。FFF避免了这种噪声,并通过减少计算复杂性实现了更快的推断。研究人员还强调了FFF取得的令人印象深刻的速度增益。它指出,FFF比传统的前馈网络快220倍,这表明在计算效率方面有了显著改进。例如,FFF在视觉Transformer中的应用被强调,声称FFF在仅使用1%的神经元的情况下可以保持94.2%的预测性能。 总之,FFF的设计无疑是提高神经网络计算效率的一种划时代的方法。与专家混合网络相比,它表现出色,并且与典型的前馈网络相比,推断时间大大缩短。FFF的训练特性,如无噪声的条件执行以及在使用较少神经元的情况下达到良好的预测准确性,也是其主要特点。这些发展有潜力加快和提高巨型模型的性能,从而革新深度学习行业。
Leave a Comment大型语言模型(LLMs)在文本生成任务以及其他自然语言处理任务中取得了重大进展。生成能力的一个基本组成部分是生成结构化数据的能力,在先前的研究中引起了广泛关注。然而,LLMs在生成复杂的结构化输出方面仍然表现不佳,这是各种应用的关键技能,从自动报告撰写到编码帮助。此外,对LLMs生成结构化输出的能力进行的研究相对较少;大多数对LLMs的评估都集中在自发文本或代码开发上。这引发了一个问题,即LLMs能否很好地生成复杂的结构化数据。 耶鲁大学、浙江大学、纽约大学和苏黎世联邦理工学院的研究人员旨在对这些开放问题进行彻底分析并加以解决。首先,需要对LLMs生成复杂结构化数据的能力进行更全面的研究。以往评估LLMs在结构化数据上的尝试主要集中在简单的信息提取(IE)任务上,例如提取关系、识别事件和识别命名实体。在这种情况下,IE任务的目标是以井然有序的方式收集提取的数据。相比于以LLM为中心的工作,早期的工作更加任务为中心。使用像BART和T5这样的预训练模型,这些模型可以从文本中生成结构化数据,主要关注的是文本到数据的问题。其次,需要全面评估LLMs的性能或指标。 现有的基准经常使用简单的客观度量标准(如词重叠)来衡量机器生成的内容分类信息的质量。但是,可能需要更多的内容来确定LLMs是否能够提供结构化输出,因为适当的评估标准还应考虑所生成信息的格式。第三,当前的LLMs是否能更准确地遵循人类自然语言输入并提供具有准确格式和无错误内容的输出?本研究试图填补文献中的这些空白,并改进LLMs生成结构化输出的训练数据集和评估标准。 以下是他们的贡献列表:(1)他们创建了一个名为STRUCBENCH的基准,专注于生成原始文本、HTML和LaTeX形式的结构化文本。他们还仔细评估了知名LLMs的能力,发现了内容正确性、格式化、数值推理和管理冗长表格方面的重大问题。(2)他们对知名LLMs在结构化文本生成基准上进行了实证评估,包括重要数据集,并扩展到不同领域,使人们更深入地了解常见错误类型和缺陷的规模。他们的研究结果表明,GPT-3.5和GPT-4在生成准确的输出方面需要帮助,问题主要出在错误的内容、格式不佳、数值推理能力不足以及无法处理冗长表格等方面。(3)他们使用结构感知指令调整来解决这些问题,通过使用ChatGPT创建格式指令,训练LLaMA模型遵循这些格式。对可见和隐藏数据的积极结果表明,这可能显著提高LLMs提供结构化输出的能力。
Leave a Comment生成式人工智能在过去两年取得了巨大的飞跃,这要归功于大规模扩散模型的成功发布。这些模型是一种生成模型,可以用来生成逼真的图像、文本和其他数据。 扩散模型通过从随机噪声图像或文本开始,逐渐添加细节。这个过程被称为扩散,类似于现实世界中物体逐渐变得越来越详细的过程。它们通常在一个大型真实图像或文本数据集上进行训练。 另一方面,视频生成在近年来也取得了显著的进展。它包含了生成逼真和动态视频内容的令人兴奋的能力。这项技术利用深度学习和生成模型生成从超现实的梦幻景观到对我们世界的逼真模拟的视频。 利用深度学习的能力来精确控制视频的内容、空间排列和时间演化,对各种应用领域都具有巨大的潜力,从娱乐到教育等等。 在历史上,这个领域的研究主要集中在视觉线索上,严重依赖于初始帧图像来引导后续的视频生成。然而,这种方法有其局限性,特别是在预测视频的复杂时间动态方面,包括摄像机运动和复杂的物体轨迹。为了克服这些挑战,最近的研究已经转向将文本描述和轨迹数据作为额外的控制机制。虽然这些方法取得了重大进展,但它们也有自己的限制。 让我们来认识一下DragNUWA,它解决了这些限制。 DragNUWA是一个具有细粒度控制的轨迹感知视频生成模型。它无缝集成了文本、图像和轨迹信息,提供了强大和用户友好的可控性。 使用DragNUWA生成的示例视频。来源:https://arxiv.org/pdf/2308.08089.pdf DragNUWA有一个生成逼真视频的简单公式。这个公式的三个支柱是语义、空间和时间控制。这些控制分别通过文本描述、图像和轨迹来实现。 文本控制以文本描述的形式进行。这将意义和语义注入到视频生成中。它使模型能够理解和表达视频背后的意图。例如,它可以区分真实世界中的鱼游泳和一幅画中的鱼。 对于视觉控制,使用图像。图像提供了空间上下文和细节,有助于准确地表示视频中的对象和场景。它们是文本描述的重要补充,为生成的内容增加了深度和清晰度。 这些都是我们熟悉的东西,而真正的区别在于DragNUWA在最后一个组成部分中的应用:轨迹控制。 DragNUWA采用开放域轨迹控制。而以前的模型在处理轨迹复杂性方面存在困难,DragNUWA采用了轨迹采样器(TS)、多尺度融合(MF)和自适应训练(AT)来应对这一挑战。这一创新使得可以生成具有复杂的、开放域的轨迹、逼真的摄像机运动和复杂的物体交互的视频。 DragNUWA概览。来源:https://arxiv.org/pdf/2308.08089.pdf DragNUWA提供了一个端到端的解决方案,将文本、图像和轨迹三个基本的控制机制统一起来。这种整合赋予用户对视频内容的精确和直观的控制能力。它重新构想了视频生成中的轨迹控制。它的TS、MF和AT策略实现了对任意轨迹的开放域控制,使其适用于复杂和多样化的视频场景。
Leave a Comment在ChatGPT之后,每家公司都在努力制定自己的AI战略,但这很快引发了一个问题:安全性如何? 有些人可能对保护新技术感到不知所措。好消息是,今天已经有了一些政策和实践,这些都是很好的起点。 事实上,前进的道路在于扩展企业和云安全的现有基础。这是一个可以总结为六个步骤的旅程: 扩大对威胁的分析 拓宽应对机制 保护数据供应链 利用AI扩大努力 保持透明 持续改进 AI安全是在现有的企业保护基础上构建的。 拓展视野 第一步是熟悉新的领域。 安全现在需要覆盖AI开发的整个生命周期。这包括新的攻击面,如训练数据、模型以及使用它们的人员和流程。 通过对已知类型的威胁进行推演,以识别和预测新出现的威胁。例如,攻击者可能会在云服务上训练模型时访问数据,试图改变AI模型的行为。 过去进行漏洞探测的安全研究人员和红队将再次成为重要资源。他们需要访问AI系统和数据,以识别和应对新的威胁,并帮助与数据科学人员建立良好的工作关系。 拓宽防御 在威胁情况清楚之后,确定对抗这些威胁的方法。 密切监控AI模型的性能。假设它会漂移,出现新的攻击面,就像传统安全防御会被攻破一样。 同时建立已经存在的PSIRT(产品安全事件响应团队)实践。 例如,NVIDIA发布了涵盖其AI产品组合的产品安全政策。包括Open Worldwide Application Security Project在内的一些组织已经发布了针对AI的关键安全要素的实施,例如用于识别传统IT威胁的常见漏洞枚举方法。 将传统的防御措施如下列应用于AI模型和工作流中:…
Leave a Comment近年来,世界目睹了人工智能领域的显著激增这不仅仅是另一个技术趋势,而是一场正在重新塑造世界的技术革命
Leave a Comment这篇博客文章提供了一个关于在PyTorch中构建卷积神经网络进行图像分类的教程,利用卷积和池化层进行特征提取,以及全连接层进行预测
Leave a Comment通过显著提高广泛任务的最新性能和揭示新的新兴技能,大型语言模型(LLM)对NLP研究和应用产生了深远影响。为了将输入文本编码为表示向量,已经进行了仅编码器模型的研究;为了创建文本,已经研究了仅解码器模型;为了完成序列到序列的生成,已经研究了编码器-解码器模型。模型大小和训练数据集的指数级增长,这两者都是最大性能的扩展率所需的,是LLM卓越能力背后的主要推动力。例如,尽管BERT模型只包含几亿个参数,但更现代的基于GPT的模型现在包含数千亿个参数。 庞大的模型大小和庞大的训练数据集是提升大型语言模型(LLM)具有惊人学习能力的主要要素。随着NLP的发展,LLM已逐渐向公众开放,以鼓励进一步的研究和实际应用。然而,这些LLM的训练数据集通常只提供部分,特别是对于最新的最先进模型。需要进行大量数据清理和去重,以创建高质量的LLM训练数据。因此,对训练数据更加开放的需求,阻碍了复制发现和推进LLM中的幻觉和偏见研究领域的努力。在多语言学习场景中,这些困难在通常不充分收集和清理多语言文本集合的情况下更加复杂。因此,目前没有一个可以用于跨语言训练LLM的良好开源数据集。CulturaX是由俄勒冈大学和Adobe Research的学术界合作开发的,包括167种语言的63万亿个标记的大型多语言数据集,旨在解决这个问题。为了确保模型训练的最高质量,数据集经过严格的处理流程,包括多个清理和去重的步骤。这些过程包括识别数据集中的语言、使用URL过滤数据集、使用度量标准清理数据集、优化文档和去重数据。 CulturaX经过全面的文档级清理和去重,以确保跨语言训练LLM的最高质量。数据清理过程使用完整的流水线来消除不准确的信息。这需要消除不准确的语言识别、有毒数据和非语言材料等干扰因素。 主要特点 CulturaX是迄今为止最大的经过全面清理和去重的开源多语言数据集,可用于LLM和NLP应用。 CulturaX提供了一个多语言、开源和庞大的数据集,具有立即可用和高质量的数据,可用于训练LLM,解决当前数据集的许多问题。 虽然存在包含各种语言文本数据的多语言开源数据集,如mC4,但它们的质量和规模不符合高效训练LLM的要求,特别是生成模型如GPT。例如,如介绍中所提到的,mC4和OSCAR都没有提供文档级模糊去重。mC4的语言识别使用cld3的结果较差,这是另一个缺点。虽然CC100确实包含2018年以后的数据,但BigScience ROOTS只为46种语言提供了部分数据的样本。 HuggingFace的CulturaX的完整公开发布将有助于进一步研究多语言LLM及其应用。在这里查看https://huggingface.co/datasets/uonlp/CulturaX 您应该了解一下CulturaX,这是一个包含167种语言的新的多语言数据集。经过全面的工作流程清理和去重后,数据集中含有63万亿个标记。作为一个庞大而高质量的数据集,CulturaX可以轻松用于训练各种语言的有效LLM。这些信息对公众免费提供,并且研究人员希望它可以激发进一步的语言习得研究和实际应用。
Leave a Comment从CIKM会议上的AIMLAI研讨会论文中:「现在你看到我(CME):基于概念的模型提取」(GitHub)问题——深度神经网络模型是黑盒子,无法…
Leave a Comment近年来,大型语言模型(LLMs)在人工智能领域获得了重要地位,但它们主要关注文本,并且在理解视觉内容方面存在困难。多模态大型语言模型(MLLMs)应运而生,用于弥合这一差距。MLLMs将视觉和文本信息结合在一个基于Transformer的模型中,使其能够从两种模态中学习和生成内容,标志着人工智能能力的重大进展。 KOSMOS-2.5是一个多模态模型,旨在在统一框架内处理两个密切相关的转录任务。第一个任务涉及生成具有空间感知的文本块,并在文本丰富的图像中为文本行分配空间坐标。第二个任务侧重于以markdown格式生成结构化文本输出,捕捉各种样式和结构。 这两个任务在单个系统下管理,利用共享的Transformer架构、任务特定的提示和可适应的文本表示。该模型的架构结合了基于ViT(Vision Transformer)的视觉编码器和基于Transformer架构的语言解码器,通过一个重采样模块连接起来。 为了训练这个模型,它在大量的文本密集图像数据集上进行了预训练,其中包括带有边界框和纯markdown文本的文本行。这种双任务训练方法增强了KOSMOS-2.5的整体多模态识字能力。 以上图片显示了KOSMOS-2.5的模型架构。KOSMOS-2.5的性能在两个主要任务中进行了评估:端到端的文档级文本识别和以markdown格式从图像生成文本。实验结果展示了它在理解文本密集图像任务方面的强大性能。此外,KOSMOS-2.5在涉及少样本和零样本学习的场景中展示了有前途的能力,使其成为处理文本丰富图像的现实应用的多功能工具。 尽管取得了这些有希望的结果,但当前模型仍面临一些限制,并提供了宝贵的未来研究方向。例如,尽管KOSMOS-2.5在输入和输出涉及文本的空间坐标的情况下进行了预训练,但目前不支持使用自然语言指令对文档元素的位置进行细粒度控制。在更广泛的研究领域中,进一步发展模型扩展能力是一个重要方向。
Leave a CommentBlindChat是由MithrilSecurity推出的开源和注重隐私的ChatGPT替代方案。BlindChat是一个开源的人工智能项目,旨在在Web浏览器中完全运行,不需要任何第三方访问。当前普遍的每日人工智能解决方案通常包括与AI服务提供商共享用户数据以换取AI模型使用。如果用户允许此类情况发生,他们的数据可能会被窃取。由于数据是提高LLM效果的宝贵资源,因此一些方法会隐含地调整用户的数据以更好地训练模型。用户以这种方式运行着有私人信息的LLMs的风险。 通过执行本地推理或使用称为安全隔离环境的安全、隔离环境,BlindChat确保用户的数据始终保持私密,并且用户完全控制数据。 BlindChat主要面向两个受众: 消费者:提供更安全的选择,优先考虑用户隐私。如今,大多数消费者将数据交给AI服务,但隐私设置通常需要明确或不存在。 BlindChat团队为了开发人员的好处,已经做了大量工作,确保平台在配置和部署方面的简单性,以便他们能够更轻松地提供以隐私为设计的对话式人工智能。 MithrilSecurity对程序进行了更改,以使浏览器执行通常由服务器执行的功能。因此,AI服务提供商不包含在信任模型中,因此隐私得到保护。 通过将功能从服务器移至用户端的浏览器,实现了透明且安全的人工智能,保护了终端用户的个人信息,并赋予他们对数据的控制权。例如,变形器允许在本地执行推理。JavaScript还可以将聊天保存在用户的浏览器历史记录中,提供了额外的便利。结果是,AI服务的管理员无法看到用户的任何信息,因此服务被称为“BlindChat”。 在激活遥远的隔离模式时,数据仅传输到服务器。此设置将服务器部署在被称为隔离区的经过验证和安全的容器中,提供了完整的周界防御,并阻止外界访问。即使是隔离区的AI提供商管理员也无法访问用户信息。 MithrilSecurity为用户提供了两种不同的隐私选项: 在设备上设置中,模型会在用户的浏览器上本地下载,并且推理是在本地处理的。 由于可用带宽和处理能力的限制,此模式最适用于较简单的模型。 使用零信任AI API时,信息会传输到一个被称为隔离区的安全位置,模型在其中存储,以便可以进行远程推理。通过强大的隔离和验证,这些设置提供了全面的安全性。任何AI服务提供商都无法以未加密的方式访问其用户的数据。 该项目由三个主要部分组成: 用户界面:用户与Chat进行交互时看到的界面。其中有一个聊天窗口,并且最终将提供用于加载文档和语音控制等功能的小部件和插件。 开发人员完全控制用于处理用户请求的私有LLM。当前的解决方案是本地模型或远程隔离区,以提供透明和机密的推理。 开发人员可配置用于保存聊天记录等数据的存储类型,将来还可配置RAG嵌入。 MithrilSecurity目前仅允许进行LaMini-Flan-T5推理。一旦370M发布,他们打算集成Microsoft phi-1.5以提高性能。客户端上也正在开发LlamaIndex-TS集成,以便在浏览器中本地查询敏感文档时可以使用RAG。
Leave a Comment近年来,人工智能(AI)取得了令人印象深刻的进展,其应用已经扩展到包括医疗保健、银行、交通运输和环境保护在内的各个行业。然而,随着AI的应用扩大,人们对其对环境的影响产生了担忧,尤其是与运行和训练AI模型所需的能源以及由此产生的温室气体排放相关的担忧。例如,目前使用的最强大的AI系统之一GPT-3,在训练过程中产生的排放量相当于五辆汽车在其使用寿命内产生的排放量。 最近的一项研究调查了多个AI系统的环境影响,重点关注它们在撰写和绘画等任务中的能力。研究人员团队将ChatGPT、BLOOM、DALL-E2和Midjourney等各种AI系统产生的排放与人类在执行相同任务时产生的排放进行了比较。撰写文本和制作图像是两个常见的任务。 目标是对比人类执行这些任务与AI执行这些任务的环境影响。该团队通过展示这些成本通常低于人类执行相同活动时支付的成本,尽管与AI相关的环境成本,强调了人类和AI的可互换性。结果显示,在创建文字方面存在明显的差异。 在创建一篇文字页面时,AI系统产生的二氧化碳当量(CO2e)比人类少130到1500倍。这种显著差异突显了AI在此情况下的环境优势。同样,当使用AI创建图像时,AI系统释放的CO2e比人类少310到2900倍。这些数字明确显示了使用AI创建图像时产生的排放量较少。 该团队分享了一个关键的认识,即单独进行排放研究不能提供全面的图景,因为还需要考虑一些重要的社会影响和因素,包括: 职业流动:在某些行业中,使用AI来完成人类过去处理的工作可能导致就业流动。必须妥善处理这种流动的潜在经济和社会影响。 合法性:确保按照道德和法律原则开发和使用AI系统至关重要。必须解决AI生成内容的合法性及其潜在滥用问题,以避免任何损害。 反弹效应:当AI引入不同行业时,可能会出现意想不到的反弹效应。这些结果可能表现为更高的使用或生产。 必须理解并非所有人类功能都可以被AI取代。AI无法完成一些需要人类创造力、同理心和决策能力的任务和职位。然而,目前的研究表明,与人类相比,AI在各种任务中极大地减少了排放的潜力。尽管从环境角度来看,这些结果是令人鼓舞的,但也需要将其纳入更广泛的伦理、经济和社会因素的背景中,以确保AI整合与共享目标和价值观一致。利用AI在完成某些任务时排放显著较少的前景是解决当前环境问题的一种可行方法。
Leave a Comment从现实场景中估计人体的三维结构是一项具有重要影响的挑战性任务,对人工智能、图形学和人机交互等领域具有重要意义。现有的用于三维人体姿势估计的数据集通常在受控条件下采集,并且具有静态背景,这不能代表现实世界场景的变异性。这种限制阻碍了为现实世界应用开发精确模型的进展。 现有的数据集,如Human3.6M和HuMMan,广泛用于三维人体姿势估计,但它们是在受控实验室环境中采集的,不能很好地捕捉到现实世界环境的复杂性。这些数据集在场景多样性、人体动作和可扩展性方面存在限制。研究人员提出了各种用于三维人体姿势估计的模型,但由于现有数据集的限制,它们在应用于现实世界场景时往往效果不佳。 中国的一支研究团队引入了“FreeMan”,这是一个新颖的大规模多视角数据集,旨在解决现实世界场景中现有数据集在三维人体姿势估计方面的局限性。FreeMan是一个重要的贡献,旨在促进更精确和更强大的模型在这一关键任务中的发展。 FreeMan是一个全面的数据集,包括来自8000个序列的1100万帧,使用8个同步智能手机在不同场景下捕捉。它涵盖了40个主体和10个不同的场景,包括室内和室外环境,具有不同的光照条件。值得注意的是,FreeMan引入了相机参数和人体尺度的变异性,使其更具代表性。研究小组开发了一个自动化注释流程,从收集的数据中高效生成准确的三维注释。该流程涉及人体检测、2D关键点检测、3D姿势估计和网格注释。由此产生的数据集对于多个任务非常有价值,包括单眼三维估计、2D到3D抬升、多视角三维估计和人体主体的神经渲染。 研究人员使用FreeMan提供了各种任务的全面评估基线。他们将在FreeMan上训练的模型与在Human3.6M和HuMMan等现有数据集上训练的模型进行了比较。值得注意的是,在3DPW数据集上进行测试时,针对FreeMan训练的模型表现出明显更好的性能,突显了FreeMan在现实世界场景中的优越性。 在多视角三维人体姿势估计实验中,与在Human3.6M上训练的模型相比,针对FreeMan训练的模型表现出更好的泛化能力,当在跨领域数据集上进行测试时,结果一致显示了FreeMan多样性和规模的优势。 在2D到3D姿势抬升实验中,FreeMan的挑战是显而易见的,因为在该数据集上训练的模型面临比其他数据集上训练的模型更大的困难等级。然而,当模型在整个FreeMan训练集上进行训练时,它们的性能得到了改善,展示了该数据集通过更大规模的训练来提升模型性能的潜力。 总之,研究团队引入了FreeMan,这是一个在现实世界场景中进行三维人体姿势估计的具有突破性的数据集。他们通过提供场景多样性、人体动作、相机参数和人体尺度的多样性,解决了现有数据集的几个限制。FreeMan的自动化注释流程和大规模数据收集过程使其成为开发更精确和更强大的三维人体姿势估计算法的宝贵资源。研究论文突出了FreeMan相对于现有数据集的优越泛化能力,展示了它在现实世界应用中提高模型性能的潜力。FreeMan的可用性预计将推动人体建模、计算机视觉和人机交互的进步,弥合受控实验室条件和现实世界场景之间的差距。
Leave a Comment最近,强化学习(Reinforcement Learning,RL)算法通过解决研究问题,如蛋白质折叠、在无人机赛车方面达到超人水平,甚至整合……,引起了广泛关注
Leave a Comment首尔国立大学的研究人员在机器人领域面临了一个根本性挑战——在动态环境下高效和适应性地控制机器人。传统的机器人控制方法通常需要大量的特定场景训练,使得计算成本昂贵且在面临输入条件变化时不灵活。这个问题在机器人必须与多样化和不断变化的环境进行交互的实际应用中尤为重要。 为了解决这个挑战,研究团队提出了一种开创性的方法,称为运动-动作-操纵(Locomotion-Action-Manipulation):LAMA。他们开发了一个针对特定输入条件进行优化的单一策略,可以处理各种输入变化。与传统方法不同,这种策略不需要针对每个独特场景进行单独训练,而是通过适应和概括其行为来显著减少计算时间,成为机器人控制的宝贵工具。 所提出的方法涉及训练一个针对特定输入条件进行优化的策略。这个策略在包括初始位置和目标动作在内的输入变化下经过严格测试。这些实验的结果证明了其鲁棒性和泛化能力。 在传统的机器人控制中,通常需要针对不同场景进行单独训练,需要大量的数据收集和训练时间。与这种方法相比,当处理不断变化的真实世界条件时,这种方法可能更加高效和适应。 研究团队的创新策略通过其高度适应性来解决这个问题。它可以处理多样化的输入条件,减少了针对每个特定场景进行大量训练的需求。这种适应性的改变不仅简化了训练过程,而且极大地提高了机器人控制器的效率。 此外,研究团队还对从该策略产生的合成运动的物理合理性进行了全面评估。结果表明,尽管该策略可以有效地处理输入变化,但合成运动的质量是保持的。这确保了机器人的运动在不同场景下保持逼真和物理上合理。 这种方法的最显著优势之一是大幅减少计算时间。在传统的机器人控制中,为不同场景训练单独的策略可能耗时且资源密集。然而,使用针对特定输入条件进行优化的预先训练策略时,无需为每个变化重新训练策略。研究团队进行了比较分析,结果显示使用预先优化的策略进行推理时计算时间显著减少,每个输入对的运动合成平均仅需要0.15秒。相反,为每个输入对从头开始训练策略平均需要6.32分钟,相当于379秒。这种计算时间上的巨大差异突出了这种方法的效率和节省时间的潜力。 这种创新的意义是巨大的。这意味着在机器人必须快速适应不同条件的真实世界应用中,这种策略可以改变游戏规则。它为更具响应性和适应性的机器人系统打开了大门,使它们在时间至关重要的情况下更加实用和高效。 总之,研究提出了一种对机器人在动态环境中进行高效和适应性控制的创新解决方案。所提出的方法,即针对特定输入条件进行优化的单一策略,为机器人控制提供了一种新的范式。 这种策略能够处理各种输入变化而无需进行大量重新训练,是一个重要的进步。它不仅简化了训练过程,而且极大地增强了计算效率。当使用预先优化的策略进行推理时,计算时间的显著减少进一步凸显了其高效性。 合成动作的评估表明,在不同的场景中,机器人运动的质量始终保持较高水平,确保它们保持物理上可行和逼真。 这项研究的影响广泛,潜在应用涵盖了从制造业到医疗保健再到自动驾驶车辆等多个行业。在这些领域中,机器人能够快速、高效地适应变化环境是一个关键特性。 总体而言,这项研究代表了机器人技术的重大进步,为其中最紧迫的挑战提供了有希望的解决方案。它为更加适应、高效、响应灵敏的机器人系统铺平了道路,使我们离一个未来更加无缝融入日常生活的机器人世界更近了一步。
Leave a Comment多年来,跑完一英里在四分钟内被认为不仅是一项令人畏惧的挑战,而且许多人认为是不可能的壮举这是一个心理和身体的标志,许多人认为…
Leave a Comment介绍 机器学习(ML)领域正在迅速扩展,并在许多不同的行业中应用。随着机器学习实验使用MLflow进行跟踪和管理所需的试验变得越来越复杂,跟踪它们变得更加困难。这可能会给数据科学家带来许多问题,例如: 实验丢失或重复:跟踪所有进行的实验可能具有挑战性,这会增加实验丢失或重复的风险。 结果的可重现性:可能很难复制实验的发现,这使得故障排除和提高模型变得困难。 透明度不足:可能难以相信模型的预测,因为难以理解模型是如何创建的。 CHUTTERSNAP在Unsplash上的照片 鉴于上述挑战,拥有一个可以跟踪所有ML实验并记录度量指标以实现更好的可重现性并促进协作的工具非常重要。本博客将探索和学习MLflow,一个开源的ML实验跟踪和模型管理工具,并提供代码示例。 学习目标 在本文中,我们旨在对使用MLflow进行机器学习实验跟踪和模型注册有一个清晰的理解。 此外,我们将学习如何以可重复和可重用的方式交付ML项目。 最后,我们将了解LLM是什么,以及为什么需要跟踪LLM对于应用程序开发。 什么是MLflow? MLflow标志(来源:官方网站) 称为MLflow的机器学习实验跟踪和模型管理软件使处理机器学习项目变得更加容易。它提供了各种工具和功能来简化ML工作流程。用户可以比较和复制结果,记录参数和度量指标,并跟踪MLflow实验。此外,它还简化了模型打包和部署。 使用MLflow,您可以在训练运行过程中记录参数和度量指标。 # 导入mlflow库 import mlflow # 开始mlflow跟踪 mlflow.start_run() mlflow.log_param(“learning_rate”, 0.01) mlflow.log_metric(“accuracy”,…
Leave a Comment使用LLM创建工具需要多个组件,例如向量数据库、链式结构、代理程序、文档分割器和许多其他新工具然而,其中最关键的组件之一就是LLM…
Leave a Comment深度学习已经发展成为人工智能中一种强大且开创性的技术,其应用范围从语音识别到自主系统,再到计算机视觉和自然语言处理。然而,深度学习模型需要大量的训练数据。为了训练模型,人们经常需要对大量数据进行标注,比如一系列的照片。这个过程非常耗时且劳动密集。 因此,人们一直在研究如何在少量数据上训练模型,从而使模型训练变得容易。研究人员试图找出如何创建可信赖的机器学习模型,这些模型可以在实际情况下理解复杂方程,并利用远少于通常预期的训练数据。 因此,康奈尔大学和剑桥大学的研究人员发现,即使给出很少的数据,机器学习模型对偏微分方程可以产生准确的结果。偏微分方程是一类描述自然界中事物在空间和时间上演化的物理方程。 根据英国剑桥大学的Nicolas Boullé博士所说,使用人类来训练机器学习模型效率很高,但耗时又昂贵。他们很好奇想知道训练这些算法所需的数据量有多少,同时能够产生准确的结果。 研究人员利用随机数值线性代数和偏微分方程理论创建了一个算法,该算法可以从输入输出数据中恢复出三维均匀椭圆型偏微分方程的解算子,并以极高的成功概率实现误差相对于训练数据集大小的指数收敛。 作为英国剑桥大学的INI-Simons基金会博士后研究员,Boullé表示,偏微分方程就像物理学的基本要素:它们可以帮助解释自然界的物理规律,比如如何在一个融化的冰块中维持稳态。研究人员认为这些人工智能模型是基础的,但它们可能仍然有助于理解为什么人工智能在物理学中如此有效。 研究人员使用了一个包含各种随机输入数据量和计算机生成的匹配答案的训练数据集。然后,他们在一批新的输入数据上测试了人工智能的预测解的准确性。 根据Boullé的说法,这取决于领域,但在物理学中,他们发现你可以用很少的数据取得很大的成果。令人惊讶的是,产生一个可靠的模型所需的信息量非常少。他们说,这些方程的数学特性使我们能够利用它们的结构并改进模型。 研究人员表示,确保模型学习到适当的内容非常重要,但机器学习在物理学中是一个有吸引力的课题。根据Boullé的说法,人工智能可以帮助解决许多有趣的数学和物理难题。
Leave a Comment现代大型语言模型(LLM)在很大程度上依赖于数学推理,这是本文的主要焦点。尽管在这个领域取得了一些进展,但封闭源模型(如GPT-4、PaLM-2和Claude 2)在GSM8K和MATH等流行的数学推理基准中占据主导地位,而开源模型(如Llama、Falcon和OPT)则远远落后。 解决这个差距的两种主要方法是: 持续的预训练,例如Galactica和MINERVA,现在它正在使用链接到数学的超过1000亿个网页数据上训练LLM。虽然计算代价高昂,但这种方法可以提高模型在科学推理方面的能力。 使用每个数据集独特的训练数据,使用拒绝采样微调(RFT)和WizardMath等微调方法来完善LLM。虽然这些方法在其领域内是有效的,但在需要推理的其他数学领域中无法转移。 滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学和IN.AI最近的研究探索了一种轻量级但具有普适性的数学指令调整技术,以提高LLM在数学推理能力上的表现(即不仅仅是微调任务)。 目前的方法在很大程度上依赖于思维链(CoT)方法,描述了它们如何以自然语言步骤解决数学问题。但是,当涉及到计算精度和复杂的数学或算法推理方法时,这种方法表现不佳。基于代码的技术,如PoT和PAL,使用第三方资源来简化数学求解过程。 该方法建议将计算密集型任务(例如使用sympy解二次方程或使用numpy计算矩阵特征值)委托给一个独立的Python解释器。另一方面,PoT在处理更抽象的推理场景(如常识推理、形式逻辑和抽象代数)时具有一些局限性,特别是在缺乏现有API的情况下。 为了充分利用CoT和PoT的优势,该团队提出了一个名为MathInstruct的数学混合指令调整数据集。它的主要特点包括: 全面覆盖各种数学领域和复杂程度 混合CoT和PoT的解释。 六个全新选择的和七个现有的数据集为MathInstruct的数学解释提供了基础。从建模的角度来看,研究人员训练和评估了约50个独特模型,基线范围从7B到70B,以了解各种输入输出格式和数据源的影响。 结果表明,这些模型在数学通用性方面表现出色。 研究人员在各种数据集上对MAmmoTH进行了广泛测试,从领域内(IND)到领域外(OOD),例如GSM8K、MATH、AQuA-RAT和NumGLUE。这些模型显著提高了开源LLM在数学推理上的效率,并且在OOD数据集上比最先进的方法具有更好的泛化能力。在流行的竞赛级别MATH数据集上,7B模型的结果超过了WizardMath(开源MATH SoTA)的3.5倍(35.2%对10.7%),而34B MAmmoTH-Coder(在Code Llama上进行了微调)的结果超过了GPT-4(使用CoT)。这些模型中的MAmmoTH和MAmmoTH-Coder都显著提高了以前可用的开源模型的准确性。
Leave a Comment基于Transformer的大型语言模型(LLMs),如GPT、PaLM和LLaMA,已广泛用于各种实际应用中。这些模型已应用于各种任务,包括文本生成、翻译和自然语言解释。然而,这些模型的高推理成本,特别是在对低延迟要求很高的情况下,是一个主要关注点。这些模型使用的自回归解码方法是高推理成本的主要原因。由于自回归解码过程中每个输出令牌是顺序生成的,因此存在大量的Transformer调用。每个Transformer调用的内存带宽受限,导致计算效率低下和执行时间长。 为了加速大型语言模型(LLMs)的推理过程,最近的一项研究引入了一种称为自我推测解码的独特方法,该方法不需要辅助模型。这种方法解决了快速生成推理结果并保持输出质量的问题。它的特点是一个由起草和验证组成的两阶段过程。 起草阶段 – 起草阶段的目标是更快地生成起草令牌,即使它们的质量略低于使用传统自回归方法生成的令牌。为了实现这一目标,该方法在起草过程中绕过了一些中间层。LLMs中的这些中间层通常会改进输出,但它们在推理过程中也会占用大量时间和资源。 验证阶段 – 该技术在起草阶段生成起草输出令牌,然后使用原始未经修改的LLM在单个前向传递中验证它们。使用传统的自回归解码技术,LLM会产生相同的最终结果,这由验证步骤确保。因此,即使起草阶段更快地生成了令牌,最终产品的质量也得到了保证。 自我推测解码不需要进一步的神经网络训练,这是它的主要优点之一。为了实现更快的推理,现有方法常常需要训练辅助模型或对LLM的架构进行重大改变,这可能具有挑战性且资源密集。而自我推测解码是一种“即插即用”的方法,可以在现有LLMs上添加而无需额外的训练或模型修改。 研究为自我推测解码的有效性提供了实证支持。基于LLaMA-2及其改进模型的基准结果显示,自我推测解码方法比传统的自回归方法可以更快地解码数据高达1.73倍。这具有重要的优势,使推理过程大约快两倍,同时保持输出质量,在延迟是一个问题的情况下非常重要。 总之,自我推测解码是一种革命性的方法,改善了大型语言模型推理信息的方式。它通过建立起草和验证的两步过程,选择在起草阶段跳过哪些层以更快地生成令牌,并在验证阶段验证输出质量来实现这一目标。该方法加速了LLM的推理过程,而不会增加任何额外的内存负担或神经网络的训练要求。
Leave a Comment想象一下在陌生的家中准备一杯茶的挑战。完成这个任务的一个高效策略是在几个层次上进行层次化推理,包括一个抽象层次(例如,加热茶所需的高层步骤),一个具体的几何层次(例如,他们应该如何在厨房中移动)和一个控制层次(例如,他们应该如何移动关节来举起杯子)。搜索茶壶的抽象计划在几何层面上也必须是可行的,并且在他们能够执行的行动给定的情况下是可执行的。这就是为什么每个层次上的推理相互一致是至关重要的。在这项研究中,他们调查了能够使用层次化推理的独特长期任务解决机器人的发展。 现在,大型”基础模型”已经在数学推理、计算机视觉和自然语言处理等问题上取得了领先地位。在这种范式下,创建一个能够解决独特的长期决策问题的”基础模型”是一个备受关注的问题。在之前的几项研究中,收集了匹配的视觉、语言和动作数据,并训练了一个单一的神经网络来处理长期任务。然而,扩展耦合的视觉、语言和动作数据收集是昂贵且具有挑战性的。另一方面,较早的研究线路使用特定任务的机器人演示来改进大型语言模型(LLM)在视觉和语言输入上的性能。这是一个问题,因为与互联网上丰富的材料相比,耦合视觉和语言的机器人的示例很难找到,而且编制也很昂贵。 此外,由于模型权重没有开源,目前很难对高性能的语言模型(如GPT3.5/4和PaLM)进行微调。基础模型的主要特点是,相较于从头学习工作或领域,它需要较少的数据来解决新的问题或适应新的环境。在这项工作中,他们寻求一种可扩展的替代方法,用于收集三种模态的配对数据,以构建用于长期规划的基础模型。在解决新的规划任务时,他们能否在仍然相对有效的前提下做到这一点呢? 来自Improbable AI Lab、MIT-IBM Watson AI Lab和麻省理工学院的研究人员建议使用组合式基础模型进行层次化规划(HiP),这是一个由许多在语言、视觉和动作数据上独立训练的专家模型组成的基础模型。由于这些模型是分别引入的,构建基础模型所需的数据量显著减少(图1)。HiP使用一个大型语言模型从抽象语言指令中发现一系列子任务(即规划)。然后,HiP使用一个大型视频扩散模型来收集有关环境的几何和物理信息,以形成一个更复杂的以观察为基础的轨迹规划。最后,HiP使用一个已经训练过的大型逆模型将一系列自我中心的图片转化为动作。 图1:如上所示,组合式基础模型用于层次化规划。HiP使用三个模型:一个任务模型(由LLM表示)生成一个抽象计划,一个视觉模型(由视频模型表示)生成一个图像轨迹规划;以及一个自我中心的动作模型,从图像轨迹中推断出动作。 不需要收集昂贵的跨模态配对决策数据,组合式设计选择使得不同层次的模型可以在层次结构的不同级别上进行推理,并共同做出专业的结论。三个分别训练的模型可能会产生冲突的结果,这可能导致整个规划过程失败。例如,在每个阶段选择具有最高可能性的输出是建立模型的一种简单方法。计划中的一步,例如在柜子里找茶壶,可能在一个模型下有很高的几率,但在另一个模型下可能有零几率,例如如果房子里没有柜子的话。因此,重要的是采样一种策略,该策略能够在所有专家模型中共同最大化可能性。 他们提供了一种迭代改进技术,以确保一致性,利用下游模型的反馈来开发跨多个模型的一致计划。语言模型的生成过程的输出分布包含了每个阶段的当前状态的表示所条件化的似然估计器的中间反馈。同样,动作模型的中间输入改善了开发过程中每个阶段的视频创作。这种迭代改进过程促进了多模型间的共识,创建了既符合目标又在现有状态和代理的基础上可执行的分层一致计划。他们提出的迭代改进方法不需要进行大量模型微调,从而使训练具有计算效率。 此外,他们不需要知道模型的权重,他们的策略适用于所有提供输入和输出API访问的模型。总之,他们提供了一个基于在各种互联网和自我中心机器人数据模态上独立获取的基础模型的组合来创建长程规划的层次规划的基础模型。在三个长程桌面操作情况下,他们展示了有希望的结果。
Leave a Comment当我在2022年1月份写了《探索LSTM神经网络模型用于时间序列》时,我的目标是展示如何轻松地在Python中使用scalecast实现先进的神经网络…
Leave a Comment