Press "Enter" to skip to content

四海吧 Posts

现在和未来,人工智能如何影响家庭生活?

随着我们稳步进入人工智能(AI)主导的时代,很难不去思考它对人类存在最基本的方面之一——家庭生活的影响本文旨在解构AI目前与我们的家庭生活交织的方式,并进行一种推测但有根据的……现在和未来AI如何影响家庭生活?阅读更多 »

Leave a Comment

重新构想图像识别:揭示谷歌视觉变换器(ViT)模型在视觉数据处理中的范式转变

在图像识别中,研究人员和开发者不断寻求创新方法,以提高计算机视觉系统的准确性和效率。传统上,卷积神经网络(CNN)一直是处理图像数据的首选模型,利用其提取有意义特征和分类视觉信息的能力。然而,最近的进展为探索替代架构铺平了道路,促使Transformer-based模型与视觉数据分析相融合。 其中一项突破性的发展是Vision Transformer(ViT)模型,该模型通过将图像转化成序列的补丁并应用标准Transformer编码器(最初用于自然语言处理(NLP)任务)来处理视觉数据。通过利用自注意机制和基于序列的处理,ViT提供了对图像识别的新视角,旨在超越传统CNN的功能,并为更有效地处理复杂视觉任务打开新的可能性。 ViT模型通过将传统的图像数据处理重新定义为将2D图像转化为扁平化的2D补丁序列,并适用于标准Transformer架构(最初为自然语言处理任务而设计)来处理视觉信息,从而改变了传统的图像数据处理方式。与CNN不同,CNN严重依赖于嵌入在每个层中的特定于图像的归纳偏差,ViT利用全局自注意机制,其模型在各个层中使用恒定的潜在向量大小来有效处理图像序列。此外,该模型的设计整合了可学习的1D位置嵌入,使得位置信息能够在嵌入向量序列中得以保留。通过混合架构,ViT还可以从CNN的特征图进行输入序列形成,进一步增强其适应不同图像识别任务的能力和多功能性。 提出的Vision Transformer(ViT)在图像识别任务中展现出有希望的性能,与传统的基于CNN的模型在准确性和计算效率方面不相上下。通过利用自注意机制和基于序列的处理,ViT有效捕捉图像数据中的复杂模式和空间关系,超越了CNN中固有的特定于图像的归纳偏差。该模型处理任意序列长度的能力,以及对图像补丁的高效处理,使其在包括ImageNet、CIFAR-10/100和Oxford-IIIT Pets等流行的图像分类数据集中表现出色。 研究团队进行的实验表明,当ViT在JFT-300M等大型数据集上进行预训练时,其表现优于现有的CNN模型,同时所需的计算资源更少。此外,该模型展示了处理各种任务(从自然图像分类到需要几何理解的特殊任务)的卓越能力,从而巩固了其作为强大而可扩展的图像识别解决方案的潜力。 总之,Vision Transformer(ViT)模型以Transformer-based架构处理视觉数据,呈现出图像识别领域的突破性转变。通过重新构想传统的图像分析方法并采用基于序列的处理框架,ViT在各种图像分类基准测试中表现出卓越性能,超越了传统的基于CNN的模型,同时保持计算效率。借助其全局的自注意机制和适应性序列处理能力,ViT为处理复杂视觉任务开辟了新的视野,为计算机视觉系统的未来提供了令人兴奋的方向。

Leave a Comment

每个数据科学家都应该了解的图像嵌入的前10个预训练模型

计算机视觉的快速发展——图像分类的用例得益于迁移学习的出现而进一步加快在大型图像数据集上训练计算机视觉神经网络模型需要大量的计算资源和时间幸运的是,通过迁移学习,这些时间和资源可以减少

Leave a Comment

这一举措将为AGI铺平道路

在推进人工智能(AI)能力的开拓性举措中,OpenAI推出了其数据合作项目。该计划邀请全球组织共同构建全面的公共和私人数据集,旨在增强AI模型训练,并为实现AGI铺平道路。 多样化的训练数据集的需求 现代AI的基础在于其理解人类社会的复杂性的能力。OpenAI通过强调创建深度了解各种主题、行业、文化和语言的AI模型的重要性来承认这一点。实现这一目标的关键在于训练数据集的广度和深度。 与现有合作伙伴的合作努力 OpenAI已与多个合作伙伴密切合作,这些伙伴渴望为其所在国家或行业提供特定数据。最近与冰岛政府和Miðeind ehf的合作集中于通过整合策划的数据集来增强GPT-4在冰岛语方面的能力。此外,OpenAI还与自由法律项目合作,将大量法律文件纳入AI训练,以实现对法律理解的民主化访问。 OpenAI正在寻找的数据类型 OpenAI正在积极寻找人类社会反映并且在网上不易得到的大规模数据集。此次呼吁包括文本、图像、音频或视频等多种模态的数据,特别关注跨不同语言、主题和格式传达人类意图的数据集。 合作机会和模式 OpenAI为组织提供两种途径来为这一变革性工作做出贡献: 开源存档:OpenAI正在寻找合作伙伴来共同创建一个用于训练语言模型的开源数据集。这个数据集将对公众可访问,为更广泛的AI生态系统做出贡献。 私人数据集:对于希望保持其数据私密性同时增强AI模型理解的组织,OpenAI提供创建私人数据集的选择。OpenAI确保最高级别的敏感性和访问控制,使组织能够从AI进展中受益,同时保护数据的机密性。 我们的观点 OpenAI的数据合作项目是向实现AI进步的民主化迈出的重要一步。通过鼓励组织分享其独特的数据集,OpenAI旨在创建更安全、对人类更有益的模型。这一合作努力标志着通往实现为全球社区真正服务的人工通用智能(AGI)的旅程中的关键时刻。OpenAI邀请潜在合作伙伴携手塑造AI研究的未来,并为全面了解我们的世界做出贡献。

Leave a Comment

《UCSD研究人员对GPT-4在 图灵测试中的表现进行评估:揭示人类似的欺骗和沟通策略的动态》

GPT-4 在互联网上由UCSD的一组研究人员进行了公共图灵测试。表现最佳的GPT-4提示在41%的游戏中成功,这比ELIZA(27%)、GPT-3.5(14%)和随机机会(63%)提供的基线更好,但它仍然需要迈上更高一步。图灵测试的结果显示,参与者主要根据语言风格(占总比例的35%)和社交情感特征(占总比例的27%)进行判断。参与者的教育水平和之前与LLM的经验都不能预测他们发现欺骗的能力,这表明即使是在这方面有经验的人也可能容易受欺骗。虽然图灵测试因其作为智能测量的缺点而受到广泛批评,但来自加利福尼亚大学圣迭戈分校的两位研究人员表示,它仍然有用作衡量自发交流和欺骗的标准。他们拥有可以模仿人类的人工智能模型,这可能会产生深远的社会影响。因此,他们正在研究各种方法和标准的有效性,以确定人类相似性。 图灵测试有趣的原因与其对智能敏感性的争议无关。首先,分析正在测试的能力非常重要,即一个系统能否欺骗对话者认为它是人类。图灵测试提供了一种可靠的方法来监测模型中此类能力的发展。此外,它使我们能够了解在撒谎中起作用的各个方面,例如模型的大小和性能、提示策略、附属基础设施(如实时信息访问)以及询问者的专业水平。 其次,图灵测试可用作研究工具来探究机器显示人类外貌的普遍认知。评估了机器的性能,还研究了人类参与者在文化、伦理和心理方面的先入为主观念。询问者在撰写和完善问题时披露了关于构成为人类的特质以及哪些特质最难拥有的潜在观点。 图灵测试经过一个询问者和一个证人的修改,用来确定后者是人还是人工智能。这与图灵最初的三人设定形成对比,但由于无需每场游戏都在线上有多个人类参与者,这一设定变得相当普遍。 他们使用OpenAI API开发了25个LLM证人,可以回答用户提出的问题。每个LLM证人都有一个温度设置(0.2、0.5或1.0)、一个模型(GPT-3.5或GPT-4)和一个提示。提示解释了情况,并为代理人提供了具体的指导。 聊天应用的用户界面被设计成类似于标准的消息服务。询问者发送第一条消息,每个用户一次只能发送一条消息。每次沟通只能有300个字符长,并且总的讨论时间为5分钟。用户不被允许将内容粘贴到文本框中,还应用了内容过滤器以防止滥用信息。在屏幕的右上角,您将找到一个倒计时计时器、显示指导说明的按钮和一个报告滥用行为的表格。 询问者使用决策界面提供以下信息: i)裁决(机器或人工证人) ii)他们对自己做出正确决定的确信程度(0-100)。 iii)对他们选择的理由(自由形式语言)。 加州大学圣迭戈分校的IRB授予了这项研究(图灵测试)的许可。实验在现场网站进行。在线社交媒体平台被用于招募参与者。他们阅读了概述游戏规则的说明,并同意他们的数据被用于科学研究。 他们招募了650人,并完成了1400场“游戏”,在其中与人类或GPT模型进行了短暂的对话。被试者被提供了一个对话伙伴,并被要求识别他们。 研究参与者被GPT-4模型欺骗的比例为41%,而被GPT-3.5模型欺骗的比例为5%至14%。只有在63%的试验中,人们能够说服参与者他们不是机器。 局限性 由于这项研究作为一项开放、在线的实验,有一些注意事项可能会导致其结果不够可靠。首先,样本可能更具代表性,因为参与者是通过社交媒体招募的。其次,参与者需要有一些激励措施。因此,提问者和证人可能会尽力而为。人类证人已经通过表现得像人工智能来进行“恶作剧”。一些调查人员将这种行为作为证明人类判断的理由。因此,结果可能低估了人类的表现,同时高估了人工智能的表现。第三,一些提问者承认他们对证人有先验知识。 总结一下 – 图灵测试经常被批评为衡量智能的不完美指标:因为它过于,但是在这种情况下,如果提问者没有透露,研究人员可能高估了人类的表现。最后,由于每次只有一个在线用户,他们经常与同一个人工智能证人配对。因此,人们就会对任何给定的证言有先入为主的观念,这可能导致整体上的SR率降低。尽管努力删除了连续三次与人工智能对战的游戏,以抵消这种偏见对结果的影响,但这种偏见可能仍然影响了结果。最后,他们只使用了可用提示的一小部分,并且在开发这些提示时并不知道真实人类会如何与游戏互动。结果肯定低估了GPT-4在图灵测试中的潜力,因为还有更有效的提示。

Leave a Comment

调和生成型人工智能的悖论:在生成和理解上,人类和机器智能的不同路径

从ChatGPT到GPT4再到DALL-E 2/3再到Midjourney,最新一波的生成式人工智能引起了全球范围内前所未有的关注。这种迷恋背后伴随着对“智能”所带来的风险的严重担忧,因为这种“智能”似乎超越了人类的能力。当前的生成模型可能会产生具有挑战性的结果,这些结果可以对在语言和视觉领域具有多年经验和专业知识的专家构成威胁,并且这为机器已经超越人类智慧的说法提供了有力的支持。与此同时,进一步审查模型的输出揭示出一些根本性的理解错误,即使对于非专家人员也令人惊讶。 这引发了一个看似矛盾的问题:它们如何解释这些模型明显超人的能力,同时又保持一套核心的错误,大多数人可以修复?他们认为,这种冲突来源于人类智慧的配置方式与当今生成模型的能力配置方式之间的差异。特别是,来自华盛顿大学和艾伦人工智能研究所的研究人员在这项工作中提出并调查了生成式AI悖论假设,该假设认为生成模型之所以可以比专家级的输出解释者更有创造力,是因为它们经过训练直接产生专家级的输出。 相比之下,人们几乎总是需要在提供专家级结果之前获得一个基础的理解。他们在受控研究中检查跨语言和视觉模态的生成模型的生成和理解能力来评估这个想法。在与生成任务相关的评估中,使用两个观点来构建“理解”:1)在给定生成任务的情况下,模型在相同任务的判别版本中能多好地选择适当的答案?和2)如若答案正确,模型对于关于生成响应的性质和适合性的查询能有多大程度的回应?因此,存在两个不同的实验设置:询问和选定。 尽管他们的发现在任务和模态之间有所不同,但仍然出现了某些明显的模式。在选择性评估方面,模型在生成任务环境中往往表现与人类相当甚至更好。但是,在判别性情境中,他们不如人类。后续的调查揭示了人类辨别能力对敌对输入的更强韧性以及它与生成能力的关系比它与GPT4的关系更密切。随着任务复杂性的增加,模型与人类之间的辨别力差距也越来越大。类似地,对于询问式评估,模型能够为多种任务提供高质量的输出,但是在回答有关同一生成内容的问题时,它们经常出错,并且它们的理解性能需要在人类理解中得到改进。 作者对生成模型和人类之间的能力配置的差异提出了许多可能的解释,例如模型训练的目标以及种类和数量的输入。他们的结论还具有一些进一步的影响。首先,它表明了当前对智能的理解是基于人类经验的,可能无法转化到人工智能上。虽然AI的能力在许多方面类似或超过人类智能,但它们的实际特性可能与人类思维过程中的预期模式大相径庭。相反,他们的结果警告我们不要从生成模型中得出关于人类智能和认知的结论,因为它们的专家级人类化输出可能掩盖了非人类化的机制。总的来说,生成式AI难题建议我们将模型视为与人类智能相比较的有趣对照。

Leave a Comment

美国电脑图形处理器公司NVIDIA和德克萨斯大学奥斯丁分校共同研发出了MimicGen:一种用于机器人的自主数据生成系统

通过模仿学习人类示范,可以训练机器人执行各种操作行为。一种流行的方法涉及通过各种控制界面,让人类操作员与机器人臂进行远程操纵,产生机器人执行不同操作任务的多个示范,并使用这些数据训练机器人独立执行这些任务。最近的努力尝试通过与更多的人类操作员在更广泛的功能范围内收集更多的数据来扩展这个范例。这些研究已经证明,在大规模、多样化的数据集上进行模仿学习可以取得令人印象深刻的性能,使机器人能够推广到新的物体和未知的任务。 这意味着收集大量丰富的数据集是创建广泛熟练的机器人的关键第一步。但是,这一成就只有通过昂贵和耗时的人工工作才能实现。看一个机器人模仿案例研究,该案例中,机器人的任务是将一只可乐罐从一个垃圾桶移动到另一个垃圾桶。尽管只有一个场景、一个物品和一个机器人参与这个简单的任务,但需要一个庞大的数据集200个演示才能达到73.3%的相对成功率。对于最近尝试扩展到具有不同场景和物品的环境的努力,需要更大规模的数据集,包括数万个演示。例如,它表明,只有使用超过20,000个轨迹的数据集,才能推广具有物体和目标微小变化的挑战。 图1:研究人员提供了一个数据生成系统,通过重新利用人类示范使其在新的情境中变得有用,可以从少量人类示范中生成大量不同的数据集。他们使用MimicGen为各种物品、机器人装备和场景设置提供数据。 在约1.5年的RT-1数据收集工作中,涉及到多位人类操作员、多个月份、多个厨房和机器人臂,以97%的成功率成功地重新安排、清理和恢复物品。然而,在现实世界的厨房中实现这样一个系统所需要的年数仍待发现。他们问:“这些数据在多大程度上包含不同的操作行为?”这些数据集可能包括在不同的环境或情况下使用的类似的操作技术。例如,当抓取一个杯子时,无论杯子放在台面的何处,人类操作员的机器人轨迹可能是非常相似的。 将这些轨迹调整到不同的情况中可以帮助产生各种各样的行为。虽然有希望,但这些方法的应用受到其对特定任务和算法的假设的限制。相反,他们希望创建一个可以轻松整合到当前模仿学习过程中并增强各种活动性能的通用系统。在这项研究中,他们提供了一种独特的数据收集技术,该技术可以使用少量的人类示例自动生成跨多种场景的大规模数据集。他们的技术MimicGen将有限数量的人类示范拆分为以物品为中心的部分。 然后,它选择一个人类示范,对每个以物品为中心的部分进行空间改变,将它们拼接在一起,并指导机器人按照这条新路径进行操作,在不同的情境中采集最新的示范,其中包含不同的物体姿势。尽管方法简单,但他们发现这种方法非常擅长从各种情境中生成庞大的数据集。这些数据集可用于模仿学习,以训练能胜任的智能体。 他们的贡献包括以下内容: • NVIDIA和UT Austin的研究人员提出了MimicGen技术,该技术利用新的情境适应性,从有限数量的人类示范中创建大规模、多样化的数据集。 • 他们展示了MimicGen可以在各种场景配置、物体实例和机器人臂上提供高质量的数据,这些数据在原始示范中没有包含,以通过模仿学习训练熟练的智能体(见图1)。拾取和放置、插入和与关节式物体的互动仅是MimicGen广泛适用于的许多长期和高精度活动中的几个例子,这些活动需要具备不同的操作能力。只使用200个源人类示范,他们为两个模拟器和一个真实的机器人臂的18个任务生成了50,000多个额外的演示。 • 他们的方法与收集更多人类示范相比表现相当;这就引发了一个重要的问题,即何时需要向人类请求额外数据。使用MimicGen生成相同数量的合成数据(例如,从10个人类生成200个示范与从200个人类生成200个示范)会导致相似的代理性能。

Leave a Comment

揭示生成式人工智能在数据叙事和分析中的影响

简介 在数据分析的广阔领域中,改变规则的最重要发展之一就是生成人工智能(GAI)。现在,人工智能不再仅仅根据历史数据进行处理和预测,而是创造出全新的东西,彻底改变了数据叙事和分析过程。在最近的一次会议中,我有机会探索这一技术创新的基本原理、架构和潜在影响。以下是我们讨论的内容的简洁总结。 学习目标: 了解生成人工智能的基本原理。 学习使用生成人工智能进行不同的数据叙事技术。 认识在数据分析中生成人工智能的伦理实施。 理解生成人工智能 生成人工智能代表了人工智能的一个子领域,专注于创造新颖的内容。传统人工智能依靠历史数据进行训练并进行推理或预测。相比之下,生成人工智能通过合成新内容来实现,涉及视觉、音频和文本创作。这个领域有几种不同的架构,包括生成对抗网络(GANs)、变分自编码器(VAEs)和自回归模型或变换器。 生成对抗网络使用两个神经网络,生成器和判别器,它们一起训练。通过生成接近真实数据同时区分真实数据和生成数据的数据,这个对抗过程使两个网络都得以改进。变分自编码器稍有不同,但目标是相同的。 如今最常见的人工智能模型是基于变换器的自回归模型,比如ChatGPT。这些模型根据先前元素创建数据序列,并且可以预测下一个序列元素。了解这些模型能够帮助我们更有效地利用人工智能。 数据叙事:将生成人工智能与分析相结合 数据分析的影响力在于数据叙事。虽然最初阶段着重于定义、收集、清洗和分析数据,但关键在于展示阶段。在这里,我们必须有效地传达研究结果。制作叙事、准备视觉材料和检查逻辑在数据叙事中起着至关重要的作用。使用生成人工智能可以显著影响这个过程的前两个步骤。 这就是叙事进入场景的地方。数据展示中的叙事涉及与利益相关者的联系,理解他们的需求,并呈现分析结果以促进决策。然而,这个阶段在分析课程中往往被低估,尽管在传达数据的影响方面至关重要。 案例研究:生成人工智能推动业务效率叙事 这个案例研究展示了生成人工智能,特别是GPT-4,如何帮助分析师确定他们演示的目的和角色清晰度。通过向ChatGPT提出特定问题,如“如何在没有裁员的情况下专注于战略性降低运营成本?”,人工智能的建议可以帮助指导和完善叙事和演示策略。 需要明确的是,生成人工智能并不完全创建内容,而是作为一个头脑风暴的合作伙伴,提供方向和想法,允许分析师调整他们的策略。以下是生成人工智能如何帮助推动业务效率的数据分析和叙事。 使用GPT-4进行高级数据分析 GPT-4的高级功能打开了许多可能性。根据我的经验,我选择使用ChatGPT,因为它值得信赖且精确。虽然还有其他可替代的人工智能模型,如LlaMA,但每个模型都有其独特的优势。我发现ChatGPT是一个很好的选择,但其他模型可能同样适合不同的需求。 使用人工智能和原型速度评估超支 在处理超支问题时,人工智能能够极快地进行分析原型设计。虽然Python或SQL也能完成同样的任务,但人工智能可以显著加速过程,实现快速的原型开发。然而,需要强调的是,鉴于我们对结果准确性的责任,所有输出都需要经过仔细的验证和审查。 使用ChatGPT分析回报率和制定战略削减 确定投资回报率(ROI)需要特定的计算方法。我教导ChatGPT进行不同支出领域的ROI计算。它揭示了一个有趣的格局。虽然某些行业出现了大量超支,但它们也提供了可观的投资回报率,表明尽管超支,效益很高。这需要战略性评估,以确定潜在削减的领域。 生成AI和可视化数据表示 生成的AI可视化,如图表和图形,在促进快速探索性数据分析中起着重要作用。它们为深入的战略思考提供了一个起点。然而,评估所选择的可视化表示是否与精确的数据解释需求一致是至关重要的。 在利用AI时考虑隐私和道德问题…

Leave a Comment

使用Amazon SageMaker Model Registry、HashiCorp Terraform、GitHub和Jenkins CI/CD在多环境设置中推广管道

在人工智能(AI)和机器学习(ML)的快速发展环境中,为组织构建一个机器学习操作(MLOps)平台对于无缝衔接数据科学实验和部署,同时满足模型性能、安全性和合规性要求至关重要为了满足监管和合规要求,

Leave a Comment

未来无忧:在AI的企业进军中培养下一代实习生

在我在新加坡充满活力的亚太ESSEC管理硕士的授课过程中,我们深入讨论了AI和可持续性的交叉点。在这个论坛上,我们揭示了将技术解密以真正了解AI能力的必要性-只是这些,没有其他。 考虑一下哈佛商学院的Karim Lakhani的见解:“人类般的回应是一种统计幻觉。”拉卡尼揭开了外表,揭示了表面上的有知觉互动实际上只是“一种统计或计算幻觉”,一种通过消化我们的人文文本和视频而产生的模仿[1]。这与我的长期观点相吻合:当AI与技巧结合时,它不是取代角色,而是人类能力的有力盟友[2]。 然而,我们必须小心谨慎。让我们未经检查地承诺提升的进步可能对未来一代的蓬勃发展产生重大影响。我们现在要做的不是回避这些潜力巨大的工具,而是要智能地与它们接触,确保我们将AI的舵向人类潜力的提升,而不是削弱它。 随着数字时代的加速发展,AI在业务中的日益重要的角色揭示出对实习生和初级培训的彻底重新设想的迫切需求。大型语言模型(LLMs)的出现给我们敲响了警钟-让我们不要让我们的实习生过时了。想想这个:这些LLMs,虚拟世界中的年轻实习生,已经接管了曾经是新手的人类任务。它们起草备忘录,打扮演示文稿,丝毫不休息,又只消耗计算资源的“代币费用”。它们在效率上令人眼花缭乱,但必须明确一点:它们无法取代人类智慧-逻辑、推理和创造力,只有人类才能提供。 在企业增长的繁忙生态系统中,培养新手就像在一片高耸的橡树森林中培育娇嫩的树苗一样重要。实习生的角色是至关重要的。他们是海绵,吸收的不仅仅是技术知识,还有企业文化微妙的舞蹈。正是在这些早期职业生涯中,他们的专业之旅的基础被奠定,塑造了他们的成长轨迹。 然而,这种不可或缺的入门面临来自AI的威胁,它可以轻松自动化曾经为初学者所保留的差事甚至分析工作。如果能模仿简・奥斯汀(Jane Austen)小说主人公般自如地进行人机对话的LLMs能够承担曾经是实习生证明自己的地方,我们该怎么办?谷歌及其同类已经开创了试图弥合差距的培训计划,但真正的转变在于将最初的职业年改造为一个实战练习班——一个“执行教室”,在这里,学习是通过实践来完成,实践带来学习。 这里的关键是:技术作为工作崩溃的先兆的叙述并不完全准确。担心AI将取代人类角色的恐惧就像认为LLMs拥有无尽的智慧一样。虽然它们确实可以生成与人类闲聊惊人相似的回答,但事实是它们擅长将词语拼凑在一起,仅此而已。它们不是硅谷的圣贤,它们是算法幻术师,能够让数据跳舞,但仍然无法达到人类智慧的水平。 这使我们陷入了期望的两难境地。我们把在机器上施加了阿西莫夫第一条机器人定律的高标准-不造成伤害-同时却原谅了LLMs的错误,对它们的对话技巧感到迷醉。我们嘲笑了自主车辆的少有的失误,但对于聊天机器人的有缺陷的诗句则会哈哈大笑。 那么,行动的号召是什么?在将AI融入我们的业务中时,我们必须重新审视实习生的手册。我们必须注入人性化的培训,培养耐心,并提供一系列的经验,任何算法都无法复制。我们的目标是给我们的实习生武装技能,使他们能够与AI一起取得成功,确保随着公司阶梯的变革,它仍然是通往启示的攀登,而不是陷入无关紧要的滑坡。 总的来说,在我的讲座中,我揭穿了关于人工智能的神话,明确表示LLMs虽然复杂,但并不完美,人工智能是一种增强工具,而不是替代品。我强调一个更深层次的信息。我们必须发展我们的企业教育,不是对技术的一种反射动作,而是将其战略性地融入其中,确保我们的年轻人成为未来企业的有韧性的建筑师,而不是它的牺牲品。机器人可以负责拿咖啡,但是董事会的席位呢?让我们留给那些学会与机器共舞的人类。 参考资料 [1] Lakhani, Karim. “AI Won’t Replace Humans — But Humans With AI…

Leave a Comment

微软研究员揭示FP8混合精度训练框架:为大规模语言模型训练效率注入动力

大型语言模型以前未曾有过的语言创造和理解的能力已经得到展示,为逻辑、数学、物理和其他领域的进步铺平了道路。但大型语言模型的训练非常昂贵。例如,要训练一个540B模型,PaLM需要6144个TPUv4芯片,而GPT-3 175B的预训练需要数千个拍夫洛普/秒的计算。这凸显了降低大型语言模型训练成本的需求,尤其是为了扩展下一代极智能模型。其中最有前景的节约成本方法是低精度训练,它可以提供快速处理、少内存使用和最小的通信开销。目前大多数的训练系统,如Megatron-LM、MetaSeq和Colossal-AI,通常默认使用FP16/BF16混合精度或FP32完全精度来训练大型语言模型。 对于大型模型来说,这是为了获得完全的准确性而非必需的。随着Nvidia H100 GPU的到来,FP8正在成为下一代低精度表示的数据类型。与现有的16位和32位浮点混合精度训练相比,FP8理论上具有2倍的加速、50%至75%的内存成本降低以及50%至75%的通信节省。这些结果对于扩展下一代基础模型非常鼓舞人心。遗憾的是,FP8训练还需更多、更少的支持。Nvidia Transformer Engine是唯一可行的框架,然而它只使用FP8进行GEMM计算,并将主权重和梯度保持在极高精度(如FP16或FP32)中。因此,综合性能提高、内存节省和通信成本节约相对较小,使FP8的全部潜力仍然隐藏着。 Microsoft Azure和Microsoft Research的研究人员提供了一个高效的FP8混合精度框架,用于解决大型语言模型训练中的这一问题。其主要原理是在大型模型训练过程中利用低精度的FP8进行计算、存储和通信。这将大大降低系统需求,与之前的框架相比。更准确地说,他们创建了三个优化阶段,使用FP8简化分布式和混合精度训练。三个阶段逐步引入了优化器、分布式并行训练和8位集中通信。更高的优化级意味着在大型语言模型训练过程中使用了更多的FP8。此外,他们的系统还提供FP8低位平行性,包括张量、流水线和序列平行性。它可以实现规模化训练,例如使用数千个GPU训练的GPT-175B,打开了低精度并行训练的大门。 使用建议的FP8低精度框架对GPT风格模型的训练(包括有监督的精细调节和预训练),进行验证。将他们的FP8方法与广泛使用的BF16混合精度训练方法进行比较,实验结果显示了显著的改进,例如实际内存使用量减少了27%至42%,重要的是,重量梯度通信开销减少了63%至65%。无论是在预训练还是下游任务中,使用FP8训练的模型与利用BF16高精度的模型性能相当,而不需要对学习率和权重衰减等超参数进行任何调整。在GPT-175B模型的训练过程中,有一点值得注意,他们的FP8混合精度框架在H100 GPU平台上使用的内存比TE少21%,节省的训练时间比TE少17%。 图1:使用我们的FP8混合精度训练方法与更流行的BF16方法在一台拥有80G RAM的Nvidia H100 GPU集群上可以实现的最大模型尺寸的比较。 更重要的是,当模型规模增大时,如图1所示,使用低精度FP8所达到的成本节约可能进一步增强。为了更好地匹配预训练LLMs与最终任务和用户偏好,他们使用FP8混合精度进行指令微调和人工输入的强化学习。特别是,他们使用公开可用的用户共享的指令跟踪数据对预训练模型进行微调。在获得27%的训练速度增益的同时,使用他们的FP8混合精度调整的模型在AlpacaEval和MT-Bench基准测试中表现与使用半精度BF16的模型相似。此外,FP8混合精度在需要加载许多训练模型的RLHF过程中显示出显著的优势。 通过在训练中使用FP8,流行的RLHF框架AlpacaFarm可以在模型权重上实现46%的减少,并在优化器状态的内存使用上实现62%的减少。这更加显示了他们的FP8低精度训练架构的灵活性和适应性。以下是他们为未来一代LLMs进一步发展FP8低精度训练所做的贡献。 • 一种逐渐解锁8位权重、梯度、优化器和分布式训练的易于使用的FP8混合精度训练新框架。通过仅更改超参数和训练凭据,可以轻松将当前16/32位混合精度等价物与这个8位框架互换。他们还提供了一个PyTorch的实现,只需几行代码即可进行8位低精度训练。 • 一系列新的以FP8训练的GPT风格模型。通过将其应用于GPT预训练和微调,他们展示了所提出的FP8方案在从7B到175B参数的一系列模型尺寸上的能力。他们为流行的并行计算范式提供了FP8支持(张量、流水线和序列并行),使FP8可用于训练大型基础模型。他们基于Megatron-LM实现的第一个FP8 GPT训练代码库已公开提供。他们期待引入他们的FP8框架将为未来一代面向大基础模型的低精度训练系统提供新的标准。

Leave a Comment

KOSMOS-2:微软的多模态大型语言模型

介绍 2023年是一个人工智能的年份,从语言模型到稳定的扩散模型。其中一个新的玩家登上了舞台,那就是由微软开发的KOSMOS-2。它是一个多模态大型语言模型(MLLM),在理解文本和图像方面具有开创性的能力。开发语言模型是一回事,而为视觉创建模型是另一回事,但拥有同时具备这两种技术的模型则是另一个全新层次的人工智能。在本文中,我们将深入探讨KOSMOS-2的特点和潜在应用,以及它对人工智能和机器学习的影响。 学习目标 了解KOSMOS-2多模态大型语言模型。 了解KOSMOS-2如何执行多模态接地和指称表达生成。 深入了解KOSMOS-2在现实世界中的应用。 在Colab中使用KOSMOS运行推理。 本文是作为 数据科学博客马拉松 的一部分发布的。 了解KOSMOS-2模型 KOSMOS-2是微软研究团队的一项成果,他们在一篇名为“Kosmos-2:将多模态大型语言模型接地到世界”的论文中介绍了这个模型。KOSMOS-2旨在同时处理文本和图像,并重新定义我们与多模态数据的交互方式。KOSMOS-2基于基于Transformer的因果语言模型架构构建,类似于其他著名模型如LLaMa-2和Mistral AI的7b模型。 然而,KOSMOS-2的独特训练过程是其与众不同之处。它使用一组庞大的图像-文本对训练数据集,称为GRIT,其中文本以特殊令牌形式包含了对图像中物体的引用边界框。这种创新的方法使KOSMOS-2能够提供对文本和图像的新理解。 什么是多模态接地? KOSMOS-2的一个亮点功能是其执行“多模态接地”的能力。这意味着它可以为图像生成描述对象及其在图像中的位置的字幕。这大大减少了语言模型中的“幻觉”问题,极大地提高了模型的准确性和可靠性。 这个概念通过独特的令牌将文本与图像中的对象联系起来,有效地将对象“接地”到视觉环境中。这减少了幻觉,增强了模型生成准确图像字幕的能力。 指称表达生成 KOSMOS-2在“指称表达生成”方面也表现出色。这个功能允许用户以图像中特定边界框和问题的方式提示模型。然后,模型可以回答有关图像中特定位置的问题,为理解和解释视觉内容提供了强大的工具。 这种令人印象深刻的“指称表达生成”用例允许用户使用提示,并为与视觉内容的自然语言交互打开了新的途径。 使用KOSMOS-2进行代码演示 我们将看到如何在Colab上使用KOSMOS-2模式进行推理。在这里找到完整的代码:https://github.com/inuwamobarak/KOSMOS-2 步骤1:设置环境 在这一步中,我们安装必要的依赖库,如🤗 Transformers、Accelerate和Bitsandbytes。这些库对使用KOSMOS-2进行高效推理至关重要。 !pip install…

Leave a Comment