Press "Enter" to skip to content

7458 search results for "t"

微软和香港浸会大学的研究人员推出了WizardCoder:一种代码演变指导的精调代码LLM

大型语言模型(LLMs)最近引起了很大的关注并取得了显著的成功。其中OpenAI的ChatGPT尤为突出。这些模型通过利用大量的互联网数据进行重要的预训练,并通过精确的指导数据进行进一步的微调,实现了各种任务的最新(SOTA)零-shot性能。这种模式在代码的理解和生成中也有所体现。许多代码LLMs已被提出来解决代码相关活动中固有的困难。这些代码LLMs通过使用大量的代码数据进行预训练,使它们能够在与代码相关的各种活动中表现出色。 在代码领域中,与大多数之前的代码LLMs主要侧重于预训练阶段不同,需要对细粒度的指令定制进行更多的研究。为了提高语言模型在各种活动中的泛化能力,首次使用了指令调整。例如,OpenAI的InstructGPT要求人工标注员提供具体的指令以验证与用户目标的符合性。类似于最近的Alpaca,使用ChatGPT通过自我指导方法生成指令数据。Vicuna利用用户在ShareGPT.com上发布的聊天记录。WizardLM建立了Evol-Instruct方法,涉及修改当前的指令数据以生成更复杂和多样化的数据集。 然而,重要的是要注意,这些技术在设计时应该特别考虑到代码领域,而不是主要关注通用领域。受Evol-Instruct方法的启发,微软和香港浸会大学的研究人员在这个项目中打算通过使用特定于代码的Evol-Instruct生成详细的代码指令数据来改进开源代码LLM StarCoder的功能。他们对适用于涉及编码的活动的进化提示过程进行了多方面的修改,以实现这一目标。简化了进化提示,改进了进化指令,并包括了代码调试和时间空间复杂性的限制。他们的方法首先用于开发基本的Code Alpaca指令数据。 接下来,他们使用新开发的代码指令跟随训练集来微调StarCoder并获得他们的WizardCoder。根据包括HumanEval、HumanEval+、MBPP和DS-100在内的四个代码生成基准的实验结果,他们的WizardCoder击败了所有其他开源代码LLM,达到了最先进的(SOTA)性能。他们注意到在HumanEval和HumanEval+上的pass@1得分显著提高,即在HumanEval上增加了22.3(57.3 vs. 35.0),在MBPP上增加了8.2(51.8 vs. 43.6)。令人惊讶的是,尽管规模较小,但他们的WizardCoder在HumanEval和HumanEval+的及格率上甚至超过了Anthropic的Claude和Google的Bard。 以下是本研究的贡献摘要: • 我们提供了WizardCoder,它应用了Code Evol-Instruct来改进开源代码LLM StarCoder的功能。 • WizardCoder在代码生成方面明显优于所有其他开源代码LLM,包括StarCoder、CodeGen、CodeGee、CodeT5+、InstructCodeT5+、StarCoder-GPTeacher和Instruct-Codegen-16B。 • 尽管规模较小,但WizardCoder在代码生成方面超过了主要的闭源LLM,包括Claude、Bard、PaLM、PaLM-2和LaMDA。

Leave a Comment

“认识Lilli:麦肯锡的内部生成式人工智能工具,释放洞察力,提升咨询效率”

在咨询领域,高效和有效地传播知识一直是一个持续追求的目标。咨询行业的开拓者麦肯锡认识到了利用其丰富的见解的挑战,并寻求简化这一过程的方法。尽管拥有许多专家、大量的文档和全球网络,但搜索、综合和应用这些资源的耗时性质仍然是一个瓶颈。这一障碍阻碍了公司迅速为客户提供价值的能力,限制了推动问题解决边界的能力。传统的研究方法非常耗时,尤其是对于新手来说,即使是经验丰富的专业人士也需要大量的时间投资进行深入探索和建立人际网络。 已经尝试了各种解决方案,从策划数据库到复杂的分析工具。然而,这些方法通常存在局限性。虽然它们可能改善了知识检索的某些方面,但未能全面解决迅速访问和利用公司的集体智慧这一多维挑战。 这就是麦肯锡对这个问题的创新回应——“Lilli”。Lilli代表了一种生成式AI平台,彻底改变了公司利用其广泛的知识储备的方式。这种由AI驱动的解决方案为搜索麦肯锡宝贵的见解和专业知识提供了无缝和公正的过程。它是将公司丰富的知识产权转化为可行战略的复杂工具,确保咨询顾问花更多时间应用见解而不是追寻它们。 Lilli的影响是可衡量和深远的。该平台通过自动化项目规划的初始阶段,从识别相关研究文档到定位相关专家,大大减少了启动工作的时间和精力投入。这种效率不仅使初级顾问受益,还使资深同事能够将时间专注于高价值的任务,如问题解决、指导和客户互动。此外,Lilli的AI能力不仅限于文档检索——它已经发展成为许多人的“思维擂台伴侣”,帮助预测问题、完善论证和拓宽视角。 指标显示了Lilli的效力。曾经需要几周的研究和建立人际网络现在只需花费一小部分时间。值得注意的是,专门从事技术战略的团队成员表示,在会议准备方面,他们的时间节省了多达20%,同时提高了他们的贡献质量。该平台不仅可以检索文档,还可以生成新的见解,正如团队成员之一在发现出人意料但相关的客户询问事例时所强调的那样。Lilli的功能涵盖两种模式,可以在麦肯锡的内部知识库以及外部来源进行搜索,增强了其多功能性。 Lilli的实施不仅仅是一项技术壮举;它还需要在法律、网络安全、风险管理和人才发展等领域的协调。该平台的发展历程,从最初的三人小组到70多名专家的联合体,反映了确保其成功的奉献精神。凭借QuantumBlack在GenAI方面的专业知识,Lilli已经准备好在成千上万的同事中进行广泛的部署,重塑公司的知识利用方式。 总而言之,麦肯锡的Lilli是生成式AI在推动咨询行业向前发展的潜力的明证。通过灵活解决知识获取和应用的挑战,Lilli使咨询顾问能够发挥其创造潜力,为客户提供前所未有的价值。这种创新不仅节省时间,还催生了问题解决和思考的新方式,从而展示了技术如何放大人类专业知识以创造变革性的结果。

Leave a Comment

印度在所有经合组织和G20国家中在人工智能技能和人才方面排名第一

在快速发展的技术领域中,一项技能已经成为璀璨的明星:人工智能(AI)。凭借其庞大的技术劳动力,印度在AI技能竞赛中取得了领先地位。该国的技术专业人员正在拥抱AI,重塑自己的职业生涯,并推动各行各业的创新。印度软件和服务公司协会(Nasscom)的一份报告突出了印度在AI领域的领导地位。该国在所有经合组织(OECD)和G20国家中在AI技能渗透和AI人才集中方面排名第一。本文介绍了印度如何在AI领域取得这些成就以及该领域的就业景观。 另请阅读:Sam Altman与印度总理纳伦德拉·莫迪的重要会议:绘制印度的AI未来 印度的AI领导地位:排名和认可 NASSCOM的报告展示了其对AI整合的承诺。此外,印度在全球AI科学出版物方面排名第五,突显了其对AI研究的贡献。印度在G20和OECD国家中具有最高的AI技能渗透因子,达到3.09。该指标显示,与其他国家相比,印度的技术人才拥有AI技能的可能性是其他国家的三倍。 显著增长:印度的AI技能繁荣 关于生成式AI成为主流的热潮引发了技能提升的浪潮。自2016年1月以来,领英平台上添加AI技能的印度人数量惊人地增加了14倍。这一激增凸显了AI在职业领域的日益重要性。 印度是一个拥有470万技术专业人员的技术强国。然而,尽管该国拥有庞大的技术人才库,但该国面临一个紧迫问题-缺乏AI专家。对AI技能的需求激增,表明AI在各个领域具有变革的力量。 另请阅读:印度将在G20提议基于AI的中小企业门户:对小企业来说是一个改变游戏规则的举措 供需困境:印度对AI人才的追求 尽管印度拥有41.6万从事AI和数据科学的专业人员,但预计在未来几年内这一数字将增加21.3万人。世界经济论坛对印度就业格局的预测显示,AI角色的重要性进一步凸显。 公司不遗余力地寻找AI专家。生成式AI角色的职位发布量在一年之内增长了50%,同时搜索这些职位的数量增长了惊人的12300%。对AI人才的需求是不可否认的,企业愿意提供丰厚的回报来吸引和留住这些专家。 另请阅读:AWS和Accel推出“2023年ML Elevate”以推动印度的AI创业生态系统 弥合鸿沟:印度的AI进化 截至2022年8月,印度对数据科学和AI专业人员的需求达到了62.9万,而人才基数达到了41.6万。尽管这一数字庞大,但该国的供需差距为51%。这一差距虽然显著,但明显低于美国等主要经济体。 印度的AI就业格局由五个突出的角色主导:机器学习工程师、数据工程师、数据科学家、数据架构师和DevOps工程师。这些角色共占全国所有AI职位的73%。凭借超过160万的数字人才库,印度正在崛起为全球人才中心。 另请阅读:印度和国外的AI工程师薪资[2023年版] 区域差异:印度的AI薪酬 印度的班加罗尔常被称为印度的硅谷,其机器学习(ML)专家的薪资最高。相比之下,金奈的平均ML薪资低于全国平均水平5%。这种差异显示了AI薪酬中的地区差异。 各种AI角色的薪酬待遇各不相同。机器学习工程师、数据分析师和AI研究人员的需求很高,薪酬也相当可观。计算机视觉工程师、AI产品经理和AI顾问的需求和薪酬也在增长。 跨越国界:AI专家的全球机会 在印度以外地区,人工智能专家的薪水高企。像 Netflix 的人工智能产品经理这样的职位提供的薪资超过六位数,展示了全球对人工智能专业知识的需求。亚马逊、谷歌和高盛等科技巨头愿意大量投资于人工智能和机器学习专家。…

Leave a Comment

在生成人工智能中探索神经微分方程

介绍 生成式人工智能已经有了巨大发展,涵盖了许多技术,可以创建新颖且多样化的数据。虽然像生成对抗网络(GANs)和变分自编码器(VAEs)这样的模型已经占据了主导地位,但神经微分方程(NDEs)领域是一个鲜为人知但非常有趣的领域。在本文中,我们深入探讨了NDEs在生成式人工智能中的未知领域,揭示了它们的重要应用,并展示了完整的Python实现。 本文是数据科学博客马拉松的一部分。 神经微分方程的威力 神经微分方程(NDEs)将微分方程和神经网络的原理融合在一起,形成了一个动态框架,可以生成连续且平滑的数据。传统的生成模型通常生成离散样本,限制了它们的表现力,使其不适用于需要连续数据的应用,如时间序列预测、流体动力学和逼真的运动合成。NDEs通过引入连续的生成过程来弥合这一差距,实现了随时间无缝演化的数据创造。 神经微分方程的应用 时间序列数据 时间序列数据以其顺序性质而普遍存在于各个领域,从金融市场到生理信号。神经微分方程(NDEs)在时间序列生成中成为了一种开创性的方法,为理解和建模时间依赖关系提供了独特的视角。通过将微分方程的优雅与神经网络的灵活性相结合,NDEs使得AI系统能够以无与伦比的精度合成随时间演变的数据。 在时间序列生成的背景下,NDEs成为流体时序转换的指挥者。它们捕捉隐藏的动态,适应变化的模式,并向未来进行外推。基于NDE的模型能够处理不规则的时间间隔,适应噪声输入,并实现准确的长期预测。这种卓越的能力重新定义了预测的领域,使我们能够预测趋势,预测异常,并增强跨领域的决策能力。 NDE驱动的时间序列生成为基于AI的洞察力提供了一个画布。金融分析师利用其能力来预测市场趋势,医疗从业者利用其进行患者监测,气候科学家利用其预测环境变化。NDEs连续而适应性的特性赋予了时间序列数据以生命力,使得AI系统能够与时间的节奏和谐共舞。 物理模拟 进入物理模拟领域,神经微分方程(NDEs)成为能够揭示自然现象复杂结构的大师。这些模拟支撑着跨学科的科学发现、工程创新和创造性表达。通过将微分方程与神经网络相结合,NDEs赋予了虚拟世界以生命,实现了复杂物理过程的准确和高效仿真。 NDE驱动的物理模拟涵盖了我们宇宙的规律,从流体动力学到量子力学。传统方法通常需要大量的计算资源和手动参数调整。NDEs然而提供了一种新的范式,能够无缝地学习和适应动态系统,避免了对显式方程的需求。这加速了模拟工作流程,加快了实验,并扩大了可模拟的范围。 航空航天、汽车和娱乐等行业利用NDE驱动的模拟来优化设计、测试假设和创建逼真的虚拟环境。工程师和研究人员在未知的领域中探索,探索以前计算上限制的场景。实质上,神经微分方程构建了虚拟和有形之间的桥梁,在数字领域中呈现出物理学的细致交响乐。 运动合成 运动合成是动画、机器人和游戏中的关键组成部分,神经微分方程(NDEs)在这里展示了它们的艺术和实用的才能。传统上,由于底层动力学的复杂性,生成自然而流畅的运动序列存在挑战。NDEs重新定义了这个领域,赋予了基于AI的角色和代理以与人类直觉无缝共鸣的逼真运动。 NDEs赋予了运动合成连续性,无缝链接姿势和轨迹,并消除了离散方法中常见的突兀转换。它们解码了运动的基本机制,赋予了角色优雅、重量和响应性。从模拟蝴蝶翅膀的飘动到编排人形机器人的舞蹈,NDE驱动的运动合成是创造力和物理学的和谐融合。 NDE驱动的运动合成的应用是广泛和变革性的。在电影和游戏中,角色的移动具有真实感,引起情感参与。在机器人技术中,机器以优雅和精确的方式导航环境。康复设备适应用户的运动,促进康复。在NDE的引领下,运动合成超越了简单的动画,成为了一种编排运动交响乐的途径,与创作者和观众产生共鸣。 实现神经微分方程模型 为了说明NDE的概念,让我们深入探讨使用Python和TensorFlow实现基本的连续时间VAE。该模型捕捉了连续的生成过程,并展示了微分方程和神经网络的集成。 (注意:在运行下面的代码之前,请确保安装了TensorFlow和相关依赖项。) import tensorflow as tf…

Leave a Comment

Hugging Face 推出 SafeCoder:为企业打造的代码助手解决方案

代码助手解决方案是一种在编写和编辑代码时帮助开发人员的工具或软件应用程序。由于其重要性日益增加,代码助手解决方案最近在全球范围内得到广泛使用。全球范围内正在进行实验和研究项目以推进这个领域。这些代码助手解决方案是建立在LLM(语言模型)之上的。一些代码助手解决方案包括GitHub Copilot、TabNine、IntelliCode等等。它们能够极大地提高生产力。这些平台极大地提升了生产力,提供了上下文相关的代码建议和补全。它们的影响正在为软件开发过程带来显著的效率改进。 然而,使用这些代码助手也存在问题,因为使用这些助手会将代码库暴露给第三方。在训练和推理过程中,代码库都会暴露给第三方,因为经过微调的代码LLM很可能在推理过程中泄露其训练数据集中的代码。SafeCoder允许客户学习创建和更新模型的过程,并掌握他们的AI能力。 因此,Hugging Face的研究人员对这些代码助手解决方案进行了深入研究,并制定了一种名为SafeCoder的方法,以帮助客户构建自己的代码LLM。这种方法涉及在客户的私有代码库上对模型进行微调,利用先进的开放模型和库。重要的是,这个过程允许客户通过避免与Hugging Face或外部实体共享来保持代码的机密性。SafeCoder的核心原则是,在训练或推理过程中,客户的内部代码库将永远不会被任何第三方(包括Hugging Face)访问。在训练和推理过程中,代码始终保持在虚拟私有云(VPC)中,确保其完整性。 StarCoder使用了稳健的150亿参数进行训练,并结合了代码优化技术。引入了Flash Attention进一步提升了模型的效率,使其能够涵盖8192个标记的上下文。它在80多种编程语言上进行了训练,并在多个基准测试中提供了最先进的性能。 研究人员开始参与一个可选的训练阶段,以提供用户特定的代码建议。Hugging Face团队与客户团队密切合作,提供逐步指导,以策划和构建训练数据集。这个过程还包括通过微调来打造个性化的代码生成模型,同时确保最高的隐私性。 在SafeCoder的部署阶段,客户通过将Hugging Face提供的容器实施到自己的基础架构上来掌控情况。这些容器的配置与客户的特定硬件设置相一致,包括NVIDIA GPU、AMD Instinct GPU、Intel Xeon CPU、AWS Inferentia2或Habana Gaudi加速器等选项。在部署和激活SafeCoder的端点后,开发人员可以集成兼容的SafeCoder IDE插件。此集成允许开发人员在工作时实时接收代码建议。 在未来,SafeCoder可能会提供其他类似的可商业允许的开源模型,这些模型以道德来源和透明数据集作为基础LLM进行微调。

Leave a Comment

东京大学的研究人员开发了一种扩展的光子强化学习方案,它从静态赌徒问题转向更具挑战性的动态环境

在机器学习的世界中,强化学习的概念占据了中心舞台,使代理通过在特定环境中的迭代试错来征服任务。它突出了这一领域的成就,例如使用光子方法来外包计算成本,并利用光的物理属性。它强调了将这些方法扩展到涉及多个代理和动态环境的更复杂问题的必要性。通过这项来自东京大学的研究,研究人员旨在将赌博算法与Q学习相结合,创建一种修改过的赌博Q学习(BQL),以加速学习并为多智能体合作提供见解,最终促进光子强化技术的进步。 研究人员使用了网格世界问题的概念。在这个问题中,一个代理通过一个5*5的网格进行导航,每个单元格表示一个状态。在每一步中,代理必须采取上、下、左或右的动作,并接收奖励和下一个状态。特定的单元格A和B提供更高的奖励,并促使代理转移到不同的单元格。这个问题依赖于一个确定性策略,其中代理的动作决定了它的移动。 动作值函数Q(s, a)量化了给定策略π的状态-动作对未来奖励。这个函数体现了代理通过其动作对累积奖励的预期。这项研究的主要目标是使代理学习所有状态-动作对的最优Q值。引入了一种修改过的Q学习,将赌博算法整合进来,通过动态的状态-动作对选择增强学习过程。 这种修改过的Q学习方案允许并行学习,其中多个代理更新共享的Q表。并行化通过增强Q表更新的准确性和效率来提升学习过程。设想了一个决策系统,利用光子的量子干涉原理,确保代理的同时动作保持不同,而无需直接通信。 研究人员计划开发一种算法,使代理能够连续行动,并将其方法应用于更复杂的学习任务。未来,作者的目标是创建一个光子系统,使至少三个代理之间能够进行无冲突的决策,增强决策协调。

Leave a Comment

Hugging Face推出IDEFICS:开创性的开放式多模态对话人工智能与视觉语言模型

在人工智能的动态领域中,一个持续存在的挑战给该领域的进展蒙上了一层阴影:围绕着最先进的AI模型的谜团。虽然不可否认地令人印象深刻,但这些专有的奇迹一直保持着一种隐藏着开放研究和发展进程的神秘氛围。Hugging Face的一支专门研究团队通过IDEFICS(Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS)的引入,弥合了这个巨大的鸿沟。这个多模态语言模型不仅仅是一个简单的竞争者;在功能方面,它与其闭源的对手齐肩。 此外,它还以令人耳目一新的透明度运作,利用公开可用的数据。这个努力背后的推动力是鼓励开放性、可访问性和协作创新的人工智能。在一个渴望着开放性的AI模型,能够熟练处理文本和图像输入以产生连贯对话输出的世界中,IDEFICS成为进展的光芒。 虽然目前的方法值得赞赏,但它们仍然陷入了专有的限制中。然而,IDEFICS的领导者们提出了一个更大胆的建议:一个开放获取的模型,与其闭源的对手在性能上相当,并且完全依赖于公开可用的数据。这个具有远见的创造以Flamingo的强大为基石,有两个版本可供选择:一个有800亿参数的变体和一个有90亿参数的变体。这种范围的分歧确保了它在各种应用中的适应性。研究团队的愿望超越了简单的进步;他们希望建立一个透明的AI开发范式,解决多模态对话AI中的空白,并为其他人奠定舞台。 IDEFICS登场,一个真正的多模态模型奇才。它具有将图像和文本序列吸收为上下文连贯对话文本的天赋能力。这种创新与团队的总体透明度使命完美契合-这是一种贯穿其中的特质。该模型的基石是公开可用的数据和模型的堆叠,有效地推翻了进入门槛的壁垒。其性能证明了这一点:IDEFICS通过轻松回答关于图像的查询、生动地描述视觉叙事,甚至创造与多张图像相关的故事而令人惊叹。它的800亿和90亿参数版本的双重奏与前所未有的可扩展性相 resonates。这个多模态的奇迹,经过仔细的数据整理和模型开发,展开了开放研究和创新的新篇章。 https://huggingface.co/blog/idefics 作为对闭源专有模型所带来的困难的回应,IDEFICS成为开放创新的火球。超越简单的创造,这个模型象征着走向可访问和协作式AI开发的一大步。将文本和图像输入融合,产生一系列对话输出,预示着跨行业变革的来临。研究团队对透明度、道德审查和共享知识的奉献将人工智能的潜力凝结成实质,有望造福人类。在其本质上,IDEFICS展示了开放研究在引领超凡技术新时代方面的潜能。随着AI社区响应这一鼓舞人心的号召,可能性的边界扩展了,为更加光明、更加包容的数字明天带来了承诺。

Leave a Comment

观察和学习小机器人:这种人工智能方法通过人类视频演示教导机器人具有普适操纵能力

机器人一直是科技领域的关注焦点。它们总是在科幻电影、儿童节目、书籍、反乌托邦小说等领域中占据一席之地。不久之前,它们只是科幻中的梦想,但现在它们无处不在,重塑着各行各业,并让我们瞥见未来。 从工厂到外太空,机器人正扮演主角,展示其前所未有的精确性和适应性。 机器人领域的主要目标一直是相同的:模仿人类的灵巧。通过整合手中的摄像头,无论是作为传统静态第三人称摄像头的补充还是替代品,已经取得了令人兴奋的进展,以提高操纵能力。 尽管手中的摄像头具有巨大的潜力,但它们并不能保证无误的结果。基于视觉的模型常常在现实世界的波动中遇到困难,例如背景的变化、光照的变化和物体外观的变化,从而导致脆弱性。 为了解决这个挑战,最近出现了一套新的泛化技术。不再依赖于视觉数据,而是使用多样的机器人演示数据来教授机器人特定的动作策略。这在一定程度上是有效的,但是有一个主要问题。它非常昂贵,真的非常昂贵。在真实的机器人环境中收集这样的数据意味着耗时的任务,比如运动学教学或通过VR头盔或操纵杆进行机器人远程操作。 我们真的需要依赖这种昂贵的数据集吗?既然机器人的主要目标是模仿人类,为什么我们不能只使用人类演示视频呢?人类执行任务的视频提供了一种更具成本效益的解决方案,因为人类的灵活性。这样做可以捕捉到多个示范,而无需不断重置机器人、硬件调试或费力的重新定位。这提供了一个有趣的可能性,即利用人类视频演示来提高以视觉为中心的机器人操纵器的泛化能力,规模化应用。 然而,弥合人类和机器人领域之间的差距并不是一件轻而易举的事情。人类和机器人之间外观上的差异引入了一个需要仔细考虑的分布偏移。让我们来看看新的研究,“给机器人一个帮手”,它弥合了这一差距。 现有的方法采用第三人称摄像机视角来应对这一挑战,其中涉及图像转换、领域不变的视觉表示,甚至利用关于人类和机器人状态的关键点信息的领域适应策略。 给机器人一个帮手的概述。来源:https://arxiv.org/pdf/2307.05959.pdf 相比之下,“给机器人一个帮手”采用了一种令人耳目一新的简单方法:遮盖每个图像的一个一致部分,有效地隐藏了人类手部或机器人末端执行器。这种简单的方法避开了复杂的领域适应技术的需求,使机器人能够直接从人类视频中学习操纵策略。因此,它解决了由于人到机器人图像转换而产生的明显视觉不一致性等明确领域适应方法带来的问题。 该方法可以训练机器人执行各种任务。来源:https://giving-robots-a-hand.github.io/ “给机器人一个帮手”的关键在于该方法的探索性质。它将广泛的手动视频演示与环境和任务泛化相结合。它在一系列真实世界的机器人操纵任务中取得了惊人的表现,包括到达、抓取、拾取和放置、堆叠方块、清理盘子、打包玩具等。该方法显著提高了泛化能力。与仅在机器人演示中训练的策略相比,它使策略能够适应未知的环境和新的任务,平均绝对成功率在未知环境和任务中增加了58%。

Leave a Comment

Snorkel AI x Hugging Face:为企业解锁基础模型

本文是2023年4月6日在Snorkel博客上由Friea Berg发布的文章的转载。 随着OpenAI发布GPT-4和Google推出测试版的Bard,全球企业都对利用基础模型的强大能力感到兴奋。随着这种兴奋情绪的增加,人们也逐渐意识到大多数公司和组织并没有足够的能力来充分利用基础模型。 对企业来说,基础模型带来了一系列独特的挑战。它们比以往任何时候都要大,这使得公司自行托管这些模型变得困难且昂贵,而使用现成的基础模型进行生产可能会导致性能不佳或存在重大的治理和合规风险。 Snorkel AI弥合了基础模型和实际企业应用之间的差距,并为像Pixability这样的AI创新者带来了令人印象深刻的结果。我们正在与Hugging Face合作,Hugging Face以其庞大的开源模型库而闻名,为企业提供更灵活、更多选择的AI应用开发。 Snorkel Flow中的基础模型 Snorkel Flow开发平台使用户能够根据其特定的用例来调整基础模型。应用程序开发始于对所选基础模型在其数据上的“开箱即用”预测的检查。这些预测成为这些数据点的初始版本的训练标签。Snorkel Flow帮助用户通过编程标注高效地识别模型中的错误模式并进行修正,这可以包括使用启发式或提示来更新训练标签。然后可以在更新的标签上微调基础模型,并再次进行评估,这个迭代的“检测和修正”过程会继续,直到调整后的基础模型达到足够高的质量以进行部署。 Hugging Face通过从单一来源提供超过15万个开源模型,帮助实现了这个强大的开发流程。其中许多模型专门用于特定领域的数据,例如BioBERT和SciBERT模型用于演示如何使用机器学习来发现不良药物事件。一个或者更好的是,多个专门的基础模型可以为用户提供初步预测、改进标签的提示,或者微调最终的部署模型。 Hugging Face如何帮助? Snorkel AI与Hugging Face的合作为Snorkel Flow的基础模型功能提供了强大的支持。最初,我们只提供了少量的基础模型。每个模型都需要一个专用的服务,这使得我们无法为企业提供灵活利用日益增长的各种模型的可能性,因为成本太高和难以实现。采用Hugging Face的推理终端服务使我们能够扩展我们的用户可以利用的基础模型数量,同时保持成本可控。 Hugging Face的服务允许用户通过几个点击创建一个模型API并立即开始使用。关键的是,这项新服务具有“暂停和恢复”的功能,使我们能够在客户需要时激活模型API,并在不需要时将其休眠。 “我们惊喜地发现Hugging…

Leave a Comment

利用Hugging Face进行复杂的生成式人工智能应用案例

在这次对话中,Jeff Boudier询问了Writer的联合创始人兼首席技术官Waseem Alshikh,关于他们从Hugging Face用户到客户,再到现在的开源模型贡献者的旅程。 Writer是为什么而开始的? 目前生成式人工智能领域存在哪些最大的误解? Writer现在为什么要贡献开源模型? Hugging Face Expert Acceleration Program服务对Writer的价值是什么? Writer如何通过CPU和GPU来扩展服务LLMs的生产? 效率和使用CPU对于生产有多重要? 如果您对Hugging Face专家加速计划对您的公司感兴趣,请在此处联系我们 – 我们的团队将与您联系,讨论您的需求!

Leave a Comment

研究人员将深度学习与物理学结合起来,修复MRI扫描结果

在医学成像领域中,MRI以其对软组织的出色可视化而脱颖而出,超过了X射线和CT扫描的能力然而,MRI的致命弱点在于其对运动伪影的敏感性 – 即使是扫描过程中的微小移动也会影响图像质量这种问题导致了…

Leave a Comment

月船3号着陆:人工智能和传感器如何助力ISRO的史诗级月球探险

在令人着迷的太空探索广袤中,每个任务都是对未知领域的一次骰子赌博。印度国家航天局印度空间研究组织(ISRO)准备再次展示自己的实力,进行月船3号任务。经过多年的精心规划和艰苦准备,真相的时刻已经到来。这项大胆的冒险成功着陆在月球表面,为印度的太空史增添了新的篇章。本文讨论了人工智能(AI)在月船3号安全着陆中的作用。 还阅读:IBM和NASA联手创建地球科学GPT:解码我们星球的奥秘 人工智能:月船3号的无声导航员 在星星之间,科技和智慧交响演奏。月船3号与其前辈的不同之处在于其与人工智能(AI)的复杂融合。当飞船进入月球下降阶段时,人工智能占据主导地位,执行一场复杂的传感器、摄像头和算法的交响乐。 还阅读:zPod,印度第一辆人工智能驱动的自动驾驶汽车 幕后花絮:参与者及其角色 在幕后,ISRO的遥测、跟踪和命令网络(ISTRAC)充满了控制的激动。在任务总监P. Veeramuthuvel和他的专业科学家团队的领导下,这个神经中心已经准备好进行终极月球芭蕾舞。然而,在紧张的15分钟下降阶段,由于人工智能的存在,他们的参与是有限的。飞船依靠预先编程的计算机逻辑来完成这项高风险行动。 关键下降:印度太空的一大飞跃 当时钟指向8月23日17时47分,我们都看到了故事的展开。任务控制中心从积极干预转变为警惕观察。在人工智能的超级激励下,自主系统接管了飞船的命运。人工智能驱动的传感器协同工作,它们的任务非常明确-确保安全着陆。月船3号的成功取决于AI和技术的这种同步芭蕾舞。 月船3号的传感器和人工智能的导航仪器 ISRO主席S. Somnath揭示了引导这次太空冒险的传感器组合。速度计和高度计提供了重要的速度和高度数据,构成了人工智能导航能力的基础。从避险摄像头到惯性导航摄像头的各种摄像头形成了月球地形的视觉画布。这些多样的输入通过复杂的算法无缝融合,形成了着陆器位置的整体图像。 还阅读:AI登上太空!NASA将推出类似ChatGPT的航天器通信聊天机器人 心智与金属融合:人工智能和导航系统 月船3号成功的核心在于智能导航、引导和控制系统。这个复杂的算法网络指导着飞船的运动,将其轨迹引导到安全着陆点。人工智能在周密的规划中考虑了每种情况-高度调整、推进器点火和障碍物的表面扫描都是由人工智能的思维精心编排的。 还阅读:灵感来自外星人的航天器设计:NASA对太空未来的大胆飞跃 适应性智能:月船3号下降的英雄 人工智能在飞行中的适应和响应能力得到了充分展示。严格的模拟、改进的指导设计和艰苦的算法保证了每个下降阶段的精确度。即使面临逆境,飞船仍然坚定不移。令人惊讶的是,Somnath揭示,即使传感器故障,这个飞船也没有被阻挠,多亏了备用推进系统。 着陆器危险检测和避免摄像头(LHDAC)成为了主角。在人工智能的支持下,它扫描了月球着陆区的轮廓,寻找可能破坏着陆的障碍物。传感器和摄像头的交响乐,都由人工智能操作,进一步确保了着陆器的安全通过。 解码下降:传感器的芭蕾舞 太空船从月球高处到表面的轻柔拥抱的旅程是一场细致入微的芭蕾舞,历时15分钟。机载传感器是舞者,不断重新计算轨迹。关键节点作为传感器准确性的检查点,而壮丽的结局是仅在距离表面150米的地方进行的危险验证。 月球的仆人:AI驱动的智能车Pragyan 这次任务的AI驱动壮丽并不止于着陆器。月球车Pragyan延续了这一传统。AI的手指导Pragyan在一天的冒险中进行导航,并进行实验和采集样品。由AI支持的摄像头和天线确保了Pragyan在月球探险中的成功。 还可阅读:自主导航简介-激光雷达、传感器融合、卡尔曼滤波器…

Leave a Comment

AI2发布Dolma:一个3万亿令牌语料库,开创语言模型研究的透明度

透明度和开放性在语言模型研究中一直是有争议的问题。封闭数据集的存在、秘密的方法论和有限的监督成为推动该领域发展的障碍。为了应对这些挑战,Allen人工智能研究所(AI2)推出了一项开创性的解决方案——Dolma数据集,该数据集包含了惊人的3万亿个标记。目的是在语言模型研究中引领一个新的合作、透明和共享进步的时代。 在不断发展的语言模型开发领域中,OpenAI和Meta等行业巨头使用的数据集和方法论的模糊性给进展蒙上了阴影。这种不透明性不仅阻碍了外部研究人员对现有模型进行批判性分析、复制和增强的能力,也抑制了该领域的整体增长。AI2的Dolma作为一种开放的象征,出现在一个笼罩在秘密中的领域中。Dolma拥有囊括网络内容、学术文献、代码等的全面数据集,旨在通过赋予研究社区构建、解析和优化其语言模型的工具,赋予他们独立进行研究的能力。 Dolma的创造的核心是一组基础原则。其中最重要的原则是开放性,AI2倡导这一原则以消除与预训练语料库的受限访问相关的障碍。这一理念鼓励开发数据集的改进版本,并促进对数据与其支撑的模型之间复杂关系的深入研究。此外,Dolma的设计强调代表性,模拟已建立的语言模型数据集,以确保可比较的能力和行为。规模也是一个突出的考虑因素,AI2深入研究模型和数据集尺寸之间的动态相互作用。为了进一步加强方法论的透明度和降低风险,AI2采用了可复现性和风险缓解的原则,以及透明的方法论和对个体伤害的最小化承诺。 Dolma的创造是一个数据处理的细致过程。该流程包括特定来源和无源操作,将原始数据转化为干净、朴素的文本文档。这些复杂的步骤包括语言识别、从Common Crawl中筛选网络数据、质量过滤、去重和风险缓解策略等任务。包括代码子集和多样化的来源(包括科学手稿、维基百科和Project Gutenberg等)将Dolma的全面性提升到了新的高度。 描绘数据集透明度变化程度的插图 总的来说,Dolma的引入标志着语言模型研究中透明度和合作协同的重大进展。AI2决心解决隐藏数据集的问题,通过开放获取和细致的文档记录确立了一个变革性的先例。所提出的方法论Dolma是一个宝贵的精选内容库,将成为全球研究人员的基石资源。它打破了主要行业参与者周围的秘密范式,取而代之的是一个倡导集体进步和对该领域的深入理解的新框架。随着自然语言处理学科开辟新的视野,Dolma的影响将产生涟漪效应,远远超越这个数据集,促进共享知识的文化,催生创新,并培育负责任的人工智能的发展。

Leave a Comment

2023年要学习的前5个生成式人工智能课程

介绍 随着对熟练员工的需求增加,及时了解与生成式人工智能相关的最新信息和技能至关重要。这里是一份顶级的综合课程选择,适合初学者和有经验的从业者,旨在探索人工智能技术的艺术可能性和实际应用。这篇文章将帮助您选择前5个生成式人工智能课程,以帮助您创造、创新和管理未来。 为什么选择生成式人工智能课程? 选择生成式人工智能课程可以为对人工智能及其应用感兴趣的人提供许多好处。生成式人工智能具有广泛的应用领域。生成式人工智能处理的是具有生成内容能力的模型。以下是选择生成式人工智能课程的一些原因的快速提及: 职业机会 多样化的应用 创新和创造力 解决问题 理解复杂模型 学术和研究追求 个人项目 与专家合作 伦理考虑 最佳生成式人工智能课程 以下是可以帮助您在该领域建立职业的顶级生成式人工智能课程: 生成式人工智能学习路径 该学习课程由Google Cloud管理。该课程包括十个活动,提供有关生成式人工智能产品和技术的精选内容。该计划涵盖了大型语言模型的基础知识以及生成式人工智能解决方案的创建和部署。 时长:每个活动1天(共10天);自由安排 最适合人群:初学者和专业人士 价格:免费 点击此处了解该生成式人工智能课程 大型语言模型:从应用到生产 该课程由Databricks管理,Databricks是一家为各种组织提供在线课程管理服务的公司。开发人员、数据科学家和工程师可以使用最流行的框架构建以LLM为中心的应用程序。学习者在课程结束时将创建一个完整的、可投入生产的LLM工作流程。 时长:6周(每周4-10小时);自由安排…

Leave a Comment

新的AI研究使用少量数据评估电池健康状况和充电水平

锂离子电池已经在全球范围内得到广泛应用,为移动设备、汽油动力汽车和各种应用提供能量。这些电池成为为我们珍贵设备提供动力的首选之一。随着电动汽车的普及趋势逐渐增强,锂离子电池将扮演重要角色。 鉴于这些电池的广泛应用,评估电池健康状况对于解决新兴电池材料的安全问题至关重要。这一点尤为重要,因为对其长期耐久性和韧性的研究有限。考虑到它们在支持越来越多的车辆方面的预期角色,确保有效的健康评估方法变得更加重要。 但是,即使一个电池失效,也会导致整个电池组的故障,从而扰乱电池系统,可能引发烟雾、火灾和爆炸等安全问题。因此,监测电池状态变得很重要,包括参数如电荷状态(SOC)和剩余能量,以及它们的状态,例如整体健康状况。 为了解决这个问题,卡内基梅隆大学和德克萨斯大学奥斯汀分校的研究人员开发了一种电池管理系统,以促进对电池健康的诊断,以便驾驶员能够做出明智的决策。他们研究了充电曲线,并将其用于电池健康评估和预测。这些曲线给出了可用于计算SOC和其他与能量相关状态的SOH可用电池容量的最大容量。研究人员强调,虽然大多数电动汽车已经存在电池管理系统,但这个新模型具有一些与众不同的特点。 为了开展这项研究,研究人员研究了10066个LiNiO2基电池在恒定充放电倍率下的充电曲线。机械工程学副教授Jayan强调,他们拥有约11,000个实验收集的特定电池阴极化学的充电曲线数据库。他们使用这些曲线来训练机器学习模型,以使用稀疏数据输入预测完整的充电曲线。 这个模型仅分析电池充电过程的初始5%。通过这种方法,他们可以以仅有2%的极高精度预测电池的充电情况。令人印象深刻的是,这种精度水平仅利用初始充电曲线的10%作为输入数据就能达到。 研究人员表示,收集和使用真实数据作为机器学习模型的输入将是改进模型的重要下一步。此外,研究人员愿意将环境变量纳入电池充电和随后的放电曲线的计算中。他们还愿意获取在道路上行驶的电动汽车电池的数据并进行探索。通过使用真实世界的实际数据和先进的神经网络,电池管理系统可以更好地预测何时对电池进行充电和放电。

Leave a Comment

“认识 CoDeF:一种人工智能(AI)模型,可以实现逼真的视频风格编辑,基于分割的跟踪和视频超分辨率”

基于大型数据集训练的生成模型具有出色的质量和精度,使得图像处理领域取得了重大进展。然而,视频素材处理仍然没有取得重大进展。由于神经网络的固有不可预测性,保持高时态一致性可能会很困难。视频文件的特性也带来了另一个困难,因为它们通常比其图片等价物包含更低质量的纹理,并且需要更多的处理能力。因此,基于视频的算法远远不及基于照片的算法。这种差异引发了一个问题,即是否可能在保持高时态一致性的同时,轻松地应用成熟的图像算法到视频素材中。 在深度学习之前的时代,研究人员提出了从动态电影中创建视频镶嵌图,并在隐式神经表示的建议之后,使用神经层次图片图集来实现这一目标。然而,这些方法存在两个主要问题。首先,这些表示能力有限,特别是在准确重现视频中的微小元素时。重新构建的素材经常会错过微小的动作特征,如眨眼或紧绷的笑容。第二个缺点是计算出的图集通常存在失真,导致语义信息贫乏。 因此,当前的图像处理技术未能发挥出最佳效果,因为估计出的图集需要更多的自然性。他们提出了一种新的方法,将3D时间变形场与基于哈希的2D图片场结合起来表示视频。使用多分辨率哈希编码来表达时间变形,大大改善了常规电影的调节。这种方法使得监测水和烟雾等复杂对象的变形更加容易。然而,由于变形场的增强能力,计算一个自然的规范图片是困难的。一个忠实的重建也可以预测一个人工规范图片的相关变形场。他们建议在训练过程中使用退火哈希来克服这个障碍。 首先使用平滑变形网格寻找所有刚性运动的粗略解。然后逐渐引入高频特征。通过这种从粗到细的训练,使得表示在规范的真实性和重建的准确性之间达到了妥协。与早期的隐式层次表示相比,他们在重建质量方面取得了显著的改进。这种改进通过规范图片的真实性明显增加和PSNR约4.4的提高来衡量。他们的优化方法在大约300秒内估计出了带有变形场的规范图片,而早期的隐式层次表示需要超过10小时。 他们通过在他们提出的内容变形场上建立起来,将移动图像处理任务(如提示引导图像翻译、超分辨率和分割)转移到更动态的视频内容中。他们在参考图片上使用ControlNet进行提示引导的视频到视频翻译,通过观察到的变形将翻译材料传播开来。这种翻译过程通过在单个规范图片上操作,消除了对所有帧进行耗时的推断模型(如扩散模型)的要求。与使用生成模型进行最新的零样本视频翻译相比,他们展示了在时态一致性和纹理质量方面显著的提高。 与使用神经层次图集的Text2Live相比,他们的方法在处理更复杂的运动、创建更逼真的规范图片和提供更高的翻译结果方面更加出色。他们还将超分辨率、语义分割和关键点识别等图像技术扩展到规范图片中,使它们在视频环境中有了实际应用。这包括视频关键点跟踪、视频对象分割和视频超分辨率等。他们提出的表示方法始终产生具有高时态一致性的高保真合成帧,突显了其作为视频处理的一种具有改变游戏规则的工具的潜力。 基于大型数据集训练的生成模型具有出色的质量和精度,使得图像处理领域取得了重大进展。然而,视频素材处理仍然没有取得重大进展。由于神经网络的固有不可预测性,保持高时态一致性可能会很困难。视频文件的特性也带来了另一个困难,因为它们通常比其图片等价物包含更低质量的纹理,并且需要更多的处理能力。因此,基于视频的算法远远不及基于照片的算法。这种差异引发了一个问题,即是否可能在保持高时态一致性的同时,轻松地应用成熟的图像算法到视频素材中。 在深度学习之前的时代,研究人员提出了从动态电影中创建视频镶嵌图,并在隐式神经表示的建议之后,使用神经层次图片图集来实现这一目标。然而,这些方法存在两个主要问题。首先,这些表示能力有限,特别是在准确重现视频中的微小元素时。重新构建的素材经常会错过微小的动作特征,如眨眼或紧绷的笑容。第二个缺点是计算出的图集通常存在失真,导致语义信息贫乏。 香港科技大学、蚂蚁集团、CAD&CG和浙江大学的研究人员提出了一种将3D时间变形场与基于2D哈希的图像场结合表示视频的新方法。使用多分辨率哈希编码来表示时间变形可以显著改善通用电影的调控。这种方法使得监测水和烟雾等复杂物体的变形变得更容易。然而,由于变形场的增强能力,计算自然规范图像是困难的。忠实的重建也可以预测与人工规范图像相关的变形场。他们建议在训练过程中使用退火哈希来克服这个障碍。 首先使用平滑变形网格找到所有刚性运动的粗略解,然后逐渐引入高频特征。根据这种从粗到细的训练,该表示在规范的真实性和重建的准确性之间取得了折衷。与早期技术相比,他们观察到重建质量有了显著提高。这种改善表现为规范图像的自然性明显增加和约4.4的峰值信噪比提高。他们的优化方法可以在大约300秒内估计带有变形场的规范图像,而早期的隐式分层表示需要超过10小时。 他们通过基于他们建议的内容变形场来将运动图像处理任务(如提示引导的图像翻译、超分辨率和分割)扩展到更动态的视频内容领域。他们在参考图像上使用ControlNet进行提示引导的视频到视频翻译,在观察到的变形中传播翻译材料。该翻译过程通过在单个规范图像上操作,消除了需要在所有帧上进行耗时推理模型(如扩散模型)的要求。将他们的翻译输出与最新的使用生成模型进行零样本视频翻译的结果进行比较,他们展示了显著的时间一致性和纹理质量的提高。 与使用神经分层图的Text2Live相比,他们的方法在处理更复杂的运动、创建更逼真的规范图像以及在翻译结果方面更出色。他们还将超分辨率、语义分割和关键点识别等图像技术扩展到规范图像,使其在视频场景中得以有效使用。这包括视频关键点跟踪、视频物体分割和视频超分辨率等。他们建议的表示方法始终产生具有更高时间一致性的高保真度合成帧,凸显了其作为视频处理的改变游戏规则的工具的潜力。

Leave a Comment

艺术与身份:AI揭示了自我相关性和审美吸引力之间的深刻联系

艺术的变革力量令人着迷,而人工智能(AI)的最新进展正在将这种古老的着迷注入新的生命。由马克斯·普朗克实证美学研究所(MPIEA)、恩斯特·斯特伦曼神经科学研究所(ESI)和马克斯·普朗克心理语言学研究所共同进行的一项开创性研究探索了自我相关性与美学吸引力之间的深刻联系,揭示了为什么大型科技和AI公司热衷于收集个人信息。 这个创新性的研究揭示了一个基本真理:自我相关性是决定艺术美学欣赏的关键因素。该研究的独特方法是利用AI的能力通过一种称为样式转换的技术。通过为个体参与者创建定制艺术品,研究人员试图了解自我构建的身份、记忆和经历如何影响对艺术的感知。 参与者踏上了自我发现的旅程,通过一个全面的问卷分享他们生活的方方面面。童年回忆、最近的冒险和个人身份被展现出来,每个方面都为自我的镶嵌画组成了独特的马赛克。这些个人叙述被转化为图像,利用AI来打造定制艺术品。结果是一系列与参与者深入共鸣的视觉镜像。 研究结果令人震惊,甚至连研究人员自己也感到惊讶。与为他人创作的作品相比,参与者对专门为他们设计的艺术作品的美学吸引力评价显著更高。这种联系令人神奇——自我相关性成为了个体内在共鸣的可靠预测因素。令人称奇的是,没有普遍的自我相关性符号;个人的心理在每块画布上绘制出独特的印象。 然而,艺术并不局限于反映自我的方面。它具有连接不同经历的力量。研究人员明确指出了这一点,称艺术作品不必反映一个人的生活来建立联系。即使当一件艺术作品向人们展示陌生的事物时,自我相关的元素也能培养深刻的理解和愉悦。 这项研究的影响超越了画布和笔触。在AI驱动个性化无处不在的时代,从个性化化身到定制叙述,这项研究为理解此类创新的心理影响奠定了基础。然而,这一发现也伴随着警示。自我相关性的强大吸引力也凸显了个体对个性化内容操纵的脆弱性。随着推荐算法根据复杂的用户配置文件筛选出内容和信息,自觉参与和微妙操纵之间的界限变得模糊,而这一趋势又受到AI快速发展的影响。 这项研究揭示了个人身份与艺术美学吸引力之间错综复杂的联系。它凸显了技术和心理学的强大结合,推动了对个性化内容与操纵之间微妙界限的批判性评估,而这在一个日益互联的世界中愈发凸显。自我相关性在艺术的画布上的笔触可以迷住、启发和改变,它提醒我们所见的反映可以以美丽而复杂的方式塑造我们的认知和经历。

Leave a Comment

Can't find what you're looking for? Try refining your search: