Press "Enter" to skip to content

464 search results for "AI模型"

这篇AI论文介绍了Perseus：一种开创性的框架，可将大规模机器学习和AI模型训练的能源浪费降低多达30％

Published December 17, 2023 by 四海吧

大型语言模型（例如 GPT-3）由于在训练和推理过程中的计算需求而需要大量能量。能源使用情况根据模型的大小、任务复杂性、硬件规格和操作持续时间等因素而存在显著差异。训练这些模型需要大量的计算资源，通常涉及高性能 GPU 或 TPU，导致长时间的大量能量消耗。估计训练像 GPT-3 这样的大型语言模型可能使用相当于多个家庭在几天或几周内消耗的电量。优化能源消耗至关重要，且需要在不降低模型效率的情况下进行。研究人员旨在减少大语言模型训练中没有吞吐量损失可以消除的能量消耗。分布式执行规划中，每个流水线阶段的计算量是一个重要问题。由于深度神经网络(DNN)是粗粒度的张量运算，计算量各不相同，因此平衡每个阶段是不可能的。密歇根大学和华盛顿大学的研究人员发现，在训练过程中，并非所有能量消耗都直接对整体训练吞吐量有贡献，可以大幅减少能量消耗而不会减缓训练速度。他们发现能量膨胀的内在和外在原因，并提出了一个名为“Perseus”的单一优化框架来最小化它们。内在能量膨胀的原因是计算不平衡，而外在能量膨胀是多个流水线并行运行，同步扩展到庞大的数据集进行训练。快于行动迟钝算法的流水线是快速的，浪费了不会影响整体训练吞吐量的能量。 Perseus以高效的方式预先表征整个迭代时间的能量，在正常操作条件下最小化内在能量膨胀。通过次优能量减少，它减轻了外在能量膨胀。它通过精确地减慢流水线中的计算来寻找非阻塞流水线的能量最优迭代时间。研究人员在各种强扩展配置中使用混合并行性来模拟训练大型模型的迟行者。他们测量了能量膨胀的数量和Perseus的外在能量节省。在计算完成后，其他非迟行者等待迟行者完成计算，导致外在能量膨胀。他们减少了微批次的数量和每个流水线迭代的开头和结尾的流水线气泡比例。这消除了内在能量膨胀，从而减少了能量消耗。将Perseus集成到训练工作流程中对人工智能发展的未来具有重要影响。他们的工作有潜力极大地增强LLM和GenAI的分布式训练的可持续性。

Leave a Comment

为什么微软的Orca-2 AI模型标志着可持续AI的重要进展？

Published December 13, 2023 by 四海吧

探索微软Orca-2在可持续智能人工智能领域所取得的突破性进展Orca-2摆脱了大型语言模型（LLMs）的高能耗特性，通过强调智能设计而不是规模，挑战了现状了解这种转变如何打开新的可能性，使先进的人工智能更具包容性、环保责任和影响力探索Orca-2在塑造可持续人工智能未来方面的重要性，将技术进步与环境责任承诺相一致

Continue reading

Leave a Comment

见面吉加GPT：Cerebras 实现 Andrei Karpathy 的nanoGPT，用只有565行代码训练GPT-3规模的AI模型

Published December 13, 2023 by 四海吧

训练大型变压器模型面临重大挑战，尤其是在追求具有数十亿甚至数万亿参数的模型时。主要障碍在于如何在多个GPU上高效分配工作负载，同时减轻内存限制。当前的情况依赖于复杂的大型语言模型（LLM）扩展框架，如Megatron、DeepSpeed、NeoX、Fairscale和Mosaic Foundry。然而，随着模型大小的增加，这些框架引入了相当大的复杂性。讨论的研究介绍了Cerebras的gigaGPT作为解决这些挑战的新颖方法，提供了一种消除对复杂并行化技术的需要的替代方法。对于训练大型变压器模型，像Megatron和DeepSpeed这样的方法依赖于多GPU之间的分布式计算。然而，随着模型大小超过几十亿个参数，这些方法会遇到内存限制，需要复杂的解决方案。相比之下，Cerebras的gigaGPT引入了一种范式转变。它实现了nanoGPT，它具有仅565行的非常紧凑的代码库。这个实现可以训练具有超过1000亿个参数的模型，而无需额外的代码或依赖第三方框架。GigaGPT利用了Cerebras硬件的大量内存和计算能力。与其同行不同的是，它可以无缝操作而不引入额外的复杂性，既提供了简洁可靠的代码库，又能够训练GPT-3规模的模型。 GigaGPT在其核心是实现了基本的GPT-2架构，与nanoGPT的原则紧密对齐。它使用了学习的位置嵌入、标准的自注意力机制、模型中的偏置以及模仿nanoGPT的结构的选择。值得注意的是，该实现不仅适用于特定的模型大小；gigaGPT通过训练具有111M、13B、70B和175B个参数的模型，证明了它的多功能性。与GPT-2分词器和nanoGPT的预处理代码配合使用的OpenWebText数据集成为测试基础。GigaGPT的性能得到了证明，它可以从数百万个参数的模型扩展到具有数百亿个参数的模型，而不需要专门的并行化技术。这565行代码涵盖了整个代码库，展示了其简单和高效。该实现的成功在特定的模型配置中得到了进一步的体现。例如，111M配置与Cerebras-GPT相一致，保持了相同的模型维度、学习率、批量大小和训练计划。类似地，13B配置与相应的Cerebras-GPT配置相匹配，70B配置借鉴了Llama-2 70B。70B模型保持了稳定性和性能，展示了其可扩展性。在验证了70B模型之后，研究人员通过配置基于GPT-3论文的175B模型来推动界限。最初的步骤展示了该模型在处理增加的规模时的内存问题，暗示了gigaGPT可能扩展到超过1万亿个参数的模型。总之，gigaGPT成为训练大型变压器模型的一项突破性解决方案。研究团队的实施不仅通过提供简洁和易于操作的代码库简化了过程，还使得训练GPT-3规模的模型成为可能。利用Cerebras硬件的广阔记忆和计算能力，标志着在使大规模AI模型训练更加可访问、可扩展和高效方面的重要进步。这种创新的方法为机器学习研究人员和从业者解决训练大规模语言模型中的复杂性提供了一个有前途的途径。 Introducing gigaGPT: our implementation of @karpathy’s nanoGPT that trains GPT-3 sized models in just 565 lines of…

Continue reading

Leave a Comment

这篇AI论文揭示了生成型AI模型的网络安全意义-风险、机遇和伦理挑战

Published December 13, 2023 by 四海吧

生成型人工智能（GenAI）模型，如ChatGPT、Google Bard和Microsoft的GPT，已经革新了人工智能互动。它们通过创建多样化的文本、图像和音乐等内容来改变多个领域，影响着沟通和问题解决。ChatGPT被数百万人迅速接受，反映了GenAI融入日常数字生活，改变了人们对人工智能的认知和互动方式。它能够理解和生成类似人类对话的能力，使得更广泛的受众更容易接触和理解人工智能，显著改变了人们的感知。 GenAI模型的发展状况迅速演进，从GPT-1到最新的迭代版本如GPT-4，每一次迭代都展示了在语言理解、内容生成和多模态能力方面的重大进展。然而，这种进化也带来了一些挑战。这些模型日益复杂的特性带来了伦理问题、隐私风险和恶意实体可能利用的漏洞。在这方面，最近有一篇论文对GenAI，尤其是ChatGPT的网络安全和隐私影响进行了全面的探讨。它揭示了ChatGPT中存在的可能践踏伦理边界和侵犯隐私的漏洞，这些漏洞可能被恶意用户利用。该论文指出了类似GenAI工具的潜在威胁，如越狱、反向心理和提示注入攻击，展示了这些工具可能带来的潜在威胁。它还探讨了网络罪犯如何滥用GenAI进行社会工程攻击、自动化攻击和恶意软件创建的问题。此外，它还讨论了利用GenAI的防御技术，强调了网络防御自动化、威胁情报、安全代码生成和伦理准则等来加强系统防御，抵御潜在攻击。作者广泛探讨了操作ChatGPT的方法，讨论了像DAN、SWITCH和CHARACTER Play这样的破解技术，旨在覆盖限制并绕过伦理约束。他们强调了如果这些方法被恶意用户利用，可能导致有害内容的生成或安全漏洞。此外，他们详细介绍了一些令人担忧的情景，如果不受限制地使用ChatGPT-4的能力，可能会突破互联网的限制。他们深入探讨了提示注入攻击，展示了像ChatGPT这样的语言模型中的漏洞，并提供了使用ChatGPT生成攻击载荷、勒索软件/恶意软件代码和影响CPU的病毒的示例。这些探索突显了重大的网络安全问题，说明了类似ChatGPT这样的AI模型在社会工程、网络钓鱼攻击、自动化攻击和多态恶意软件生成方面的潜在滥用。研究团队探索了ChatGPT在网络安全方面的几种应用： – 自动化：ChatGPT通过分析事件、生成报告和提供防御策略来协助SOC分析师。 – 报告：根据网络安全数据生成易于理解的报告，帮助识别威胁和评估风险。 – 威胁情报：处理大量数据以识别威胁、评估风险并推荐缓解策略。 – 安全编码：帮助在代码审查中检测安全漏洞并建议安全编码实践。 – 攻击识别：通过分析数据描述攻击模式，有助于理解和防止攻击。 – 伦理准则：生成AI系统伦理框架的摘要。 – 增强技术：与入侵检测系统集成，提高威胁检测能力。 – 事件响应：提供及时指导并创建事件响应手册。 – 恶意软件检测：通过分析代码模式来检测潜在恶意软件。…

Continue reading

Leave a Comment

元AI宣布紫色羊驼，以协助社区通过开放和生成式AI模型进行道德建设

Published December 12, 2023 by 四海吧

由于自动回归语言建模的数据增加、模型规模和计算能力的成功，会话式AI代理在过去几年中实现了显著的飞跃。聊天机器人通常使用大型语言模型（LLMs），以其众多有用的技能而闻名，包括自然语言处理、推理和工具熟练度。这些新应用需要经过全面的测试和谨慎的发布，以减少潜在的危险。因此，建议由生成性AI驱动的产品实施防止生成违反政策的高风险内容的保障措施，以及防止对模型进行敌对输入和越狱的尝试。其中包括资源，如Llama 2负责任使用指南。在寻找控制在线内容的工具时，Perspective API1、OpenAI内容审查API2和Azure内容安全API3都是很好的起点。然而，当将它们用作输入/输出保障措施时，这些在线审查技术在几个方面存在问题。首先，目前无法区分用户和AI代理在他们所带来的危险方面的区别；毕竟，用户要求信息和帮助，而AI代理更有可能提供。此外，用户无法根据新政策更改工具，因为它们都有固定的政策需要执行。第三，无法将它们调整为特定的使用案例，因为每个工具仅提供API访问。最后，所有现有工具都是基于普通的传统Transformer模型。与更强大的LLMs相比，这严重限制了它们的潜力。新的Meta研究揭示了一种用于输入输出保护的工具，它将会话式AI代理的提示和响应中的潜在危险进行分类。这填补了该领域中将LLMs用作审查基础的一个需求。他们使用基于分类学的数据来对Llama Guard进行微调，这是一个基于逻辑回归的输入输出保护模型。Llama Guard将相关分类学作为输入来分类羊驼，并应用指令职责。用户可以使用零样本或少样本提示来个性化模型输入，以适应不同的使用案例相应的分类法。在推断时，可以选择几个微调的分类法，并相应地应用Llama Guard。他们提出了区分LLM输出（AI模型的响应）和人类请求（对LLM的输入）的独特指南。因此，Llama Guard可以捕捉到用户和代理责任之间的语义差异。利用LLM模型遵循指令的能力，他们只需要一个模型就可以完成这个任务。他们还推出了Purple Llama。将来，它将成为一个综合资源和评估项目，以帮助社区在以开放、生成的AI模型进行伦理建设方面取得成功。网络安全和输入/输出保护工具和评估将是首次发布的一部分，更多的工具将会陆续推出。他们为业界提供了首个全面的LLM网络安全评估指南。这些指南是与他们的安全专家一起开发的，并基于行业建议和标准（如CWE和MITRE ATT&CK）。在这个首次发布中，他们希望提供资源，以帮助减轻在白宫创建负责任的人工智能的承诺中提到的一些危险，例如：量化LLM网络安全威胁的度量标准。评估不安全代码提案的工具。评估使LLM编写恶意代码或进行网络攻击更加困难的工具。他们预计这些工具将通过减少提出不安全的AI生成代码的频率来减少LLM对网络攻击者的效用。他们的研究发现，当LLM建议不安全代码或配合恶意请求时，将会带来严重的网络安全问题。在应用特定内容限制方面，所有LLM的输入和输出都应根据Llama 2负责任使用指南进行审查和过滤。该模型使用公开可用数据集的组合进行训练，以检测可能有害或侵权信息的常见类别，这些信息可能与各种开发者使用案例相关。通过公开可用其模型权重，他们消除了实践者和研究人员依赖带宽有限的昂贵API的需求。这为进一步的实验和根据个人需求调整Llama Guard的能力打开了大门。

Leave a Comment

大新闻：谷歌推迟了Gemini AI模型的发布

Published December 4, 2023 by 四海吧

谷歌意外决定推迟备受期待的最新人工智能模型Gemini的发布，原计划在明年1月进行。据报道，模型在非英语查询中的可靠性存在性能问题，因此需要进行精细调整。这个过程由谷歌首席执行官桑达尔·皮查伊亲自领导。全球准备时间调整据《The Information》援引知情人士的匿名消息报道，这次调整是为了确保Gemini符合全球语言支持标准。最初计划于下周发布，但在纽约、华盛顿和加利福尼亚的盛大揭幕活动已悄然推迟到2024年初。此次调整旨在解决该人工智能模型在非英语提示方面的问题。桑达尔·皮查伊的参与谷歌首席执行官桑达尔·皮查伊亲自参与了这次推迟决定，并且亲自背书，以确保全面提供全球语言支持。这一举措凸显了谷歌超越OpenAI的GPT-4的承诺，解决潜在缺陷并提升人工智能模型的能力。精细调整，达到OpenAI的标准内部人士表示，谷歌已在某些方面取得了令人瞩目的里程碑，符合OpenAI设定的高标准。该公司正在积极改进和完善Gemini的原始版本，确保在生成式人工智能模型的竞争格局中脱颖而出。 Gemini的多模能力和未来愿景 Gemini在2023年的开发者大会上首次亮相，突出显示了其令人印象深刻的多模能力，使其与其他类似产品区别开来。Gemini不仅仅擅长文本和图像理解，还希望在工具和API集成方面取得突破，成为第三方开发者的理想选择。谷歌计划推出移动端的“Gecko”等各种尺寸版本，满足各种应用需求。还阅读： 2023年谷歌开发者大会的重要事件都有哪些？我们的观点随着谷歌在完善Gemini的挑战中前行，1月份的重新发布日期显示了公司对交付划时代人工智能模型的坚定承诺。通过解决问题和完善能力，谷歌不仅仅是为了满足竞争对手设定的标准，而是超越它们。这次推迟意味着为确保全球准备做出了战略调整，并将Gemini确立为人工智能领域中的强有力竞争者。我们期待着1月份的发布，对Gemini创新功能和能力的期待不断增加，为人工智能带来一个新时代。

Leave a Comment

Pika 1.0：一种新的视频创作AI模型

Published November 30, 2023 by 四海吧

在一个被生成AI所迷住的世界中，专门从事以AI为动力的视频创作的初创公司Pika，在由风投公司Lightspeed Venture Partners主导的最新一轮融资中获得了5500万美元的惊人资金。这笔资金的涌入与Pika 1.0的推出相一致，Pika 1.0是一套赋能于视频拍摄的创新工具，旨在改变视频创作的格局。Pika的旅程仅仅开始了六个月，已经吸引了50万用户，每周生成数百万个视频。 Pika 1.0发布 Pika的雄心目标是简化视频制作，从而开发出了Pika 1.0，配备有生成AI模型，能够编辑各种风格的视频，例如“3D动画”、“动漫”和“电影”。这个创新平台从隐秘模式中出现，引入了一种工具，可以扩展视频长度、转换风格，甚至使用AI编辑内容，比如改变衣着或添加人物。现在的问题是，Pika 1.0是否真的能够彻底改变通常复杂且资源密集的视频创作过程？ Pika的竞争优势在充斥着像Runway和Stability AI这样的竞争对手的领域，Pika通过承诺提升视频编辑体验的功能使其与众不同。值得注意的是，Pika 1.0提供了扩展视频画布或宽高比的能力，为用户提供了前所未有的创作自由。随着这个平台为广泛的可用性做好准备，Google和Meta等行业巨头也在暗示他们将进入生成AI视频工具领域。 Lightspeed对Pika的信心尽管竞争激烈，但风投公司Lightspeed Venture Partners在Pika和Stability AI两家公司的投资者中表达了对Pika的转型潜力的信心。代表Lightspeed的Michael Mignano认为，Pika的技术基础和对创造力的早期热情使其在民主化高质量视频创作方面成为领导者。这一认可表明，Pika可能确实在重塑人们如何将自己的故事进行视觉分享方面发挥关键作用。生成AI的兴起潮流 Pika的快速增长反映了对于各类应用中生成AI的需求飙升。根据IDC的数据，生成AI的投资从今年的160亿美元预计将在2027年飙升至1,430亿美元。尽管在2023年，生成AI仅占整体AI支出的9%，但该公司预计在未来五年内将显著增至28%。这一趋势不仅限于专业人士，最近的一项调查显示，Z世代越来越喜欢使用生成AI工具。还可阅读：Google的BARD现在可以“观看并回答关于YouTube视频的问题” 挑战与未来展望随着生成AI的发展，未来面临着一些挑战。2023年O’Reilly的报告指出，26%的企业AI采用者正在初步试点生成AI，并面临着从意外结果和安全问题到公平、偏见和隐私问题的种种担忧。该行业还受制于难以确定商业用例和有关AI生成内容的法律复杂性。…

Continue reading

Leave a Comment

探索对OpenAI模型的开源替代品

Published November 29, 2023 by 四海吧

介绍 11月在人工智能领域发生了许多重大事件。从GPT存储的推出，到GPT-4-turbo的发布，再到OpenAI的惨败，这一切都引发了一个重要的问题：封闭模型和背后的人员有多可靠？当你在生产中使用的模型因为一些内部公司事件而崩溃时，这将会是一次不愉快的经历。这对于开源模型来说并不是一个问题。您对部署的模型拥有完全控制权。您对数据和模型都有主权。但是是否可以用GPT代替开源模型？值得庆幸的是，许多开源模型已经达到或超过了GPT-3.5模型的性能。本文将探讨一些性能最佳的开源LLMs和LMMs替代方案。学习目标讨论开源大型语言模型。探索最先进的开源语言模型和多模态模型。对大型语言模型进行轻量化介绍。了解在本地和云端运行LLMs的工具和服务。本文作为数据科学博文马拉松的一部分发表。什么是开源模型？当模型的权重和架构是自由可用的时，我们称之为开源模型。这些权重是大型语言模型的预训练参数，例如Meta的Llama。这些通常是基础模型或未经调优的原始模型。任何人都可以使用这些模型，并将其在自定义数据上进行微调，以执行下游操作。但是它们是否是真正的开源？数据呢？由于有关版权内容和数据敏感性的种种问题，大多数研究实验室都不会公开发布训练基础模型时所使用的数据。这也涉及到模型的许可问题。每个开源模型都有类似于任何其他开源软件的许可证。许多基础模型（例如Llama-1）配有非商业许可证，这意味着您不能使用这些模型来赚钱。但是像Mistral7B和Zephyr7B这样的模型配有Apache-2.0和MIT许可证，可以在任何地方使用而不会有顾虑。开源替代方案自从Llama发布以来，开源领域一直在追赶OpenAI模型。迄今为止，取得了令人鼓舞的成果。在GPT-3.5发布一年内，我们已经拥有了参数更少但在性能上与GPT-3.5相媲美甚至更好的模型。但是GPT-4仍然是执行从推理和数学到代码生成等各种一般任务的最佳模型。进一步观察开源模型领域的创新和资金支持的步伐，我们很快将会有越来越接近GPT-4性能的模型。现在，让我们讨论一些出色的开源模型的替代方案。 Meta’s Llama 2 Meta在今年7月发布了他们最好的模型Llama-2，并因其令人印象深刻的能力而迅速走红。Meta发布了四个不同参数规模的Llama-2模型，分别是Llama-7b、13b、34b和70b。这些模型在各自的类别中足以击败其他开源模型。但是现在，诸如mistral-7b和Zephyr-7b等多个模型在许多基准测试中优于较小的Llama模型。Llama-2 70b仍然是其类别中最好的之一，可以作为GPT-4在摘要、机器翻译等任务上的替代品。 Llama-2在许多基准测试中表现优于GPT-3.5，并且能够接近GPT-4，使其成为GPT-3.5甚至在某些情况下是GPT-4的一个有价值的替代品。以下图表是由Anyscale提供的Llama和GPT模型的性能比较。有关Llama-2的更多信息，请参阅HuggingFace上的博客。这些LLM经过微调后在自定义数据集上表现良好。我们可以对模型进行微调，以在特定任务中发挥更好的性能。不同的研究实验室也发布了经过微调的Llama-2版本。这些模型在许多基准测试中显示出比原始模型更好的结果。这款经过微调的Llama-2模型，Nous-Hermes-Llama2-70b，由Nous Research经过超过300,000个自定义指令进行了微调，使其比原始的meta-llama/Llama-2-70b-chat-hf更好。查看HuggingFace的排行榜。您可以找到比原始模型效果更好的经过微调的Llama-2模型。这是开源模型的优点之一。根据需求，可以选择多种模型。 Mistral-7B Mistral-7B发布以来，它已成为开源社区的宠儿。它的性能要远远优于同类模型，并接近GPT-3.5的能力。这个模型可以在许多情况下替代Gpt-3.5，比如摘要、改写、分类等。…

Continue reading

Leave a Comment

这篇AI论文介绍了子句编码器：一种对文本进行细粒度语义表示的对比学习上下文嵌入AI模型

Published November 23, 2023 by 四海吧

来自宾夕法尼亚大学、华盛顿大学和腾讯AI实验室的研究人员提出了一种子句编码器，这是一种对比学习的上下文嵌入模型，它为文本序列中的原子命题生成不同的嵌入。与传统的句子嵌入不同，它通过学习不同含义单元的上下文嵌入，专注于细粒度的语义表示。该模型在检索支持事实和识别条件语义相似性等任务中具有很好的效果。子句编码器与句子编码器具有相似的推理成本和空间复杂度，展示了其实用性。子句编码器通过为文本序列中的原子命题生成不同的嵌入，专注于细粒度的语义表示。应用包括检索支持事实和识别条件语义相似性。精细级别的有效编码有望影响文本评估、归属和事实估计。受到文本归属需求的影响，子句编码器设计具有潜在的跨文档信息链接应用。该研究挑战了将整个文本序列编码为定长向量的常见做法，引入了子句编码器。子句编码器架构在跨文档信息链接方面具有潜在应用，为具有不同信息粒度的任务提供了灵活性。该研究旨在评估子句编码器在检索支持事实和识别条件语义相似性等任务中的实用性。该模型为文本序列中的不同原子命题生成不同的上下文嵌入。使用二进制标记掩码作为输入，基于Transformer架构将子句编码器应用于检索支持事实和识别条件语义相似性。尽管研究承认英文文本的实验局限性，但提出了更广泛的语言适用性潜力，并引入了创建子句编码器训练数据的自动过程。子句编码器在识别相同上下文中命题之间的微妙语义差异方面优于句子编码器，提高了精确性和召回率。子句编码器在原子事实检索方面表现与文档级和句子级模型相当，展示了增强的记忆能力。研究强调了子句编码器在不同粒度的多向量检索中的潜力，表明其在各种检索任务中的灵活性。该架构在跨文档信息链接和具有不同粒度的各种任务方面具有潜力。原子事实检索评估显示了子句编码器在检索支持命题方面的实用性。子句编码器提高了多向量检索的召回率，突出了其在各种检索任务中的潜在优势。该研究强调了子句编码器在文本归属中解决粒度挑战的重要性。研究表明，所展示的发现可能为进一步的长篇文本评估、归属和事实估计研究铺平道路。研究承认在英文文本方面实验规模有限，提出了对多语种子句编码器的未来研究，并指出了对其他语言的潜在扩展。研究强调了对持续探索的需求，希望该工作将激发子句编码器应用的进展，进一步推动该领域的研究。

Leave a Comment

Microsoft的Azure AI模型目录以突破性的人工智能模型扩展

Published November 16, 2023 by 四海吧

“`html Microsoft已经发布了Azure AI模型目录的重大扩展，其中包括一系列基础和生成型AI模型。这一举措标志着人工智能领域的重大进步，将不同的创新技术汇集在一起。 AI目录的多样增加 Azure AI模型目录现在包括40个新模型，引入了4种新模式，包括文本到图像和图像嵌入功能。主要增加的模型有：稳定扩散模型：由Stability AI和CompVis开发，这些模型在文本到图像和图像修复任务中表现出色，为创意内容生成提供了稳健且一致的输出。 TII的Falcon模型：Falcon模型具有70亿和400亿参数，针对推断进行了优化，在性能上超过了许多开源模型。 Meta的Code Llama：一系列用于辅助编码任务的生成型文本模型，参数从70亿到340亿不等。 NVIDIA Nemotron：这款来自NVIDIA的80亿参数模型提供了各种功能，包括聊天和问答，与NVIDIA NeMo框架兼容。 Meta的SAM（Segment Anything Model）：一种能够从简单的输入提示中创建高质量对象掩码的图像分割工具。模型即服务（MaaS）在战略上，微软还引入了模型即服务（MaaS）的概念。该服务将使专业开发人员能够将来自Meta的Llama 2、Cohere的Command、G42的Jais以及Mistral的高级模型作为API端点集成到其应用程序中。这种集成过程简化了开发人员资源供应和托管管理的复杂性。创新型模型亮点 Jais：G42开发的具有130亿参数的模型，经过了包含1160亿阿拉伯语标记的数据集的训练。Jais是阿拉伯世界在人工智能方面的重要进步。 Mistral：拥有73亿参数的大型语言模型，由于具有分组查询注意力和滑动窗口注意力特征，因此其推断速度更快且响应序列更长。 Phi模型：包括Phi-1-5和Phi-2，这些变压器展示了改进的推理能力和安全措施，适用于从写作到逻辑推理的各个领域的应用。面向未来的创新…

Continue reading

Leave a Comment

如何提升GenAI模型的输出

Published November 10, 2023 by 四海吧

通過深度學習算法，生成式人工智能已經演化成強大的內容生成器然而，要獲得更準確的結果，可以使用不同的循環和迭代

Continue reading

Leave a Comment

“一个AI模型可以掌握所有音频任务吗？认识UniAudio：一个新的通用音频生成系统

Published October 13, 2023 by 四海吧

生成式人工智能的一个关键方面是音频生成。近年来，生成式人工智能的普及导致音频制作方面的需求日益多样化和新兴。例如，文本转语音和文本转音乐技术被预计用于基于人类请求的音频生成，包括语音合成（TTS）、声音转换（VC）、歌声合成（SVS）和语音转换（VC）。早期关于音频生成工作的努力主要依赖于领域专业知识的任务专用设计，并且仅适用于固定配置。本研究旨在创建通用音频生成，该生成能够通过单一统一模型处理多种音频生成任务，而不是逐个处理每个任务。预计通用音频生成模型可以积累音频和相关模式的充分历史知识，从而为创建各种音频的不断增长需求提供简单高效的解决方案。大型语言模型（LLM）技术在生成文本工作中的卓越表现启发了许多基于LLM的音频生成模型。在这些研究中，LLM在文本转语音（TTS）和音乐制作等任务中的独立性得到了大量的研究，并取得了竞争性的表现。然而，LLM处理多种任务的潜力需要在音频生成研究中更多地得到利用，因为大多数基于LLM的作品仍然专注于单个任务。他们认为LLM范式具有达到音频创作的通用性和多样性的潜力，但尚未深入研究。在本研究中，香港中文大学、卡内基梅隆大学、微软亚洲研究院和浙江大学的研究人员介绍了UniAudio，它使用LLM方法根据多种输入模态（包括音素序列、文本描述和音频本身）生成各种音频类型（语音、噪音、音乐和歌唱）。计划的UniAudio的主要特点如下：所有音频格式和输入模态首先被标记为离散序列。为了成功标记音频，无论音频格式如何，开发了通用神经编解码器模型，并使用多个标记器标记各种输入模态。 https://arxiv.org/abs/2310.00704 然后，UniAudio将源目标对组合为单个序列。最后，UniAudio使用LLM进行下一个标记的预测。标记化技术使用基于神经编解码器的残差矢量量化，生成过长的标记序列（一个帧等于几个标记），LLM无法有效解析。多尺度Transformer架构独立建模帧间和帧内关联，旨在降低计算复杂性。特别是，全局Transformer模块表示帧之间的关联（例如，语义层面），而局部Transformer模块则表示帧内的关联（例如，声音水平）。UniAudio的构建经过两个步骤以展示其可扩展性。首先，所提出的UniAudio同时训练多种音频生成任务，这使得模型具备了音频的固有特性和音频与其他输入模态之间的关系的充分先前知识。其次，仅需进行少量调整，训练好的模型将能够适应更多的音频生成任务。由于能够不断适应音频生成中不断出现的需求，UniAudio有望成为通用音频生成的基础模型。他们的UniAudio在实验中支持11个音频生成任务：训练阶段涵盖了七个音频生成任务，微调阶段添加了四个任务。为了适应165,000小时的音频和10亿个参数，UniAudio的构建方法已经得到提升。 UniAudio在整个11个任务中始终以客观和主观标准判断为基准，取得了竞争性的表现。对于大多数任务，都能达到当代的结果。更多研究表明，在训练阶段同时实践多个任务对所有包含的任务都有益处。此外，UniAudio优于任务特定模型，并能够快速适应新的音频生成工作负载。总之，他们的研究表明发展通用音频生成模型是重要、有希望且有益的。以下是本研究的主要贡献的摘要： (1) 为实现通用音频生成，UniAudio作为单一解决方案提供了11个音频生成任务，超过了领域中所有先前的努力。（2）关于技术方面，UniAudio为（i）音频和其他输入模态的连续表示提供新的思路，提供了（ii）基于LLM的音频生成任务的一致表述，并创建了（iii）专门用于音频生成的有效模型架构。（3）广泛的测试结果验证了UniAudio的整体性能，并展示了创建灵活的音频生成范式的优势。（4）UniAudio的演示和源代码已公开，在未来的研究中，希望它能作为一个基础模型帮助涌现的音频制作。

Leave a Comment

寡聚体发出警报：TorchServe中存在严重安全漏洞，黑客可能劫持服务器并注入恶意AI模型

Published October 10, 2023 by 四海吧

大型语言模型和AI模型每天都在日益受到欢迎。即使是防止事故、检测癌症和维护公共安全，我们也必须依赖这些AI应用程序提供最优质的信息。军队和武器也在国际冲突中利用AI。机器学习（ML）研究在很大程度上受到PyTorch的推动，它作为一种领先的AI平台脱颖而出。尽管PyTorch在研究中被广泛使用，超过90%的ML研究论文使用它，但其知名度使其成为潜在攻击者渗透基于AI的系统的诱人目标。值得注意的是，PyTorch拥有广泛的客户群，包括世界上一些最大的企业，如沃尔玛、亚马逊、OpenAI、特斯拉、Azure、谷歌云、英特尔等。然而，Oligo Security意外地发现TorchServe的默认配置可能会受到威胁。Oligo发现了一个全新的关键SSRF漏洞，该漏洞在管理界面中允许来自任何域的配置上传，并允许远程代码执行（RCE）。攻击者可以利用ShellTorch运行代码并控制目标服务器。他们注意到TorchServe存在对恶意模型的不安全反序列化的漏洞，这可能导致远程代码执行。这些漏洞的组合可能导致远程代码执行（RCE）和完全接管，尤其是考虑到大量TorchServe应用程序正面临这些风险，成千上万的实例正暴露于这些风险之中。他们观察到许多公开可用且未受保护的实例容易受到黑客攻击，可能引入恶意AI模型，甚至完全接管服务器。他们强调这可能影响数百万人。由于这些漏洞，世界上的服务器可能受到威胁。因此，世界上一些最大的企业可能立即处于危险之中。因此，研究人员开发了一个用于在运行环境中检测威胁的安全产品。与可能会忽视某些不希望或不安全的应用程序行为原因的其他工具不同，Oligo调查在使用库的动态环境中可能被忽视的问题。与静态分析解决方案相比，它还可以在运行时检测到任何代码中的异常。这包括使用开源库、专有第三方软件或自定义代码开发的代码。Oligo还识别潜在的风险源，如不安全的配置设置。因此，通过这些漏洞提供的高权限，可以看到、更改、窃取和删除进入和离开目标TorchServe服务器的AI模型和敏感数据。研究人员强调Oligo的附加优势是其提供低干扰解决方案的能力。在解决漏洞和安全问题时，它并不一定需要全面修补或版本更改，为增强系统安全提供了更简化的方法。

Leave a Comment

Google DeepMind发布了一个包含100万条轨迹和一个通用AI模型（RT-X）的开放式X体验，以帮助推动机器人如何学习新技能的进展

Published October 7, 2023 by 四海吧

在人工智能（AI）和机器学习（ML）领域的最新进展中，大规模学习来自多样化和广泛的数据集的能力已经展示出开发极其有效的AI系统的能力。最好的例子是创建了通用预训练模型，这些模型经常表现优于在较小的、特定任务数据上训练的狭义专门化对应物。与在专门化和受限数据上训练的模型相比，开放性词汇图像分类器和大型语言模型表现出更好的性能。然而，相对于计算机视觉和自然语言处理（NLP）可以轻松从互联网中获取大数据集的情况，为机器人交互收集可比较的数据集是具有挑战性的。即使在机器人领域最广泛的数据采集计划中，所获得的数据集通常远远小于视觉和NLP基准测试中的数据集以及其多样性。这些数据集通常集中在某些特定地点、物品或任务受限的群体上。为了克服机器人领域的障碍，并朝着与其他领域的大数据体制类似的方式前进，一组研究人员提出了一种受到在不同数据上对大型视觉或语言模型的预训练达到泛化效果的启发的解决方案。该团队已经发布了他们的Open X-Embodiment（OXE）仓库，其中包括来自21个机构的22种不同机器人实体的数据集，以及用于促进对X-体现模型的进一步研究的开源工具。该数据集涵盖了超过100万个情景的500多种技能和150,000多个任务。主要目的是证明使用来自不同机器人和环境的数据进行学习的策略可以获得正向转移，并且比仅使用来自特定评估设置的数据进行训练的策略表现更好。研究人员在这个数据集上训练了高容量模型RT-X。他们的研究主要发现是RT-X显示了正向转移。通过利用来自不同机器人平台的学习内容，该模型在这个广泛的数据集上的训练使其能够增强多个机器人的能力。这一发现意味着可以创造出灵活而有效的一般性机器人规则，适用于各种机器人环境。该团队使用广泛的机器人数据集训练了两个模型。大型视觉语言模型RT-2和高效的基于Transformer的模型RT-1被训练成以7维向量格式表示位置、方向和握持相关数据的机器人动作。这些模型旨在使机器人更容易处理和操作物体。它们还可以在更广泛的机器人应用和场景上实现更好的泛化。总之，该研究讨论了将预训练模型应用于机器人中的想法，就像自然语言处理和计算机视觉成功地做到了一样。他们的实验结果显示了这些一般性X-机器人策略在机器人操纵语境下的潜在有效性。

Leave a Comment

如何使用文本转语音AI模型Bark生成音频

Published October 6, 2023 by 四海吧

介绍 Bark是由Suno.ai创建的开源、完全生成的文本到音频模型，可以生成非常逼真的、多语言的语音，包括背景噪声、音乐和简单的音效。它采用了GPT风格的架构，能够以意外的方式偏离给定的脚本。典型的文本到语音（TTS）引擎产生机器人和机器生成的单调声音。Bark使用GPT风格的模型生成非常逼真和自然的声音，给人一种像听实际人的经历的奇妙体验。学习目标了解Bark模型的基本用法和功能，以及其限制和应用。学会使用Python代码从文本生成音频文件。使用Python中的NLTK和Bark库创建大规模语音。本文是数据科学博文马拉松的一部分。安装Bark 让我们使用Google Colab笔记本来了解Bark的功能和应用。要安装Bark，请使用以下命令：pip install git+https://github.com/suno-ai/bark.git。 pip install git+https://github.com/suno-ai/bark.git 注意：不要使用’pip install bark’，因为它会安装Suno.ai管理的不同软件包。使用Bark生成音频 Bark支持多种语言，如英语、中文、法语、印地语、德语等。它还支持Bark说话人库，其中包含支持的语言的多个语音提示。请在这里检查说话人库列表。 Bark提供了一些预定义的标签/注释，如背景噪声、礼堂、开头的沉默等，可以帮助理解说话者的使用方式。您可以根据用户的需求在Python代码中使用这些标签设置合适的提示。下面的Python代码根据所选的说话者生成音频文件。 from bark…

Continue reading

Leave a Comment

家里的好莱坞：DragNUWA是一个能够实现可控视频生成的AI模型

Published September 27, 2023 by 四海吧

生成式人工智能在过去两年取得了巨大的飞跃，这要归功于大规模扩散模型的成功发布。这些模型是一种生成模型，可以用来生成逼真的图像、文本和其他数据。扩散模型通过从随机噪声图像或文本开始，逐渐添加细节。这个过程被称为扩散，类似于现实世界中物体逐渐变得越来越详细的过程。它们通常在一个大型真实图像或文本数据集上进行训练。另一方面，视频生成在近年来也取得了显著的进展。它包含了生成逼真和动态视频内容的令人兴奋的能力。这项技术利用深度学习和生成模型生成从超现实的梦幻景观到对我们世界的逼真模拟的视频。利用深度学习的能力来精确控制视频的内容、空间排列和时间演化，对各种应用领域都具有巨大的潜力，从娱乐到教育等等。在历史上，这个领域的研究主要集中在视觉线索上，严重依赖于初始帧图像来引导后续的视频生成。然而，这种方法有其局限性，特别是在预测视频的复杂时间动态方面，包括摄像机运动和复杂的物体轨迹。为了克服这些挑战，最近的研究已经转向将文本描述和轨迹数据作为额外的控制机制。虽然这些方法取得了重大进展，但它们也有自己的限制。让我们来认识一下DragNUWA，它解决了这些限制。 DragNUWA是一个具有细粒度控制的轨迹感知视频生成模型。它无缝集成了文本、图像和轨迹信息，提供了强大和用户友好的可控性。使用DragNUWA生成的示例视频。来源：https://arxiv.org/pdf/2308.08089.pdf DragNUWA有一个生成逼真视频的简单公式。这个公式的三个支柱是语义、空间和时间控制。这些控制分别通过文本描述、图像和轨迹来实现。文本控制以文本描述的形式进行。这将意义和语义注入到视频生成中。它使模型能够理解和表达视频背后的意图。例如，它可以区分真实世界中的鱼游泳和一幅画中的鱼。对于视觉控制，使用图像。图像提供了空间上下文和细节，有助于准确地表示视频中的对象和场景。它们是文本描述的重要补充，为生成的内容增加了深度和清晰度。这些都是我们熟悉的东西，而真正的区别在于DragNUWA在最后一个组成部分中的应用：轨迹控制。 DragNUWA采用开放域轨迹控制。而以前的模型在处理轨迹复杂性方面存在困难，DragNUWA采用了轨迹采样器（TS）、多尺度融合（MF）和自适应训练（AT）来应对这一挑战。这一创新使得可以生成具有复杂的、开放域的轨迹、逼真的摄像机运动和复杂的物体交互的视频。 DragNUWA概览。来源：https://arxiv.org/pdf/2308.08089.pdf DragNUWA提供了一个端到端的解决方案，将文本、图像和轨迹三个基本的控制机制统一起来。这种整合赋予用户对视频内容的精确和直观的控制能力。它重新构想了视频生成中的轨迹控制。它的TS、MF和AT策略实现了对任意轨迹的开放域控制，使其适用于复杂和多样化的视频场景。

Leave a Comment

Wayve推出LINGO-1：一种新的AI模型，可以对驾驶场景进行评论并能回答问题

Published September 22, 2023 by 四海吧

检测和诊断对于提高车辆的操作效率、安全性和稳定性至关重要。近年来，许多研究都探讨了使用可用车辆数据改进车辆诊断过程的数据驱动方法，同时采用了各种数据驱动方法来增强客户服务代理的交互。自然语言在自动驾驶系统中扮演着重要角色，用于人车交互和车辆与行人及其他道路使用者的通信。它对于确保安全、用户体验和人类与自动系统之间的有效交互至关重要。设计应当清晰、具有上下文意识和用户友好性，以增强自动驾驶体验。自动驾驶技术公司Wayve使用机器学习来解决自动驾驶挑战，消除了需要昂贵和复杂的机器人堆栈以及需要高度详细的地图和编程规则的需求。他们推出了一个开环驾驶评论员LINGO – 1。该技术通过从经验中学习，在任何环境和新地点进行驾驶而无需显式编程。 LINGO-1允许用户参与有意义的对话，使他们能够询问选择并了解场景理解和决策制定。它可以回答有关各种驾驶场景的问题，并澄清影响其驾驶决策的因素。乘客与自动驾驶车辆之间的这种独特对话可以增加透明度，使人们更容易理解和信任这些系统。 LINGO -1可以将来自摄像机和雷达的数据输入转换为转动方向盘或减速等驾驶输出。神经网络决策经过了全面的性能测试并进行了可靠的集成，以确保用户的安全。LINGO-1是在一个可扩展和多样化的数据集上进行训练的，该数据集包括了来自专家驾驶员在英国行驶时的图像、语言和行动数据。 LINGO -1可以执行各种活动，例如在红绿灯前减速、换道、通过注意到其他车辆的行动在交叉口停车等等。与人类水平的性能相比，LINGO-1的准确率达到了60%。这些结果是基于对其推理能力、对各种感知的问答和驾驶技能的评测。 LINGO-1还具有反馈机制，可以增强模型的适应能力并从人类反馈中学习。就像驾驶教练指导学员驾驶一样，纠正指导和用户反馈可以随时间改进模型的理解和决策过程。最后，可以得出结论，使用自然语言来增强基础驾驶模型的学习和可解释性是一个重要的第一步。

Leave a Comment

“猜猜我今天看到了什么？这个AI模型可以解码你的脑信号，重建你看到的东西”

Published September 20, 2023 by 四海吧

大脑，人体最迷人的器官。理解它的工作原理是解开生命秘密的关键。我们是如何思考、感知、嗅觉、感觉、行动的？所有这些问题的答案都在于理解大脑的工作原理。理解大脑对我们所看到的内容的反应是一个热门研究课题，因为这种知识可能导致先进的计算认知系统的发展。由于我们有功能磁共振成像（fMRI）和脑电图（EEG）等先进工具，科学家现在可以记录由视觉刺激引发的大脑活动。这导致了对解码和重建引发人脑这些反应的实际内容的兴趣日益增长。研究人类视觉感知的一种常见方法是重建被试者在实验中看到的图像或视频。这是通过使用计算方法，尤其是深度神经网络，并且主要基于fMRI数据来完成的。然而，收集fMRI数据在实际使用中既昂贵又不方便。我的意思是，如果你曾经在MRI设备中待过，你可能知道待在那里是多么的不舒服。没有人愿意自愿参加这样的实验。这就是脑电图的作用。脑电图是一种更高效的记录和分析大脑信号的方法，被试者在观看各种刺激时使用，但它也面临着自己的挑战。脑电图信号是时间序列数据，与静态图像非常不同。这使得将刺激与相应的脑信号片段匹配变得困难。此外，电极放置错误和身体运动等问题会给数据引入显著的噪声。简单地将脑电图输入映射到像素以进行图像重建会产生低质量的结果。另一方面，扩散模型已经成为生成建模中的最先进方法。它们已成功应用于各种任务，包括图像合成和视频生成。通过在强大的预训练自动编码器的潜在空间中操作，研究人员克服了像素空间评估的局限性，实现了更快的推理和降低的训练成本。让我们来认识一下NeuroImageGen，它利用扩散模型的强大功能来解决这个问题。 NeuroImageGen是使用脑电图信号进行神经图像生成的流程。它通过加入多级语义提取模块来解决与基于脑电图的图像重建相关的挑战。该模块从脑电图信号中解码出不同级别的语义信息，从样本级语义到像素级细节（如显著性图）等各种级别。然后，这些多级输出被输入到预训练的扩散模型中，有效地控制不同语义级别上的生成过程。脑电图信号是复杂的时间序列数据，容易受到噪声的影响，使其难以处理。 NeuroImageGen通过提取多级语义（包括像素级和样本级信息）来克服这一问题。像素级语义涉及通过显著性图捕捉视觉刺激的细粒度颜色、位置和形状细节。另一方面，样本级语义提供了更粗粒度的理解，如识别图像类别或文本标题。这种多级方法使得NeuroImageGen能够有效处理嘈杂的脑电图数据，实现高质量的视觉刺激重建。 NeuroImageGen概览。来源：https://arxiv.org/abs/2308.02510 NeuroImageGen将这些多级语义集成到隐式扩散模型中进行图像重建。从脑电图特征生成的显著性图作为初始图像。从图像标题的CLIP模型嵌入中派生的样本级语义指导扩散模型中的去噪过程。这种集成允许在重建过程中灵活控制不同级别的语义信息。结果是重建的视觉刺激，它有效地结合了细粒度和粗粒度信息，产生高质量的图像。这种方法的结果是令人鼓舞的，在脑电图数据上胜过了传统的图像重建方法。NEUROIMAGEN显著提高了重建图像的结构相似性和语义准确性，提高了我们对视觉刺激对人脑的影响的理解。

Leave a Comment

认识小羊驼一个旨在预训练一个包含110亿个Llama模型的小型AI模型，使用了3万亿个令牌

Published September 14, 2023 by 四海吧

在语言模型研究不断发展的领域中，追求效率和可扩展性的探索引发了一项具有开创性的项目——TinyLlama。这个雄心勃勃的努力由新加坡大学的一名研究助理带头，旨在在短短90天内，在一台16个A100-40G GPU的简单配置下，对惊人的3万亿个标记进行1.1亿参数模型的预训练。这个项目的潜在影响是巨大的，因为它承诺重新定义在紧凑语言模型领域中曾经被认为是不可能的边界。尽管像Meta的LLaMA和Llama 2这样的现有模型已经展示了在减小尺寸方面的卓越能力，TinyLlama将这个概念推向了更进一步。1.1亿参数模型仅占用550MB的RAM，这可能是对计算资源有限应用程序的一个潜在的改变者。批评者对这样一个雄心勃勃的计划的可行性提出了疑问，特别是在考虑到Chinchilla缩放定律的情况下。这个定律认为，为了实现最佳计算，参数和训练标记的数量应该成比例缩放。然而，TinyLlama项目直接挑战了这一观点，旨在证明一个更小的模型确实可以在一个庞大的训练数据集上蓬勃发展。 Meta的Llama 2论文揭示了即使在预训练2万亿个标记后，模型也没有显示出饱和的迹象。这一观点可能鼓舞了科学家们进一步推动边界，将TinyLlama的预训练目标定为3万亿个标记。关于是否需要越来越大的模型的争论还在继续，Meta试图推翻Chinchilla缩放定律成为这一讨论的前沿。如果成功，TinyLlama可能会为AI应用程序开启一个新时代，使强大的模型能够在单一设备上运行。然而，如果它未能达到目标，Chinchilla缩放定律可能会证明其相关性。研究人员保持实事求是的态度，强调这个努力是一个开放的试验，没有承诺或预先定义的目标，只有雄心勃勃的“1.1B on 3T”。随着TinyLlama项目在训练阶段的进展，AI社区满怀期待地关注着。如果成功，它不仅可能挑战现有的缩放定律，还可能彻底改变高级语言模型的可访问性和效率。只有时间才能告诉我们TinyLlama是否会胜出，或者在这个雄心勃勃的实验面前，Chinchilla缩放定律是否会坚持立场。

Leave a Comment

认识SMPLitex：一种用于从单张图像估计3D人体纹理的生成AI模型和数据集

Published September 13, 2023 by 四海吧

在不断发展的计算机视觉和图形领域中，一个重要的挑战是从2D图像中创建逼真的3D人体表示。这不仅仅是技术上的障碍，也是从沉浸式虚拟环境到高级视频编辑等众多应用的入口。为了应对这一挑战，研究团队提出了一种突破性的解决方案，称为“SMPLitex”。该研究深入探讨了问题本身、提出的方法论、其复杂性以及SMPLitex的出色性能。从单个图像中创建3D人体表示是计算机图形和计算机视觉中的一个长期愿景。虽然我们在捕捉3D形状方面取得了重大进展，但赋予物体逼真外观的纹理仍然是一个艰巨的领域。想象一下，只需拍摄一个人的单张照片，就能够重新创建他们的3D形状和详细的皮肤纹理、服装甚至配饰。这正是SMPLitex研究团队要解决的挑战。在深入研究SMPLitex之前，了解现有方法及其局限性是至关重要的。传统方法通常依赖于耗时的手动纹理映射或3D扫描等工艺，这对于现实世界的应用来说可能更具可扩展性。这些方法在处理被遮挡或不完整的被拍摄对象时也会遇到困难，限制了它们的实用性。研究团队通过引入SMPLitex，一种从单个图像中估计和操作完整3D人体外观的革命性方法，迈出了大胆的一步。SMPLitex的独特之处在于将最初设计用于2D图像的生成模型集成到3D领域中。关键创新在于根据输入图像建立像素到表面的对应关系，然后用于重建3D纹理。该方法的核心是一种专门设计用于完整3D人体外观的生成模型。该模型经过广泛训练，学习了人体纹理在3D空间中的表现方式。但真正的魔力发生在该模型基于输入图像中可见部分的条件下。通过计算出令人瞩目的精确的像素到表面的对应关系，将2D图像映射到其3D对应物。通过利用这种对应关系，SMPLitex可以生成一个完整的3D纹理映射，忠实地呈现被拍摄对象的外观。生成模型对图像中可见部分的适应性确保了即使在处理部分遮挡的对象时，SMPLitex也能产生逼真的3D纹理。 SMPLitex不仅承诺实现范式转变，而且实现了。研究团队在三个公开可用的数据集上进行了严格的定量和定性评估。结果令人惊叹，SMPLitex在人体纹理估计方面显著优于现有方法，展示了其强大的能力。 SMPLitex的一个突出特点是其多功能性。它在准确的纹理估计方面表现出色，并为更广泛的任务打开了大门。从编辑和合成到操作，SMPLitex可以无缝地将3D纹理集成到各种应用中，丰富了计算机图形和计算机视觉领域。总之，SMPLitex代表了从单个图像中提取逼真的3D人体纹理的巨大进步。通过弥合2D图像和逼真3D重建之间的差距，该方法具有巨大的潜力。其潜在应用涵盖了娱乐、游戏、医疗保健和时尚等各个领域。SMPLitex展示了未来捕捉3D人体外观就像拍照一样简单的前景，研究团队的创新为更具沉浸感的体验、增强内容创作以及新的计算机视觉和图形领域铺平了道路。随着技术的进步，我们只能期待像SMPLitex这样的方法所能带来的令人难以置信的可能性。将生成模型和精确的像素到表面对应相结合，可以彻底改变行业，并重新定义我们与人体形态的数字表示的互动。由于SMPLitex及其有远见的研究团队，从2D到3D的旅程迈出了重要的一步。

Leave a Comment

卡内基梅隆大学和清华大学的研究人员提出了Prompt2Model：一种从自然语言指令生成可部署的AI模型的通用方法

Published September 6, 2023 by 四海吧

假设您希望构建一个自然语言处理（NLP）模型来解决一个给定的问题。您需要定义任务范围，然后找到或创建能够指定预期系统行为的数据，选择适合的模型架构，训练模型，通过评估来评估其性能，然后将其部署供实际使用。研究人员已经通过一行代码使得原型化这种复杂的NLP模型成为可能！ https://arxiv.org/abs/2308.12261 Prompt2Model是一个系统，它保留了使用简单提示指定系统行为的能力，并同时提供了一个可部署的特殊目的模型，保留了所有其优点。上图展示了我们Prompt2Model的工作架构。它实际上是一个自动化的流水线，从用户提示中提取关于任务的所有必要细节，然后收集和组合与任务相关的信息，并使用以下不同的通道进行部署。数据集检索：给定一个提示，第一个任务是发现现有的手动注释数据，以支持用户的任务描述。数据集生成：为了支持各种任务，存在一个数据集生成器，根据Prompt解析器解析的用户特定要求生成合成训练数据。Prompt解析器包含具有上下文学习的LLM，用于分段用户提示，使用OpenAI的gpt-3.5-turbo-0613。模型检索：使用提供的提示，选择一个预训练的语言模型，该模型具有适合用户目标的知识。这个选择的模型作为学生模型，进一步进行微调和评估，使用生成的和检索到的数据。 WebApp：最后，存在一个易于使用的图形用户界面，允许下游用户与训练好的模型进行交互。这个使用Gradio构建的Web应用程序可以轻松地在服务器上公开部署。总之，Prompt2Model是一个快速构建小而有竞争力的NLP系统的工具。它可以直接用于在几小时内产生优于LLM的任务特定模型，无需手动数据注释或架构。鉴于该模型的可扩展设计，它可以提供一个平台，用于探索模型蒸馏、数据集生成、合成评估、数据集检索和模型检索等新技术。展望未来，我们可以将Prompt2Model视为促进协作创新的催化剂。通过提出不同的挑战，研究人员旨在在未来在框架的各个组件上促进多样化的实现和改进。

Leave a Comment

如何在没有GPT4数据的情况下对代码LLM进行指令调整？遇见OctoPack：一组用于指令调整代码大语言模型的AI模型

Published August 25, 2023 by 四海吧

<img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/Screenshot-2023-08-17-at-2.47.58-AM-1024×671.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/Screenshot-2023-08-17-at-2.47.58-AM-150×150.png”/><p>已经证明，通过指令（指令调整）提供的各种语言任务的微调可以提高大型语言模型（LLM）的可用性和整体性能。通过视觉、听觉和多语言数据训练的模型都在指令调整范式中表现良好。 <p>研究人员通过教授研究人员如何编码来教授代码学习机器。间接指导代码LLM通过代码注释生成所需的代码是可能的，但这个过程是脆弱的，并且在期望的结果是自然语言时会失败。通过明确的指导调整可以提高代码LLM的可操控性，并拓宽其适用范围。 <p>研究人员更倾向于使用开源模型来生成合成数据，并避免使用限制性许可的数据。他们比较了四个常见的代码指令数据库： <ul> <li>xP3x，它汇编了广泛使用的代码基准的结果</li> <li>松散的代码LLM使学者能够生成独立的数据。</li> <li>OASST主要是一个具有最少编码示例的语言信息库。</li> <li>全新的4TB Git提交宝库，被称为COMMITPACK。</li> </ul><p><strong>研究人员的贡献</strong></p><ul> <li>对于预训练，您可以访问350种不同编程语言下以宽松许可证发布的4TB代码提交；调整使您可以访问包含高质量代码指令的COMMITPACK的筛选变体。</li> <li>六种编程语言（Python、JavaScript、Java、Go、C++和Rust）和三种场景（代码修复、代码解释和代码合成）的代码LLM泛化基准（HUMANEVALPACK）。</li> <li>最宽松的代码LLM是OCTOCODER和OCTOGEEX。 </li> </ul><p>研究人员使用GitHub提交的操作转储作为数据集的基础。为了确保提交消息非常具体，并避免处理许多文件带来的额外复杂性，他们使用了多个质量过滤器，过滤了商业友好的许可证，并删除了影响多个文件的所有提交。在提交之前和之后使用过滤信息提取受影响的GitHub源代码文件。 <p>对于需要自然语言（NL）响应的任务，指令调整LLM的输入是一个带有可选NL上下文的NL指令。当使用代码数据进行调整指令时，代码可以仅包含在输入中，仅包含在输出中，或同时包含在输入和输出中，与NL指令一起。尽管大多数现有基准重点关注代码合成变体，但客户可能希望在所有三种情况下使用模型。因此，六种语言的三个输入输出排列现在包含在代码合成基准HumanEval中。 <p>在所有三种评估情况下，OCTOCODER在所有其他宽松模型中表现出显著的优势。OCTOGEEX是经过基准测试的模型中参数最少的，仅有60亿个，但在与其他宽松代码LLM进行比较时仍然表现出最佳结果。与其他模型相比，GPT-4具有最高的性能。尽管它可能是较其他模型更大的模型，但GPT-4是闭源的。 <p>可以在https://github.com/bigcode-project/octopack找到所需的所有内容，包括代码、模型和数据。 <p>总之，大型语言模型（LLMs）通过在指令上进行微调，可以在各种自然语言任务上表现更好。研究人员使用编码来对人类指导进行微调，利用Git提交的固有结构将代码更改与人类指导相匹配。350种不同语言的4TB Git提交被编译到COMMITPACK中。对于具有16B参数的StarCoder模型，他们将COMMITPACK与其他自然和合成代码指令进行了比较。在HumanEval Python测试中，他们在没有训练OpenAI输出的模型中达到了最先进的性能。此外，他们还提供了HUMANEVALPACK，它为六种额外的编程语言（Python、JavaScript、Java、Go、C++和Rust）和三个新的编码任务（代码修复、代码解释和代码合成）添加了支持，以扩展HumanEval基准的功能。模型OCTOCODER和OCTOGEEX在HUMANEVALPACK中的所有可允许模型中都表现出了COMMITPACK的优势。</p>

Leave a Comment

Tabnine推出Tabnine Chat：一个针对企业级的、以代码为中心的测试版聊天应用程序，允许开发人员使用自然语言与Tabnine的AI模型进行交互

Published August 25, 2023 by 四海吧

Tabnine，由人工智能驱动的代码补全工具，推出了其套件的一个新功能：Tabnine聊天，处于其测试版。它是一个企业级的、以代码为中心的代码应用，可以与开发人员的集成开发环境（IDE）无缝集成。该应用程序通过使用可解释的现有代码、搜索代码仓库并根据自然语言规范生成新代码，扩展了其功能。 Tabnine Chat的一个关键亮点是其对安全性和合规性的高度关注。该功能适应了各种企业需求，保护私有代码库、可允许的开源代码和堆栈溢出查询。模型仅在具有许可证的开源代码上进行了训练，消除了对代码库信息的担忧。 Tabnine聊天的前端是一个嵌入在Web视图中的React应用程序，目前可在VS code和JetBrains IDE中使用，并支持所有编程语言。它具有几个重要特点：安全性和合规性：Tabnine环境确保了代码的完全私密性和安全性。通过使用虚拟私有云或本地设置，它们提供了隔离的部署环境，优先考虑安全性和机密性。上下文集成：Tabnine聊天在IDE内运行，从而与开发人员的正在进行的代码集成。仓库集成：Tabnine企业用户可以将其仓库链接到此应用程序。拥有大量内部API、库和服务的组织可以通过将内部仓库连接到Tabnine Chat来提高生产力。随着Tabnine Chat的测试阶段的到来，开发人员正处于编码转变的边缘。在开发者与人工智能之间的不断发展的旅程中，Tabnine Chat作为一个能够实现开发者与代码之间无缝对话的先驱脱颖而出。在不久的将来，Tabnine企业版和专业版用户将迎来更广泛的扩展，对于先进的编码交互产生了兴奋。

Leave a Comment

PlayHT团队将情感概念引入生成声音AI的AI模型：这将使您能够通过特定情感来控制和引导语音生成

Published August 23, 2023 by 四海吧

语音识别是自然语言处理领域中最近开发的技术之一。研究科学家还为文本到语音生成的AI模型开发了大型语言模型。很明显，AI在语音质量、表情、人类行为等方面可以达到与人类相似的结果。但是尽管如此，这些模型仍然存在问题。这些模型在语言多样性方面较少。在语音识别、情感等方面也存在一些问题。许多研究人员意识到了这些问题，并发现这是由于模型使用的数据集较小造成的。改进工作已经开始，PlayHT团队推出了PlayHT2.0作为这个案例研究的解决方案。这个模型的主要优点是它使用了多种语言并处理了大量的数据集。这也增加了模型的大小。NLP中的Transformers也在实施这个模型中扮演了重要角色。该模型处理给定的转录并预测声音。这经历了一个将文本转换为语音的过程，称为标记化。这涉及将简化的代码转换为声波，以生成人类语音。该模型具有巨大的对话能力，可以像正常人一样进行对话，并带有一些情感。这些通过AI聊天机器人提供的技术经常被许多跨国公司用于在线呼叫和研讨会。PlayHT2.0模型还通过其中使用的优化技术改进了语音质量。它还可以复制出完全相同的声音。由于模型使用的数据集非常大，该模型在保留原始语音的同时也可以说出其他语言。模型的训练过程经历了大量的epochs和不同的超参数。这导致模型在语音识别技术中表现出各种情感。该模型仍在不断改进中。研究科学家仍在致力于改进情感。提示工程师和许多研究人员还发现，该模型在未来几周内可以通过速度、准确度和良好的F1分数进行更新。

Leave a Comment

来自南加州大学和微软的研究人员提出了UniversalNER：一种新的AI模型，通过有针对性的蒸馏训练，可以识别13000多种实体类型，并在43个数据集上以9%的F1值超过ChatGPT的NER准确性

Published August 23, 2023 by 四海吧

I had trouble accessing your link so I’m going to try to continue without it. ChatGPT和其他大型语言模型（LLM）展示了令人印象深刻的泛化能力，但它们的训练和推理成本通常是不可承受的。此外，对模型权重和推理概率的白盒访问在诸如医疗保健等关键任务应用中经常至关重要，以实现可解释性和信心。因此，指导调整作为一种将LLM压缩为更经济实惠和透明的学生模型的方法已经变得越来越受欢迎。这些学生模型已经展示出模仿ChatGPT的令人信服的能力，就像Alpaca和Vicuna一样。仔细观察发现，它们仍然需要赶上理想的LLM，特别是在特定目标应用中。由于计算资源有限，通用蒸馏只能在所有可想象的应用中创建原始LLM的表面近似。相反，他们在这项研究中研究了有针对性的蒸馏，通过面向任务的指导调整来训练学生模型，用于开放信息提取等多样化的应用类别。他们证明了在保持其跨语义类型和领域的泛化能力的同时，这可以最大程度地复制LLM在指定应用类别中的能力。由于命名实体识别（NER）是自然语言处理中最基本的问题之一，他们选择了它作为案例研究。最近的研究表明，当有许多注释实例时，LLM仍然需要赶上最先进的监督系统的实体类型。然而，对于大多数对象类型来说，大多数对象类型都很难进行注释。开发注释示例的成本高昂且耗时，特别是在需要专业知识的生物学等高价值领域。新的实体类型不断涌现。由于受过预先指定的实体类型和领域的训练，监督NER模型在新领域和实体类型上的泛化能力也较差。他们概述了LLM有针对性蒸馏的通用过程，并展示了开放域NER如何使用它。来自南加州大学和微软研究院的研究人员展示了如何利用ChatGPT从大量未标记的在线文本中创建NER的指导调整数据，并使用LLaMA创建UniversalNER模型（简称UniNER）。他们提出了迄今为止最大、最多样化的NER基准（UniversalNER基准），包括来自9个不同学科的43个数据集，包括医学、编程、社交媒体、法律和金融。LLaMA和Alpaca在这个基准测试中表现不佳（约为0 F1）在零-shot NER上。相比之下，Vicuna在平均F1上表现明显更好，但仍然比ChatGPT落后20个绝对点以上。与此相反，UniversalNER在平均F1上超过Vicuna超过30个绝对点，并在UniversalNER基准测试中实现了最先进的NER准确性，涵盖了数以万计的实体类型。除了复制ChatGPT识别任何实体的能力（7-13亿个参数），UniversalNER在平均F1上还超过了其NER准确性7-9个绝对点。令人惊讶的是，UniversalNER明显超过了使用监督NER实例的最先进的多任务指导调整系统，如InstructUIE。他们还进行了广泛的消融测试，以评估不同蒸馏组件（如指导提示和负采样）的影响。他们将提供他们的蒸馏配方、数据和UniversalNER模型，并提供一个交互式演示，以帮助进一步研究有针对性的蒸馏。

Leave a Comment

UCLA研究人员推出GedankenNet：一种自我监督的AI模型，从物理定律和思维实验中学习，推动计算成像的发展

Published August 12, 2023 by 四海吧

近年来，深度学习的最新进展对计算成像、显微镜和全息成像相关领域产生了重大影响。这些技术在生物医学成像、传感、诊断和3D显示等各个领域都有应用。深度学习模型在图像翻译、增强、超分辨率、去噪和虚拟染色等任务中展示出了非凡的灵活性和有效性。它们已成功应用于各种成像模式，包括明场和荧光显微镜；深度学习的整合正在重新塑造我们对微观尺度复杂世界的理解和能力。在计算成像中，主流技术主要采用监督学习模型，需要大量带有注释或基准实验图像的数据集。这些模型通常依赖于通过各种方法获取的带标签的训练数据，例如经典算法或来自不同成像模式的注册图像对。然而，这些方法存在一些限制，包括繁琐的训练图像获取、对齐和预处理，以及可能引入推断偏差。尽管通过无监督和自监督学习来解决这些挑战的努力，但对实验测量或样本标签的依赖仍然存在。虽然一些尝试已经使用带标签的模拟数据进行训练，但准确表示实验样本分布仍然复杂，并且需要对样本特征和成像设置有先验知识。为了解决这些固有问题，加州大学洛杉矶分校Samueli工程学院的研究人员引入了一种名为GedankenNet的创新方法，它提出了一种革命性的自监督学习框架。这种方法消除了对标记或实验训练数据以及任何与现实样本的相似性的需求。通过基于物理一致性和人工随机图像进行训练，GedankenNet克服了现有方法所面临的挑战。它为全息重建建立了一个新的范式，为在各种显微镜、全息术和计算成像任务中常用的监督学习方法的局限性提供了一个有前途的解决方案。 GedankenNet的架构由一系列空间傅里叶变换（SPAF）块组成，通过残差连接相互连接，有效捕捉空间和频率域信息。通过整合物理一致性损失函数，该模型在全息重建过程中强制执行波动方程的一致性，从而产生物理准确的复杂场输出。这种独特的训练策略使得GedankenNet能够在合成和实验全息图像上具有出色的泛化能力，即使面对未见样本、轴向散焦和光照波长的变化。 a）插图描述传统的迭代全息重建技术、自监督深度神经网络GedankenNet和现有的监督深度神经网络。| b）GedankenNet用于全息重建的自监督训练过程。性能评估显示，GedankenNet在全息重建方面具有出色的能力。通过结构相似性指数（SSIM）、均方根误差（RMSE）和误差校正系数（ECC）等定量指标，GedankenNet在各种全息图像集上始终优于传统的监督技术。值得注意的是，GedankenNet的物理一致性损失有效地减轻了非物理性伪影，从而实现了更锐利和更准确的重建。模型与波动方程的兼容性进一步增强了其性能，使其能够通过正确的波动传播从散焦全息图中恢复高质量的物体场。这些发现突显了GedankenNet在外部推广方面的优越性，使其能够以出色的保真度处理新颖的实验数据和仅相位样本。总体而言，加州大学洛杉矶分校研究团队的GedankenNet代表了计算成像和显微镜领域的一个开创性进展。通过采用自监督学习的力量和以物理为基础的思想实验，GedankenNet为训练神经网络模型提供了一种新的方法。这种创新方法不仅克服了当前监督学习技术的局限性，还为各种计算成像任务提供了更加多样化、与物理相容且易于训练的深度学习模型的途径。这一突破将极大地加速显微镜领域的进步，促进更广泛的应用和对微观世界的更深入的认识。

Leave a Comment

见识谷歌的RT-2 AI模型-一台像人类一样学习的机器人

Published August 3, 2023 by 四海吧

虽然神经网络受到人类大脑运作方式的启发，但并不完全相同不过，如果谷歌的新RT-2模型能够如其所说的那样工作，它可能是朝着人类般的人工智能迈出的重要一步由谷歌的DeepMind团队推出的这个模型承诺能够从网络和…

Continue reading

Leave a Comment

为什么Meta要免费提供其极其强大的AI模型

Published July 31, 2023 by 四海吧

解释了分裂技术界的人工智能辩论

Continue reading

Leave a Comment

说话机器人：我们的新AI模型将视觉和语言转化为机器人动作

Published July 28, 2023 by 四海吧

Google DeepMind推出了一个新的视觉-语言-动作模型，以改进机器人技术

Continue reading

Leave a Comment

见到GOAT-7B-社区模型：一种在GoatChat应用收集的数据集上对AI模型Fine-Tuned LLaMA-2 7B模型进行微调的模型

Published July 28, 2023 by 四海吧

最近，AI研究实验室的科学家们发布了GOAT-7B-Community模型，该模型通过使用GoatChat应用的数据对LLaMA-2 7B模型进行了改进。Meta的LLaMA v2 7B经过微调，成为了最先进的GOAT-7B-Community模型，利用了从GoatChat应用获得的新颖、细粒度的数据集。 “对齐”在创建大型语言模型（LLM）中至关重要。这是一种模型可以拒绝回答其认为不道德或非法的问题的思想，基于其教育和经验。对齐对于道德AI实施至关重要，但也给模型优化带来了新的障碍。研究人员注意到，通过对齐生成的回答很少提供客户所需的精确细节。这些反应通常更为温和，表明不愿意详细阐述。解决这个问题是至关重要的，如果要构建一个可靠的模型，为问题提供深入和完整的回答。他们发现，对齐过滤器并不能消除所有不当建议。因此，对齐通常会导致丢弃大量的数据集。这相当于案例中总信息的三分之一左右。鉴于这个问题，研究人员开发了一种新的清理数据集的技术。此外，他们进行了一项受管制的实验，以全面了解对齐回复对模型性能的影响。科学家们是如何受教的配备八个A100 NVIDIA GPU的高性能节点为深度学习计算提供了支持。研究人员选择了bfloat16浮点格式和DeepSpeed ZeRO-3优化作为训练过程的基础。他们对模型进行了三次迭代，每隔一个时期保存一次进展。然而，经验证据显示，执行一个时期后，质量开始下降。这促使他们重新思考他们的策略，并选择进行一次训练时期并进行一次中途检查。常用的评估语言模型的标准，如MMLU和BigBench Hard，用于评估GOAT-7B-Community模型。团队目前正在分析所有模型，并将很快发布他们的研究结果。用途大语言模型和聊天机器人的研究是GOAT-7B-Community的主要关注点。自然语言处理、机器学习和人工智能的学者和爱好者将发现它特别有用。限制尽管具有令人印象深刻的推理能力，该模型仍然存在与其相对较小的规模（7B模型被认为是“小型”LLM）相关的问题。其中最明显的问题是“幻觉”。这些“幻觉”是一个不断阻碍解决的障碍，随着LLM的改进和扩展。 “幻觉”是人工智能研究中非常强调的一个持久性问题。最终目标是开发出能够产生逻辑上正确、符合语法的答案，并忠实于所提供事实的模型。风险和偏见由于GOAT-7B-Community模型使用了公共和专有数据进行训练，因此该模型的可靠性不高，可能会返回与现实相悖的结果。因此，GOAT-7B-Community模型可能产生不准确、有偏见甚至令人反感的结果。主要观察没有比这更好的免费7B模型。良好的MMLU结果的关键是多样化和高质量的数据集。与当前的13B模型相比，7B的表现令人钦佩。然而，尺寸限制仍然存在。…

Continue reading

Leave a Comment

Can't find what you're looking for? Try refining your search:

Web Analytics