Press "Enter" to skip to content

2952 search results for "模型"

揭秘语言模型中的逆向缩放

一个重要的方面是要考虑到反比例缩放问题,这可能会影响更大的LLM的表现虽然这可能会带来挑战,但也为改进和优化提供了机会通过解决这个问题,我们可以增强这些模型的整体能力,使它们更有效地处理各种任务这些潜在的改进突显了更大的LLM在人工智能领域的价值和潜力

Leave a Comment

谷歌AI提出PixelLLM:一种能够进行细粒度定位和视觉语言对齐的视觉语言模型

大型语言模型(LLMs)成功利用了人工智能(AI)的子领域,包括自然语言处理(NLP),自然语言生成(NLG)和计算机视觉。借助LLMs,我们能够创建能够复杂推理关于图像的视觉语言模型,回答与图像相关的问题,并用自然语言描述图像。然而,LLMs是否能够执行词定位或定位引用等定位任务仍然不确定。 为了克服这个挑战,谷歌研究和UC圣地亚哥的研究人员团队引入了一种智能模型称为PixelLLM,可以实现精细的定位和视觉语言对齐。这种方法受到了人们自然行为的启发,尤其是婴儿用手势、指点和命名来描述他们的视觉环境。团队表示,目标是找出LLMs如何从视觉输入中获得空间理解和推理。 PixelLLM将语言模型的每个单词输出密集对准到像素位置上。为此,添加了一个微小的多层感知机(MLP),它能够对每个单词的像素位置进行回归。使用了低秩微调(LoRA),允许更新或冻结语言模型的权重。该模型还可以接收文本或位置提示,使其能够提供符合提示的输出。 该模型的架构包括图像编码器、提示编码器和提示特征提取器。大语言模型接受提示条件下的图片特征和可选的文本提示作为输入,并输出每个单词的定位和标题。该架构能够接受多样的语言或位置组合作为输入或输出,适应各种视觉语言活动。 团队使用诸如密集物体字幕、位置条件字幕和引用定位等众所周知的视觉任务评估了该模型。PixelLLM在各种挑战中展现出卓越的性能指标,包括RefCOCO引用定位上的89.8 P@0.5,Visual Genome条件化字幕上的19.9 CIDEr以及密集物体字幕上的17.0 mAP。密集的像素定位公式非常重要,这在对RefCOCO进行的消融实验中得到了证明,相对于其他的定位公式,它取得了3.7个百分点的提升。因此,PixelLLM在实现精准的视觉语言对齐和定位方面取得了成功。 团队总结了他们的主要贡献如下: 引入了一个名为PixelLLM的新的视觉语言模型,可以生成单词定位和图片标题。 该模型支持文本或可选的位置提示,除图片输入外。 使用了定位的叙述数据集进行每个单词定位的训练。 该模型能够适应各种视觉语言任务,包括分割、位置条件字幕、引用定位和密集字幕。 该模型在位置条件字幕、密集字幕、引用定位和分割方面展现出卓越的结果。

Leave a Comment

全球通用模型:Runway AI研究启动新的长期研究工作

“`html 世界模型是一种旨在构建对环境的内部了解并利用这些知识来预测该空间内未来事件的人工智能系统。研究人员主要在受控环境中测试这些世界模型,如视频游戏或特定任务,例如驾驶。最终目标是雄心勃勃的 – 创建可以处理遇到的各种情况的模型,这些情况在不可预测的现实世界中发生。 早期尝试创建这种系统的一个例子是Gen-2视频生成系统。它就像一个初入行的艺术家,试图制作展示基本物体运动理解的短视频。然而,它在更复杂的任务中有困难,对于涉及快速相机移动或复杂物体行为的情景挣扎不已。这揭示了当前世界模型的局限性,促使研究人员深入研究和改进这些系统。 构建有效的世界模型之路面临着几个挑战。一个关键方面是这些模型需要生成准确一致的环境地图。它不仅仅是识别运动,还要在给定空间内进行导航和互动。此外,这些模型不仅必须理解世界的动态,还必须理解和模拟其居民的行为,包括真实的人类行为。这个多方面的挑战需要不断的研究和创新。 研究人员正在积极努力克服这些挑战,致力于增强世界模型的适应性和能力。就像升级视频游戏中的角色一样 – 这些模型需要在生成可靠的地图和在不同复杂情景中进行导航时进行升级。目标是使它们具备处理现实世界的不可预测性的能力。 为了衡量这些世界模型的有效性,研究人员采用了一些度量标准。这些度量标准衡量了模型生成一致准确地图的能力,其在不同环境中导航的熟练程度以及其对人类行为的逼真模拟。这些可量化的测量方法作为基准,让研究人员评估这些不断发展的世界模型的进展和能力。 总之,开发通用世界模型是一个充满挑战和令人兴奋前景的持续过程。随着研究人员不断完善这些模型,承诺在各种现实情景中进行更好的模拟和预测。这些模型的演变不仅推动了人工智能能力的界限,还有可能深入理解复杂环境并改进人工智能与我们的动态世界的互动。 The post General World Models: Runway AI Research Starting a New Long-Term Research Effort…

Leave a Comment

医疗景观人工智能模型列表(2023年)

鉴于人工智能(AI)在今年取得的许多进展,AI已成为2023年的一个重要讨论点并不足为奇。现在,几乎在每个领域中都可以找到AI的应用案例,其中之一就是在医疗保健和医学领域的令人兴奋和有用的应用。从药物发现到转录医学文件,甚至协助手术,它正在改变医疗专业人员的生活,还有助于减少错误并提高其效率。本文讨论了2023年几个有可能改变医学界的AI模型。 Med-PaLM 2 Med-PaLM由Google Research设计用于医学领域,能够对医学问题提供高质量的答案。该模型利用了Google的LLM的强大性能,并是其中一个在回答USMLE样式问题时达到人类专家水平的首个模型。在评估时,该模型展示了理解症状、进行复杂推理并选择适当治疗的能力。此外,它在研究中基于MedQA医学考试基准测试中取得了86.5%的准确率。尽管显示出了有前途的能力,研究人员希望进行更严格的评估,以确保该模型可以在关键安全领域部署。 Bioformer Bioformer是BERT的一个紧凑版本,可用于生物医学文本挖掘。虽然BERT在NLP应用中取得了最先进的性能,但通过减少参数可以提高计算效率,对性能的影响很小。Bioformer研究人员采用这种方法开发了一个模型,其模型尺寸比BERT大大减小(减少60%)。该模型是在PubMed摘要和PubMed Central全文文章上训练的,并使用了生物医学词汇表。研究人员发布了两个版本的模型-Bioformer8L和Bioformer16L,在命名实体识别、关系抽取、问题回答和文档分类等参数评估中表现良好,即使参数更少。 MedLM MedLM是由Google开发的一套针对医疗保健用例进行调优的基础模型。MedLM中的两个模型旨在处理复杂任务并扩展到各种任务中。这些模型的主要目的是自动化任务,以节省时间,提高效率并改善患者整体健康状况,Google的研究人员与德勤合作以试行MedLM的能力。MedLM还与其他AI系统集成,如BenchSci的ASCEND,以提高临床研究和开发的质量和速度。 RoseTTAFold RoseTTAFold是一款通过有限信息预测蛋白质结构的深度学习软件。它能够研究蛋白质序列的模式、蛋白质氨基酸的相互作用以及它们的三维结构。该模型使研究人员能够模拟蛋白质和小分子药物彼此之间的相互作用,促进药物发现研究。该模型的研究人员还公开了其代码,以造福整个社区。 AlphaFold AlphaFold是由DeepMind开发的功能强大的AI模型,可以根据蛋白质的氨基酸序列预测其三维结构。DeepMind与EMBL的欧洲生物信息研究所(EMBL-EBI)合作共同发布了一个包含超过2亿个AI生成的蛋白质结构预测结果的数据库,以促进科学研究。在CASP14中,AlphaFold在高准确性的情况下超过了其他模型,产生了令人满意的结果。此外,它具有更好地帮助研究人员理解蛋白质结构和推进生物研究的潜力。 ChatGLM-6B ChatGLM是一个双语模型(中英文),它在中文医疗对话数据库上进行了精细调整。该模型在相对较短的时间内(13小时)进行了精细调整,使其成为非常实惠且适用于医疗目的的LLM。该模型还具有更长的序列长度,因此支持更长的对话和应用程序。该模型使用了监督式精细调整、RLHF等技术进行训练,从而使其能够更好地理解人类指令。因此,该模型具有出色的对话和问答能力。 本文最初发表在MarkTechPost上,文章标题为:医疗领域人工智能模型清单(2023年)。

Leave a Comment

这篇人工智能论文调查了大型语言模型(LLMs)在医学中的作用:它们面临的挑战、原则和应用

自然语言处理(NLP)在过去几个月里取得了长足的进步,尤其是引入了大型语言模型(LLM)。像GPT、PaLM、LLaMA等模型由于其在文本生成、摘要生成和问题回答等多种NLP任务方面的能力,已经获得了很大的流行度。研究人员一直致力于将LLM的力量用于医疗领域。 医疗LLM包括ChatDoctor、MedAlpaca、PMC-LLaMA、BenTsao、MedPaLM和Clinical Camel,用于改善患者护理和支持医疗从业人员。尽管当前的医疗LLM已经显示出良好的结果,但仍然存在一些需要解决的挑战。许多模型忽视了类似对话和问答等临床环境中的生物医学NLP任务的实际价值。医疗LLM在诸如电子病历(EHR)、出院小结生成、健康教育和护理计划等临床情景中的潜力已成为最近努力的研究课题;然而,这些模型经常缺乏共同的评估数据集。 另一个缺点是目前使用的大多数医疗LLMs仅根据其回答医疗问题的能力来评估候选人,忽视了其他重要的生物医学任务,如信息检索、文本生成、关系抽取和文本摘要。为了克服这些问题,一组研究人员在探索医疗LLM的不同方面时进行了一项研究,回答了以下五个主要问题。 创建医疗LLMs:第一个问题旨在调查创建医疗LLMs的方法和因素。这包括理解创建这些模型背后的思想,以及它们的结构、训练集和其他相关要素。 评估医疗LLMs在下游任务中的表现:第二个问题集中于评估医疗LLMs在实际情况下的实际结果或表现。这包括评估这些模型在真实世界情况下的表现,特别是在临床医学相关任务方面。 在实际临床实践中使用医疗LLMs:第三个问题探讨了医疗LLMs在临床环境中的实际使用情况。这包括调查如何将这些模型纳入医疗从业人员的常规工作流程中,以改善沟通、决策和患者护理。 应用医疗LLMs带来的问题:第四个问题认识到使用医疗LLMs存在障碍,就像使用任何其他技术一样。为了在医疗环境中负责任地和成功地实施这些模型,可能需要解决一些障碍,包括道德问题、模型中的潜在偏见和可解释性问题。 成功构建和应用医疗LLMs:最后一个问题询问未来,以阐明改进医疗LLMs的设计和应用,以确保医疗LLMs继续成为医疗行业中有用的工具。 总之,本调查广泛分析了医疗领域中的LLMs。它总结了从10种不同的生物医学活动中获得的评估,并详细概述了它们的应用。通过解决关键问题,该研究旨在提供对医疗LLMs的全面了解,鼓励更深入的分析、团队合作和医疗AI领域的更快发展。

Leave a Comment

这篇AI论文介绍了Perseus:一种开创性的框架,可将大规模机器学习和AI模型训练的能源浪费降低多达30%

大型语言模型(例如 GPT-3)由于在训练和推理过程中的计算需求而需要大量能量。能源使用情况根据模型的大小、任务复杂性、硬件规格和操作持续时间等因素而存在显著差异。 训练这些模型需要大量的计算资源,通常涉及高性能 GPU 或 TPU,导致长时间的大量能量消耗。估计训练像 GPT-3 这样的大型语言模型可能使用相当于多个家庭在几天或几周内消耗的电量。 优化能源消耗至关重要,且需要在不降低模型效率的情况下进行。研究人员旨在减少大语言模型训练中没有吞吐量损失可以消除的能量消耗。分布式执行规划中,每个流水线阶段的计算量是一个重要问题。由于深度神经网络(DNN)是粗粒度的张量运算,计算量各不相同,因此平衡每个阶段是不可能的。 密歇根大学和华盛顿大学的研究人员发现,在训练过程中,并非所有能量消耗都直接对整体训练吞吐量有贡献,可以大幅减少能量消耗而不会减缓训练速度。他们发现能量膨胀的内在和外在原因,并提出了一个名为“Perseus”的单一优化框架来最小化它们。 内在能量膨胀的原因是计算不平衡,而外在能量膨胀是多个流水线并行运行,同步扩展到庞大的数据集进行训练。快于行动迟钝算法的流水线是快速的,浪费了不会影响整体训练吞吐量的能量。 Perseus以高效的方式预先表征整个迭代时间的能量,在正常操作条件下最小化内在能量膨胀。通过次优能量减少,它减轻了外在能量膨胀。它通过精确地减慢流水线中的计算来寻找非阻塞流水线的能量最优迭代时间。 研究人员在各种强扩展配置中使用混合并行性来模拟训练大型模型的迟行者。他们测量了能量膨胀的数量和Perseus的外在能量节省。在计算完成后,其他非迟行者等待迟行者完成计算,导致外在能量膨胀。他们减少了微批次的数量和每个流水线迭代的开头和结尾的流水线气泡比例。这消除了内在能量膨胀,从而减少了能量消耗。 将Perseus集成到训练工作流程中对人工智能发展的未来具有重要影响。他们的工作有潜力极大地增强LLM和GenAI的分布式训练的可持续性。

Leave a Comment

微软人工智能团队推出Phi-2:一个具有杰出推理和语言理解能力的2.7B参数小语言模型

语言模型的发展一直以来都是在大模型能够拥有更高性能的前提下进行的。然而,打破这一既定信念,微软研究院的机器学习基础团队的研究人员推出了参数为27亿的全新语言模型Phi-2,这一模型正颠覆着长期主导这一领域的传统扩展规则,挑战了“模型大小决定语言处理能力”的普遍观念。 这项研究打破了关于超卓性能必须依赖更大模型的普遍假设。研究人员将Phi-2引入视为范式转变,超越常规。文章揭示了Phi-2的独特特点以及其开发中采用的创新方法。Phi-2摒弃常规方法,依赖精心策划的高质量训练数据,并利用较小模型的知识传递,对语言模型扩展的既定规则构成了巨大挑战。 Phi-2方法的核心在于两项关键性发现。首先,研究人员强调了训练数据质量的重要作用,使用“教科书级”数据精心设计,使模型获得推理、知识和常识的能力。其次,采用创新技术实现了模型洞察力的高效扩展,从13亿参数的Phi-1.5开始。文章深入探讨了Phi-2的架构,这是一个基于Transformer的模型,以下一个单词预测为目标,在合成和网络数据集上进行训练。令人惊讶的是,尽管规模较小,Phi-2在各种基准测试中超越了更大的模型,突显了其高效性和出色能力。 总之,来自微软研究院的研究人员将Phi-2推崇为语言模型发展中的一股变革力量。这一模型不仅挑战了,而且成功推翻了业界对模型能力与大小本质相关的长期信念。这种范式转变鼓励了新的视角和研究方向,强调了不完全遵循常规扩展规则时所能实现的高效性。Phi-2独特的高质量训练数据和创新的扩展技术,标志着自然语言处理迈向前沿,并为未来带来了新的可能性和更安全的语言模型。 本文首发于Microsoft AI团队推出Phi-2:一个参数为27亿的小型语言模型,展示出卓越的推理和语言理解能力,转载请注明出处。

Leave a Comment

如何使用AWS原型实现ICL-Group在Amazon SageMaker上构建计算机视觉模型

这是由ICL和AWS员工共同撰写的客户帖子ICL是一家总部位于以色列的跨国制造和采矿公司,以独特矿物为基础生产产品,并满足人类的基本需求,主要涉及农业、食品和工程材料三个市场他们的采矿场地使用必须进行监控的工业设备

Leave a Comment

Deci AI推出DeciLM-7B:一种超快速且超准确的70亿参数的大型语言模型(LLM)

“`html 在不断发展的技术进步领域中,语言模型已成为不可或缺的一部分。这些由先进的人工智能驱动的系统增强了我们与数字平台的互动。语言模型旨在理解和生成类似人类的文本,弥合了人类沟通与机器理解之间的差距。技术的进步引领着一个数字时代,语言模型在信息处理、沟通和问题解决中扮演越来越重要的角色。 最近,Deci推出了DeciLM-7B,这是一种具有高精度和速度的创新模型,适用于70亿参数级别。这个模型在Apache 2.0许可下,处于新一代语言模型的前沿,拥有70亿参数级别中无与伦比的准确性和速度。该模型是语言处理领域的一种增量革新和变革性力量。 在“开放语言模型排行榜”上,DeciLM-7B显示出令人印象深刻的平均得分为61.55。这表明DeciLM-7B是70亿参数级别中最先进的基础语言模型,提供了在各种应用中改进的准确性和可靠性。Mistral 7B在诸多基准测试中表现优异,包括Arc、HellaSwag、MMLU、Winogrande和GSM8K等。 DeciLM-7B不仅准确,而且速度出色。与Mistral 7B相比,它的吞吐量增加了83%,与Llama 2 7B相比增加了139%。DeciLM-7B提高了语言模型的效率标准。PyTorch基准测试突显了其在吞吐量上优于Mistral 7B和Llama 2 7B,分别显示出1.83倍和2.39倍的增加。 DeciLM-7B与Infery和Dec开发的推理SDK相互协作,相对于具有vLLM的Mistral 7B,能够提供4.4倍的速度提升,为成本效益高、大量用户交互提供机会。 DeciLM-7B利用NAS的引擎AutoNAC。该模型采用了变量分组查询注意力。在顶级的70亿参数大型语言模型中,该模型在没有复杂的偏好优化方法的情况下表现出色。研究人员强调,DeciLM-7B和Infery-LLM具有在多个行业引发革命性变革的潜力。它们在提供实时聊天机器人的高容量客户服务方面提升了智能度、响应度和可负担性,并在医疗、法律、市场营销和金融等文本密集型专业领域中实现了工作流自动化的革新。 总之,DeciLM-7B在大型语言模型中具有重要作用。它不仅在准确性和效率方面出类拔萃,还在可访问性和多功能性方面表现出众。随着技术的不断进步,像DeciLM-7B这样的模型在塑造数字世界方面变得更加重要。它们给我们提供了一个令人兴奋的前景,展示了无数未来可能性的一瞥。随着技术的进步,这些模型变得越来越重要,为我们提供了数字领域中众多选择的引人入胜且广阔的预览。 “`

Leave a Comment

微软AI发布了LLMLingua:一种独特的快速压缩技术,可用于压缩大型语言模型(LLMs)的提示,以加快推理速度

鉴于大型语言模型(LLM)具备较强的概括和推理能力,它们显著地提升了人工智能(AI)社区的水平。这些模型在自然语言处理(NLP)、自然语言生成(NLG)、计算机视觉等方面展示了令人瞩目的能力。然而,包括语境学习(ICL)和思维链(CoT)提示在内的新发展,导致了使用较长提示的部署,有时甚至超过几万个令牌。这在模型推理方面带来了成本效益和计算效率的问题。 为了克服这些挑战,微软公司的研究团队推出了LLMLingua,一种独特的粗粒度快速压缩技术。LLMLingua的主要目标是最小化与处理长提示相关的开销,并加速模型推理。为此,LLMLingua采用了一些重要策略,包括以下几点。 预算控制器:创建了一个动态预算控制器,用于分配压缩比率给原始提示的各个部分。这确保提示的语义完整性在大量压缩比率下仍然保持。 令牌级迭代压缩算法:将令牌级迭代压缩算法集成到LLMLingua中。这种技术通过捕捉压缩元素之间的相互依赖关系,实现了更复杂的压缩,同时保留了提示的关键信息。 基于指令调整的方法:该团队提出了一种基于指令调整的方法,以解决语言模型之间分布不匹配的问题。调整语言模型的分布可以提高用于快速压缩的小语言模型与预期的LLM之间的兼容性。 研究团队使用来自不同情况的四个数据集进行了分析和实验,以验证LLMLingua的实用性。这些数据集包括推理的GSM8K和BBH、对话的ShareGPT以及摘要的Arxiv-March23。结果表明,该方法在每种情况下都取得了最先进的性能。结果甚至显示,LLMLingua可以在牺牲很少性能的情况下,实现高达20倍的显著压缩。 实验中使用的小语言模型是LLaMA-7B,封闭式LLM是GPT-3.5-Turbo-0301。LLMLingua在最大压缩比20倍时超越了以前的压缩技术,在保留推理、摘要和讨论能力方面表现出了韧性、经济性、高效性和可恢复性。 LLMLingua的有效性在多个封闭式LLM和小语言模型中得到证实。在使用GPT-2-small时,LLMLingua展示了出色的性能结果,与更大的模型大致匹配。它还在强大的LLM上表现出色,超过了预期的快速结果。 LLMLingua的可恢复性是一个值得注意的方面,因为当使用它来恢复压缩的提示时,GPT-4能够有效地从完整的9步CoT提示中检索重要的推理信息,并保持原始提示的含义和相似性。这个功能保证了可恢复性,即使在翻译后仍保留了关键信息,增加了LLMLingua的整体印象。 总而言之,LLMLingua为LLM应用中长提示带来的困难提供了全面的解决方案。该方法展现了出色的性能,并提供了提高LLM应用的效果和价格效益的有用途径。

Leave a Comment

见面Mixtral 8x7b:Mistral推出的革命性语言模型,超越GPT-3.5在开放学术资源的人工智能中

大型语言模型领域迎来了一个重要的跨越,Mixtral 8x7b的到来。Mistral AI开发了这个具有卓越能力和独特架构的新模型。它用稀疏的Expert混合(MoE)层取代了前馈层,这是变换器模型中的一种创新方法。 Mixtral 8x7b 在一个框架内拥有八个专家模型。这个模型是一个专家混合模型(MoE),使Mixtral能够实现卓越的性能。 专家混合技术可以使模型的预训练所需的计算能力大大减少。这意味着可以显著增加模型或数据集的大小而不增加计算预算。 在MoE层中引入了路由器网络,它可以高效选择处理哪些令牌的专家。尽管与含有12B参数的密集模型相比,Mixtral的模型拥有四倍的参数,但由于每个时间步选择了两个专家,因此可以快速解码。 Mixtral 8x7b具有32,000个令牌的上下文长度容量,优于Llama 2 70B,并在各种基准测试中展现出与GPT3.5相媲美或更好的结果。研究人员表示,该模型具有适用于各种应用的多功能性。它可以多语言操作,并展现其在英语、法语、德语、西班牙语和意大利语方面的流利性。其编码能力也非常出色;在HumanEval测试中得分40.2%,巩固了它作为一个全面的自然语言处理工具的地位。 Mixtral Instruct在MT-Bench和AlpacaEval等行业标准上表现出色。它在MT-Bench上的表现超过其他公开模型,并与GPT-3.5相匹配。尽管参数达到70亿,但该模型的性能类似于八个模型的集合。虽然它可能没有达到560亿参数的规模,但总参数数约为450亿。此外,Mixtral Instruct在指导和聊天模型领域表现出色,表达了其优势。 Mixtral Instruct的基本模型没有与其他基本模型对齐的特定提示格式。这种灵活性允许用户顺畅地扩展输入序列,获得合理的延续或将其用于零样本/少样本推理。 然而,有关预训练数据集的维度、组成和预处理方法的完整信息仍需进一步提供。同样,仍不知道对Mixtral instruct模型的DPO(域预提供目标)和SFT(部分微调)使用了哪些微调数据集和相关超参数。 总结一下,Mixtral 8x7b通过结合性能、适应性和创造力改变了语言模型的游戏规则。当AI社区继续研究和评估Mistral的架构时,研究人员迫切希望看到这种先进语言模型的影响和应用。MoE的8x7B能力可能为科学研究和发展、教育、医疗保健和科学开辟新的机遇。 这篇文章Meet Mixtral 8x7b: The…

Leave a Comment

为什么微软的Orca-2 AI模型标志着可持续AI的重要进展?

探索微软Orca-2在可持续智能人工智能领域所取得的突破性进展Orca-2摆脱了大型语言模型(LLMs)的高能耗特性,通过强调智能设计而不是规模,挑战了现状了解这种转变如何打开新的可能性,使先进的人工智能更具包容性、环保责任和影响力探索Orca-2在塑造可持续人工智能未来方面的重要性,将技术进步与环境责任承诺相一致

Leave a Comment

见面吉加GPT:Cerebras 实现 Andrei Karpathy 的nanoGPT,用只有565行代码训练GPT-3规模的AI模型

训练大型变压器模型面临重大挑战,尤其是在追求具有数十亿甚至数万亿参数的模型时。主要障碍在于如何在多个GPU上高效分配工作负载,同时减轻内存限制。当前的情况依赖于复杂的大型语言模型(LLM)扩展框架,如Megatron、DeepSpeed、NeoX、Fairscale和Mosaic Foundry。然而,随着模型大小的增加,这些框架引入了相当大的复杂性。讨论的研究介绍了Cerebras的gigaGPT作为解决这些挑战的新颖方法,提供了一种消除对复杂并行化技术的需要的替代方法。 对于训练大型变压器模型,像Megatron和DeepSpeed这样的方法依赖于多GPU之间的分布式计算。然而,随着模型大小超过几十亿个参数,这些方法会遇到内存限制,需要复杂的解决方案。相比之下,Cerebras的gigaGPT引入了一种范式转变。它实现了nanoGPT,它具有仅565行的非常紧凑的代码库。这个实现可以训练具有超过1000亿个参数的模型,而无需额外的代码或依赖第三方框架。GigaGPT利用了Cerebras硬件的大量内存和计算能力。与其同行不同的是,它可以无缝操作而不引入额外的复杂性,既提供了简洁可靠的代码库,又能够训练GPT-3规模的模型。 GigaGPT在其核心是实现了基本的GPT-2架构,与nanoGPT的原则紧密对齐。它使用了学习的位置嵌入、标准的自注意力机制、模型中的偏置以及模仿nanoGPT的结构的选择。值得注意的是,该实现不仅适用于特定的模型大小;gigaGPT通过训练具有111M、13B、70B和175B个参数的模型,证明了它的多功能性。 与GPT-2分词器和nanoGPT的预处理代码配合使用的OpenWebText数据集成为测试基础。GigaGPT的性能得到了证明,它可以从数百万个参数的模型扩展到具有数百亿个参数的模型,而不需要专门的并行化技术。这565行代码涵盖了整个代码库,展示了其简单和高效。 该实现的成功在特定的模型配置中得到了进一步的体现。例如,111M配置与Cerebras-GPT相一致,保持了相同的模型维度、学习率、批量大小和训练计划。类似地,13B配置与相应的Cerebras-GPT配置相匹配,70B配置借鉴了Llama-2 70B。70B模型保持了稳定性和性能,展示了其可扩展性。在验证了70B模型之后,研究人员通过配置基于GPT-3论文的175B模型来推动界限。最初的步骤展示了该模型在处理增加的规模时的内存问题,暗示了gigaGPT可能扩展到超过1万亿个参数的模型。 总之,gigaGPT成为训练大型变压器模型的一项突破性解决方案。研究团队的实施不仅通过提供简洁和易于操作的代码库简化了过程,还使得训练GPT-3规模的模型成为可能。利用Cerebras硬件的广阔记忆和计算能力,标志着在使大规模AI模型训练更加可访问、可扩展和高效方面的重要进步。这种创新的方法为机器学习研究人员和从业者解决训练大规模语言模型中的复杂性提供了一个有前途的途径。 Introducing gigaGPT: our implementation of @karpathy’s nanoGPT that trains GPT-3 sized models in just 565 lines of…

Leave a Comment

Together AI推出了StripedHyena-7B:一种替代性的人工智能模型,与最优秀的开源变压器在短期和长期上下文评估中具有竞争力

AI ​​一起为序列建模架构作出了重大贡献,并引入了StripedHyena模型。它通过为传统的Transformer提供了新的选择,专注于计算效率和增强性能,彻底改变了这一领域。 此发布包括基础模型StripedHyena-Hessian-7B(SH 7B)和聊天模型StripedHyena-Nous-7B(SH-N 7B)。StripedHyena基于去年创建的H3、Hyena、HyenaDNA和Monarch Mixer等有效的序列建模架构的重要经验教训。 研究人员强调,该模型在训练、微调和生成过程中处理长序列时具有更快的速度和更高的内存效率。StripedHyena通过将门控卷积和注意力结合到他们所称的Hyena运算符中的混合技术中。此外,这是与强大的Transformer基础模型竞争的首个替代架构。在包括OpenLLM leaderboard任务的短上下文任务中,StripedHyena优于Llama-2 7B、Yi 7B和最强Transformer替代方案(如RWKV 14B)。 该模型在处理短上下文任务和处理较长提示的过程中通过研究各种基准进行了评估。在Project Gutenberg书籍上进行的困惑度缩放实验表明,困惑度在32k处饱和或在此点之后下降,这意味着模型能够吸收来自较长提示的信息。 StripedHyena通过一种独特的混合结构实现了效率,该结构将注意力和门控卷积组织成Hyena运算符。他们使用创新的嫁接技术优化了这种混合设计,在训练过程中实现了架构修改。 研究人员强调,StripedHyena的主要优势之一是其在训练、微调和生成长序列等各种任务中的速度和内存效率的提升。它在32k、64k和128k上的端到端训练中,分别比使用FlashAttention v2和自定义内核进行优化的Transformer基准性能提高了30%、50%和100%。 未来,研究人员希望在几个领域取得显著进展,其中包括StripedHyena模型。他们希望创建能够处理更长上下文的更大模型,从而扩大信息理解的限制。此外,他们还希望融入多模态支持,通过允许它处理和理解来自不同来源(如文本和图像)的数据,提高模型的适应性。 总之,该模型有望通过引入额外的计算(例如在门控卷积中使用多个头)改进Transformer模型。这种受线性注意力启发的方法,在H3和MultiHyena等架构中已被证明有效,提高了模型在训练过程中的质量,并为推理效率提供了优势。

Leave a Comment

这篇AI研究分享了关于图上大型语言模型(LLMs)的全面概述

著名的大型语言模型(LLMs)如GPT,BERT,PaLM和LLaMA在自然语言处理(NLP)和自然语言生成(NLG)领域取得了一些重大进展。这些模型在大型文本语料库上进行了预训练,并在多个任务中表现出令人难以置信的性能,包括问答,内容生成,文本摘要等。 虽然LLMs已被证明能够处理纯文本,但在文本数据与图形的结构信息相连的应用中,处理图形推理任务变得越来越必要。研究人员一直在研究LLMs如何应用于基本图形推理任务,包括匹配子图,最短路径和连接推理。与LLMs的整合相关的图形应用包括纯图形,文本丰富的图形和文本配对的图形,具体的技术包括将LLMs用作任务预测器,图形神经网络(GNNs)的特征编码器或与GNNs对齐器,具体取决于它们的功能和与GNNs的交互。 LLMs在基于图形的应用中越来越受欢迎。但是,鲜有研究探讨LLMs和图形之间的相互作用。在最近的研究中,一组研究人员提出了一种系统地概述了大型语言模型与图形整合的情况和方法。目的是将可能的情况分为三个主要类别:文本丰富的图形,文本配对的图形和纯图形。团队分享了使用LLMs在图形上的具体方法,例如将LLMs用作对齐器,编码器或预测器。每种策略都有其优势和缺点,研究的目的是对比这些不同的方法。 该团队强调了这些技术的实际应用,展示了在与图形相关的活动中使用LLMs的好处。该团队分享了有关基准数据集和开源脚本的信息,以帮助应用和评估这些方法。结果强调了对这一快速发展领域进行更多调查和创造性的需求。 该团队总结了他们的主要贡献如下。 该团队通过系统分类使用语言模型在图形中的情况进行了贡献。这些情况被分为三类:文本丰富,文本配对和纯图形。这个分类法提供了一个理解这些不同环境的框架。 使用图形方法仔细分析了语言模型。评估总结了适用于各种图形环境的代表性模型,使其成为最全面的评估。 整理了与语言模型在图形上相关的大量材料,包括真实世界应用,开源代码库和基准数据集。 在语言模型在图形领域进一步研究方向上提出了六个可能的方向,深入探讨了基本理念。

Leave a Comment

这篇AI论文揭示了生成型AI模型的网络安全意义-风险、机遇和伦理挑战

生成型人工智能(GenAI)模型,如ChatGPT、Google Bard和Microsoft的GPT,已经革新了人工智能互动。它们通过创建多样化的文本、图像和音乐等内容来改变多个领域,影响着沟通和问题解决。ChatGPT被数百万人迅速接受,反映了GenAI融入日常数字生活,改变了人们对人工智能的认知和互动方式。它能够理解和生成类似人类对话的能力,使得更广泛的受众更容易接触和理解人工智能,显著改变了人们的感知。 GenAI模型的发展状况迅速演进,从GPT-1到最新的迭代版本如GPT-4,每一次迭代都展示了在语言理解、内容生成和多模态能力方面的重大进展。然而,这种进化也带来了一些挑战。这些模型日益复杂的特性带来了伦理问题、隐私风险和恶意实体可能利用的漏洞。 在这方面,最近有一篇论文对GenAI,尤其是ChatGPT的网络安全和隐私影响进行了全面的探讨。它揭示了ChatGPT中存在的可能践踏伦理边界和侵犯隐私的漏洞,这些漏洞可能被恶意用户利用。该论文指出了类似GenAI工具的潜在威胁,如越狱、反向心理和提示注入攻击,展示了这些工具可能带来的潜在威胁。它还探讨了网络罪犯如何滥用GenAI进行社会工程攻击、自动化攻击和恶意软件创建的问题。此外,它还讨论了利用GenAI的防御技术,强调了网络防御自动化、威胁情报、安全代码生成和伦理准则等来加强系统防御,抵御潜在攻击。 作者广泛探讨了操作ChatGPT的方法,讨论了像DAN、SWITCH和CHARACTER Play这样的破解技术,旨在覆盖限制并绕过伦理约束。他们强调了如果这些方法被恶意用户利用,可能导致有害内容的生成或安全漏洞。此外,他们详细介绍了一些令人担忧的情景,如果不受限制地使用ChatGPT-4的能力,可能会突破互联网的限制。他们深入探讨了提示注入攻击,展示了像ChatGPT这样的语言模型中的漏洞,并提供了使用ChatGPT生成攻击载荷、勒索软件/恶意软件代码和影响CPU的病毒的示例。这些探索突显了重大的网络安全问题,说明了类似ChatGPT这样的AI模型在社会工程、网络钓鱼攻击、自动化攻击和多态恶意软件生成方面的潜在滥用。 研究团队探索了ChatGPT在网络安全方面的几种应用: – 自动化:ChatGPT通过分析事件、生成报告和提供防御策略来协助SOC分析师。 – 报告:根据网络安全数据生成易于理解的报告,帮助识别威胁和评估风险。 – 威胁情报:处理大量数据以识别威胁、评估风险并推荐缓解策略。 – 安全编码:帮助在代码审查中检测安全漏洞并建议安全编码实践。 – 攻击识别:通过分析数据描述攻击模式,有助于理解和防止攻击。 – 伦理准则:生成AI系统伦理框架的摘要。 – 增强技术:与入侵检测系统集成,提高威胁检测能力。 – 事件响应:提供及时指导并创建事件响应手册。 – 恶意软件检测:通过分析代码模式来检测潜在恶意软件。…

Leave a Comment

Mistral AI发布MoE 8x7B版本的语言模型突破性进展

总部位于巴黎的初创公司Mistral AI推出了一款语言模型——MoE 8x7B。Mistral LLM经常被比作缩小版的GPT-4,它由8个拥有每个拥有70亿参数的专家组成。值得注意的是,在每个记号的推理中,只有其中的2个专家会被使用,展示了一种简化而高效的处理方式。 该模型采用混合专家(MoE)架构,以实现令人印象深刻的性能和效率。与传统模型相比,这使得性能更高、效率更优。研究人员强调,MoE 8x7B在文本生成、理解以及需要高级处理的编码和SEO优化等任务方面,表现比之前的模型(例如Llama2-70B和Qwen-72B)更好。 这在AI社区引起了很大轰动。著名的AI咨询师和以色列机器学习和深度学习社区的创始人表示,Mistral以此类发布闻名,并将其视为业界的特色。开源AI倡导者Jay Scambler指出了发布的不寻常之处。他表示,它成功地引起了极大关注,暗示这可能是Mistral故意采取的一种策略,以吸引AI社区的关注和好奇。 Mistral在AI领域的发展过程中也取得了里程碑式的成就,包括拿下创纪录的1.18亿美元种子轮融资,该轮融资被报道为欧洲历史上最大的融资规模。该公司在9月推出了其首个大型语言AI模型Mistral 7B,进一步获得了认可。 MoE 8x7B模型拥有8个专家,每个专家拥有70亿参数,相比之下,GPT-4每个专家拥有16个专家和1660亿参数。与估计的GPT-4的1.8万亿参数相比,该模型的估计总参数为420亿。此外,MoE 8x7B对语言问题有更深入的理解,从而改进了机器翻译、聊天机器人交互和信息检索。 MoE架构允许更高效的资源分配,从而实现更快的处理速度和更低的计算成本。Mistral AI的MoE 8x7B标志着语言模型发展的重大进步。其卓越的性能、效率和多样性为各个行业和应用领域带来了巨大的潜力。随着AI的不断发展,像MoE 8x7B这样的模型预计将成为寻求增强数字专长和内容策略的企业和开发者的重要工具。 总之,Mistral AI的MoE 8x7B发布引入了一种结合了技术复杂性和非传统营销策略的新颖语言模型。研究人员对这种尖端语言模型的效果和用途感到兴奋,AI社区将继续审查和评估Mistral的架构。MoE 8x7B的能力可能会为教育、医疗保健和科学发现等各个领域的研究和发展开辟新的道路。

Leave a Comment

简洁与准确相遇:使用AWS Trainium进行高性价比的GPT NeoX和Pythia模型训练

大型语言模型(或LLM)已成为日常对话的话题它们被迅速采用的证据是从“Facebook的4.5年”到“ChatGPT的短短2个月”的时间内就达到了1亿用户的数量生成式预训练变压器(GPT)使用因果自回归更新[…]

Leave a Comment

字节跳动研究人员推出“ImageDream”:一种创新的图像提示和多视图扩散模型,用于三维物体生成

正如谚语所说,“一张图片胜过千言万语”,将图像作为3D制作的第二种方式相对于仅使用文本的系统具有重大优势。图像主要提供了详细、丰富的视觉信息,而语言可能只能部分或无法完全描述。例如,一张图片可以清晰、立即地表达细微的特征,如纹理、颜色和空间连接,但是词语描述可能需要帮助才能完全表示相同的细节级别或使用非常长的解释。因为系统可以直接参考实际的视觉线索,而不是解释各种复杂性和主观性的书面描述,这种视觉特定性有助于产生更准确、更详细的3D模型。 此外,用户可以更简单、直接地通过使用视觉方式来解释其预期结果,特别适用于那些难以用文字表达他们的想象的人。这种多模式方法可以满足更广泛的创意和实际应用需求,将文本的情境深度与视觉数据的丰富性结合起来,提供更可靠、用户友好和高效的3D制作过程。然而,使用照片作为3D物体开发的替代方式也存在一些困难。与文本相比,图像具有更多的元素,如颜色、纹理和空间连接,这使得它们更难以使用单一编码器(例如CLIP)进行正确分析和理解。 此外,物体在光线、形状或自遮挡方面的显著变化可能导致视图合成更精确、一致,从而提供不完整或模糊的3D模型。由于图像处理的复杂性,需要采用先进的、计算密集的技术有效解码视觉信息并确保在多个视角下外观一致。研究人员使用各种扩散模型方法将2D项目图像转化为3D模型,如Zero123和其他最新的努力。图像独立系统的一个缺点是,虽然合成视图看起来很好,但重建的模型有时需要更高的几何正确性和复杂的纹理,特别是关于物体的后向视角。这个问题的主要原因是生成或合成的视角之间存在较大的几何差异。 因此,在重建过程中,非匹配像素被平均在最终的3D模型中,导致纹理模糊和几何圆滑。从本质上讲,图像条件的3D生成是一个在文本条件的生成相比下具有更严格限制的优化问题。由于只有有限数量的3D数据可用,使用精确特征优化3D模型变得更加困难,因为优化过程往往会偏离训练分布。例如,如果训练数据集包含各种风格的马,仅通过文本描述创建一匹马可能会产生详细的模型。然而,当图像指定特定的毛发特征、形状和纹理时,新视角纹理的生成可能很容易偏离训练分布。 为了解决这些问题,字节跳动的研究团队在本研究中提出了ImageDream。研究团队提出了一个多级图像提示控制器,可以轻松地与当前架构整合在一起,同时考虑到不同对象实例之间的规范相机协调。特别是,根据规范相机协调,生成的图像必须呈现物体的居中前视图,并使用默认的相机设置(恒等旋转和零平移)。这使得将输入图像的差异转化为三维更加简单。通过提供分层控制,多级控制器通过将扩散模型从图像输入引导到每个架构块,简化了信息传递过程。 图1:凭借一张照片,创新框架ImageDream可以从任意角度生成高质量的3D模型。与先前的SoTA(如Magic123)相比,它显著提升了3D几何质量。更重要的是,与MVDream相比,它保留了从创建的图像提示中获得的优秀文本图像对齐。下方显示了使用不同技术创建的物品的八个视图,并显示了使用ImageDream生成的模型绘制的匹配法线图。 与仅基于文本条件的模型MVDream相比,ImageDream在从给定图像中生成具有正确几何形状的对象方面表现卓越,如图1所示。这使用户能够利用成熟的图像生成模型来改进图像与文本的对齐。在几何形状和纹理质量方面,ImageDream优于当前最先进的零射单图像3D模型生成器Magic123。ImageDream超越了先前的最先进技术,通过实验部分的全面评估,包括定量评估和用户测试中的定性比较,这一点得到了证明。

Leave a Comment

“Hugging Face 上十大大型语言模型”

介绍 Hugging Face已经成为自然语言处理爱好者和开发人员的宝库,提供了各种预训练语言模型的多样集合,可以轻松集成到各种应用中。在大语言模型(LLM)的世界中,Hugging Face作为首选平台脱颖而出。本文探讨了Hugging Face上提供的前十个LLM模型,每个模型都对语言理解和生成的发展格局做出了贡献。 让我们开始吧! Mistral-7B-v0.1 Mistral-7B-v0.1是一个拥有70亿参数的大语言模型(LLM)。它被设计为预训练生成文本模型,并以在各个测试领域超越Llama 2 13B设置的基准而著称。该模型基于变形器架构,并采用了一些特定的注意机制选择,如分组查询注意力和滑动窗口注意力。Mistral-7B-v0.1还使用了字节回退的BPE标记器。 用途和应用 文本生成:Mistral-7B-v0.1非常适合需要高质量文本生成的应用,如内容创作、创意写作或自动化叙事。 自然语言理解:凭借其先进的变形器架构和注意机制,该模型可应用于涉及自然语言理解的任务,包括情感分析和文本分类。 语言翻译:鉴于其生成能力和大参数规模,该模型在语言翻译任务中可能表现出色,其中细致入微且上下文准确的翻译至关重要。 研究和开发:研究人员和开发人员可以将Mistral-7B-v0.1作为基础模型,用于各种自然语言处理项目的进一步实验和微调。 您可以在此处访问此LLM。 Starling-LM-11B-alpha 这个大型语言模型(LLM)有110亿参数,来自NurtureAI。它利用OpenChat 3.5模型作为基础,并通过AI反馈增强学习(RLAIF)进行微调,这是一种新颖的奖励训练和策略调整流程。该方法依赖于人工标记的排序数据集来指导训练过程。 用途和应用 Starling-LM-11B-alpha是一个有潜力改变我们与机器互动方式的大型语言模型。其开源特性、强大的性能和多样化的功能使其成为研究人员、开发人员和创意专业人员的宝贵工具。 自然语言处理(NLP)应用:为聊天机器人和虚拟助手生成逼真的对话、编写创意文本格式、翻译语言和总结文本。 机器学习研究:为新的NLP算法和技术的发展做出贡献。 教育和培训:提供个性化学习体验和生成互动内容。 创意产业:生成剧本、诗歌、歌词和其他创意内容。…

Leave a Comment

元AI宣布紫色羊驼,以协助社区通过开放和生成式AI模型进行道德建设

由于自动回归语言建模的数据增加、模型规模和计算能力的成功,会话式AI代理在过去几年中实现了显著的飞跃。聊天机器人通常使用大型语言模型(LLMs),以其众多有用的技能而闻名,包括自然语言处理、推理和工具熟练度。 这些新应用需要经过全面的测试和谨慎的发布,以减少潜在的危险。因此,建议由生成性AI驱动的产品实施防止生成违反政策的高风险内容的保障措施,以及防止对模型进行敌对输入和越狱的尝试。其中包括资源,如Llama 2负责任使用指南。 在寻找控制在线内容的工具时,Perspective API1、OpenAI内容审查API2和Azure内容安全API3都是很好的起点。然而,当将它们用作输入/输出保障措施时,这些在线审查技术在几个方面存在问题。首先,目前无法区分用户和AI代理在他们所带来的危险方面的区别;毕竟,用户要求信息和帮助,而AI代理更有可能提供。此外,用户无法根据新政策更改工具,因为它们都有固定的政策需要执行。第三,无法将它们调整为特定的使用案例,因为每个工具仅提供API访问。最后,所有现有工具都是基于普通的传统Transformer模型。与更强大的LLMs相比,这严重限制了它们的潜力。 新的Meta研究揭示了一种用于输入输出保护的工具,它将会话式AI代理的提示和响应中的潜在危险进行分类。这填补了该领域中将LLMs用作审查基础的一个需求。 他们使用基于分类学的数据来对Llama Guard进行微调,这是一个基于逻辑回归的输入输出保护模型。Llama Guard将相关分类学作为输入来分类羊驼,并应用指令职责。用户可以使用零样本或少样本提示来个性化模型输入,以适应不同的使用案例相应的分类法。在推断时,可以选择几个微调的分类法,并相应地应用Llama Guard。 他们提出了区分LLM输出(AI模型的响应)和人类请求(对LLM的输入)的独特指南。因此,Llama Guard可以捕捉到用户和代理责任之间的语义差异。利用LLM模型遵循指令的能力,他们只需要一个模型就可以完成这个任务。 他们还推出了Purple Llama。将来,它将成为一个综合资源和评估项目,以帮助社区在以开放、生成的AI模型进行伦理建设方面取得成功。网络安全和输入/输出保护工具和评估将是首次发布的一部分,更多的工具将会陆续推出。 他们为业界提供了首个全面的LLM网络安全评估指南。这些指南是与他们的安全专家一起开发的,并基于行业建议和标准(如CWE和MITRE ATT&CK)。在这个首次发布中,他们希望提供资源,以帮助减轻在白宫创建负责任的人工智能的承诺中提到的一些危险,例如: 量化LLM网络安全威胁的度量标准。 评估不安全代码提案的工具。 评估使LLM编写恶意代码或进行网络攻击更加困难的工具。 他们预计这些工具将通过减少提出不安全的AI生成代码的频率来减少LLM对网络攻击者的效用。他们的研究发现,当LLM建议不安全代码或配合恶意请求时,将会带来严重的网络安全问题。 在应用特定内容限制方面,所有LLM的输入和输出都应根据Llama 2负责任使用指南进行审查和过滤。 该模型使用公开可用数据集的组合进行训练,以检测可能有害或侵权信息的常见类别,这些信息可能与各种开发者使用案例相关。通过公开可用其模型权重,他们消除了实践者和研究人员依赖带宽有限的昂贵API的需求。这为进一步的实验和根据个人需求调整Llama Guard的能力打开了大门。

Leave a Comment

谷歌DeepMind的研究人员提出了代码链(CoC):一种简单但意外有效的扩展,改进了语言模型(LM)的代码驱动推理能力

来自Google DeepMind、斯坦福大学和加州大学伯克利分校的研究人员开发了一个名为Code Chain的代码链,旨在解决提高语言模型的代码驱动推理能力的问题。Code Chain鼓励将语义子任务以灵活的伪代码格式化为程序,解释器可以明确捕捉到未定义行为,并交给模拟器(作为“LMulator”)来模拟。Code Chain在使用大型和小型模型时都具有良好的扩展性,并通过以编码思维回答问题来扩大语言模型能够正确回答的推理问题的范围。 类似于Chain of Thought、least-to-most和ScratchPad等工作利用提示来改善推理,通过将任务分解为中间步骤或跟踪中间结果来进行。在Github上训练的语言模型被提示编写和执行代码,这有助于解决涉及数字或符号推理的复杂问题。 为了解决给定的问题,Code Chain在代码结构中生成推理子步骤。这段代码提供了推理的框架,可以是明确的代码、伪代码或自然语言形式。Code Chain通过将代码的优点与语言模型的强大语义和常识知识相结合,使代码在全新的领域中得以使用,可以轻松表达在代码中难以表达的规则(例如,哪些食物是水果?)。 Code Chain的核心贡献不仅仅是生成推理代码,而是如何执行它。代码编写完毕后,尝试通过代码解释器执行代码-在这项研究中,研究人员考虑了Python,但这种方法对任何解释器都是通用的。如果代码成功执行,则更新程序状态并继续执行。如果代码无法执行或引发任何异常,则使用语言模型来模拟执行。语言模型的输出更新程序状态,并继续执行。 Code Chain方法的整体性能优于其他方法,在超过的任务数量和整体超过基准线的数量上超过人类基准线。Code Chain在几项研究中取得了最新成果。与Chain of Thought提示相似,随着模型大小的增加,性能有所提高。跨任务提示导致所有方法的性能下降,但Code Chain在大规模上仍然优于Chain of Thought和直接提示,接近人类的平均性能。 Code Chain是通过编写代码和使用解释器执行代码或使用模拟执行的语言模型,以在语言模型中进行推理的方法。Code Chain可以利用规则的表达结构和强大的工具。此外,通过模拟非可执行代码的执行,Code Chain可以应用于正常情况下不涉及代码的问题(例如,语义推理问题)。

Leave a Comment

薛定谔桥是如何击败扩散模型在文本转语音(TTS)合成中的?

随着人工智能的不断发展,自然语言处理、自然语言生成和计算机视觉这些领域最近取得了巨大的流行,这都要归功于大型语言模型的引入。扩散模型在生成文本到语音合成(TTS)方面已经证明非常成功,显示出了很高的生成质量。然而,它们的先验分布受限于引入噪声并对所需生成目标提供很少信息的表示形式。 最近的研究中,清华大学和微软亚洲研究院的研究人员团队介绍了一种名为Bridge-TTS的新的文本到语音系统。这是首次尝试在已建立的扩散式TTS方法中利用干净可预测的替代方法替代噪声高斯先验。该替代先验提供了有关目标的强结构信息,并从文本输入提取的潜在表示中获取。 该团队表示,主要贡献在于开发出了一个完全可管理的薛定谔桥,它连接了真实的梅尔谱图和干净的先验。建议的Bridge-TTS使用的是一种数据到数据的过程,这比起扩散模型的数据到噪声过程改善了先前分布的信息内容。 该团队已经对这种方法进行了评估,并在LJ-Speech数据集上进行了实验验证,评估结果突出显示了建议方法的有效性。在50步骤/1000步骤合成设置中,Bridge-TTS表现出比扩散对应方法Grad-TTS更好的性能。它甚至在少量步骤的情况下比强大且快速的TTS模型表现更好。Bridge-TTS方法的主要优势在于合成质量和采样效率。 该团队总结了主要贡献如下。 从无污染的文本潜在表示中产生了梅尔谱图。与传统的数据到噪声过程不同,这个作为扩散模型上下文中的条件信息的表示形式被设计成无噪声。薛定谔桥被用来研究数据到数据的过程。 针对配对数据,提出了一个完全可计算的薛定谔桥。这个桥使用柔性形式的参考随机微分方程(SDE)。这种方法允许对设计空间进行实证调查,并提供了一个理论解释。 研究了采样技术、模型参数化和噪声调度如何对改善TTS质量发挥作用。还实现了不对称噪声调度、数据预测和一阶桥采样器。 完全可计算的薛定谔桥使得对底层过程的完整理论解释成为可能。通过实证研究,我们可以了解到不同因素如何影响TTS的质量,包括不对称噪声调度、模型参数化决策和采样过程的效率。 该方法在推理速度和生成质量方面取得了很好的结果。在1000步和50步的生成情况下,它明显优于基于扩散的Grad-TTS。它在4步生成中也优于FastGrad-TTS,优于基于transformer的模型FastSpeech 2和最先进的蒸馏方法CoMoSpeech在2步生成中。 该方法仅经过一次训练就取得了出色的结果。这种效率在创作过程的多个阶段都可见,展示了建议方法的可靠性和效力。

Leave a Comment

‘结识DeepCache:一种简单而有效的运行时压缩扩散模型的加速算法’

人工智能(AI)和深度学习的进步,彻底改变了人类与计算机互动的方式。通过引入扩散模型,生成建模在文本生成、图片生成、音频合成和视频制作等各个领域都展示出了卓越的能力。 尽管扩散模型表现出卓越的性能,但这些模型通常计算成本较高,主要与庞大的模型大小和顺序去噪过程有关。这些模型的推理速度非常慢,为解决这一问题,研究人员进行了一系列努力,包括减少样本步骤的数量,使用模型修剪、蒸馏和量化等技术降低每个步骤的模型推理开销。 传统的扩散模型压缩方法通常需要大量的重新训练,这带来了实践和资金上的困难。为了克服这些问题,研究人员团队推出了DeepCache,一种新颖的无训练范式,旨在优化扩散模型的体系结构以加速扩散过程。 DeepCache利用了扩散模型连续去噪阶段固有的时间冗余性。这种冗余性的原因在于某些特征在连续的去噪步骤中会重复出现。它通过引入针对这些特性的缓存和检索方法,大大减少了重复计算。团队表示,这种方法基于U-Net属性,可以在有效更新低级特征的同时重复使用高级特征。 DeepCache的创意方法有效提高了Stable Diffusion v1.5的速度2.3倍,仅降低0.05的CLIP评分。同时,在LDM-4-G上展示出了印象深刻的4.1倍速度提升,虽然在ImageNet上的FID损失为0.22。 研究人员对DeepCache进行了评估,实验比较结果显示,DeepCache的性能优于当前的修剪和蒸馏技术,而这些技术通常需要重新训练。它甚至展示了与现有采样方法相兼容的特点。在相同吞吐量下,它与DDIM或PLMS的性能相似或略优,最大限度地提高了效率而不损失产生的输出质量。 研究人员总结了DeepCache的主要贡献如下: DeepCache与当前快速采样器配合良好,展示了实现类似甚至更好生成能力的可能性。 它通过在运行时动态压缩扩散模型,提高了图像生成速度,无需额外训练。 利用可缓存特征,DeepCache通过使用高级特征的时间一致性,减少了重复计算。 DeepCache通过引入定制的扩展缓存间隔技术,提高了特征缓存的灵活性。 在CIFAR、LSUN-Bedroom/Churches、ImageNet、COCO2017和PartiPrompt上的实验表明,DeepCache在DDPM、LDM和Stable Diffusion模型上的效果更好。 与需要重新训练的修剪和蒸馏算法相比,DeepCache的性能更好,保持了更高的效能。 总之,DeepCache作为一种扩散模型加速器,显示出巨大的潜力,为传统的压缩技术提供了有用且经济实惠的替代方案。

Leave a Comment

这篇来自谷歌和加利福尼亚大学伯克利分校的人工智能论文介绍了NeRFiller:一种通过2D修补扩散模型彻底改革3D场景重建的人工智能方法

如何有效地完成3D捕获的缺失部分?这篇来自Google Research和UC Berkeley的研究论文介绍了“NeRFiller”,一种新颖的3D修补方法,解决了由于重建失败或缺乏观察而经常缺失的不完整的3D场景或物体的重建问题。该方法通过参考示例控制修补过程,从而实现精确和可定制的场景修补。NeRFiller是一种3D生成修补方法,可以增强3D捕获中的场景或物体,是改善3D重建的有效解决方案。 该研究探讨了从传统的2D修补到像LaMa这样的大规模修补技术的不同方法,涉及概率和潜在扩散模型,考虑到涉及文本或图像的3D生成方法。强调了对象去除设置的相关性,并对3D修补的各种基准和数据集进行了评估。虽然涉及视频和场景编辑的相关作品,但重点主要是现有3D场景的场景完成。 该研究解决了3D场景补全和修补的挑战,强调了3D感知和多视角一致性方法的重要性。区分了场景补全和对象去除,重点是在3D场景中生成新的内容。讨论了2D生成修补模型在3D一致图像方面的限制。所提出的NeRFiller方法利用了从文本到图像扩散模型中的网格先验现象,以增强修补中的多视角一致性。还讨论了生成3D场景和对象去除方法的相关作品。 NeRFiller是一种利用生成的2D扩散模型作为修补的方法,用于完成3D场景中的缺失区域。它解决了各种修补估计和2D模型中缺乏3D一致性的挑战。NeRFiller引入了用于显著修补结果的整合机制,并鼓励3D特性。它利用迭代的3D场景优化,将网格修补扩展到大型图像集合。对比了Masked NeRF和LaMask等基准,证明了NeRFiller的有效性。评估包括比较、新视图度量、图像质量和几何度量。 NeRFiller在3D场景完成方面表现出色,填补了缺失区域并去除了不需要的遮挡物,在3D一致性和合理性方面表现出色。与对象去除基准相比,NeRFiller在完成缺失区域方面表现优异。评估指标包括NeRF、新视图、MUSIQ图像质量和几何度量,展示了它在生成连贯和逼真的3D场景方面的有效性。 总之,NeRFiller是一款强大的3D修补工具,可以准确完成3D场景中的缺失部分。它填充间隙并去除非理想元素的能力优于对象去除基准。引入联合多视角修补进一步增强其一致性,通过在多个图像上平均噪声预测。通过与最先进的基准进行比较,NeRFiller表现出了完成用户指定的3D场景的有效性。它为根据用户定义的规范修补3D捕获中的缺失区域提供了有价值的框架。

Leave a Comment

Can't find what you're looking for? Try refining your search: