56 search results for "Llama2"

为什么OpenHermes-2.5比GPT-4和LLama2 13B更好- 这是结果

Published December 10, 2023 by 四海吧

那么，在本文中，我们将深入探讨llama2 13 Billion、GPT-4和OpenHermes 2.5等主要参与者的最新AI发展在这个一步一步的指南中，我们将介绍什么……

Leave a Comment

检索增强生成的力量：基于Base和RAG LLMs与Llama2的比较

Published November 29, 2023 by 四海吧

“深入研究如何使用RAG方法为定制用例调整预训练的LLMs，包括LangChain和Hugging Face集成”

Leave a Comment

语言模型能够改变放射学吗？认识一下放射学Llama2：一个通过指令调整过程专门为放射学定制的大型语言模型

Published September 22, 2023 by 四海吧

基于Transformer构建的大型语言模型（LLM），包括ChatGPT和GPT-4，展示了惊人的自然语言处理能力。Transformer-based NLP模型的创建引发了在计算机视觉和其他模态中设计和使用基于Transformer的模型的进展。自2022年11月以来，受到ChatGPT多样化特性和广泛赞誉的启发，LLM已经在临床研究、药学、放射学、阿尔茨海默病、农业和脑科学研究中得到应用，然而，它们在专业领域如医疗保健中的应用尚未广泛采用。首先，由于隐私法律的限制，医院无法将数据交换或上传到商业模型如ChatGPT或GPT-4，因此，本地化的大型语言模型对于现实世界的医疗保健至关重要。需要在临床上有意义的领域数据上得到充分训练的模型，因为在特定领域如放射学这样的领域中，经过ChatGPT、GPT-4和PaLM 2等广域领域训练的LLM需要更多的医学专业知识。此外，虽然像ChatGPT这样的模型的Radiology-Llama2能够准确模仿放射学家的语言模式，但它们提供的回复更像维基百科，而不是实际放射学家使用的清晰简明的语言，这加快了信息传递的速度。最后，他们的研究为根据每位医生的偏好定制放射学助手铺平了道路。通过指令调整来为放射学提供放射学印象的Radiology-Llama2 LLM填补了文献中的这一空白。研究表明，它在生成的印象的连贯性、简洁性和临床实用性方面优于标准LLM。 • 最先进的性能：在MIMIC-CXR和OpenI数据集上，超过所有其他语言模型以生成临床印象，创立了新的标准。 • 灵活性和动态性：与基于BERT的竞争对手不同，放射学-Llama2不受特定输入结构的限制，可以适应更广泛的输入和各种放射学任务，包括复杂的推理。 • 具有对话能力的临床可用性：生成式LLM具有内置的对话能力，可以回应查询并提供类似人类的上下文信息。这提高了诊断和报告的能力，使Radiology-Llama2对医学从业者在临床背景下非常有帮助。图1显示了Radiology-Llama2的整体结构当适当构建时，本地化的LLM可以革命性地改变放射学，就像Radiology-Llama2所展示的那样。如果受到适当的监管，它对于临床决策辅助和其他用途具有很大的潜力。这项研究的结果为其他医学专业领域中的专门LLM打开了大门。总之，Radiology-Llama2是在医学中使用LLM的重要进展。这样的专门LLM可以通过对模型构建和评估的持续研究促进医疗人工智能的进步。

Leave a Comment

利用qLoRA对任务微调模型进行微调，避免灾难性遗忘：以LLaMA2(-chat)为例的案例研究

Published September 14, 2023 by 四海吧

大型语言模型（LLMs）例如Anthropic的Claude或Meta的LLaMA2在各种自然语言任务上展示了令人印象深刻的能力然而，它们的知识和任务特定的…

Leave a Comment

遇见Nous-Hermes-Llama2-70b：一种在超过300,000条指令上进行优化的最先进语言模型

Published September 7, 2023 by 四海吧

Hugging Face Transformer是Python中非常受欢迎的库，为各种自然语言处理任务提供了非常有用的预训练模型。它以前只支持PyTorch，但现在也支持Tensorflow。Nous-Hermes-Llama2-70b是NLP语言模型，使用了数十万条指令。该模型使用与旧的Hermes模型相同的数据集，以确保在训练模型时没有严重的广泛变化，并且过程变得更加顺利。该模型仍然存在一些缺陷，如较低的幻觉率和缺乏OpenAI审查。模型训练是在大型数据集上完成的，这些数据集在处理的数据量和样式方面非常高。数据来自不同的来源，并合并为一个数据集，从而在处理的数据集中获得了多样的知识。数据集收集了来自Teknium、Karan4D、Emozilla、Huemin Art和Pygmalion AI等不同来源的数据。模型使用了Alpaca模型进行训练。研究团队对来自自我指导评估数据集的输入进行了人工评估，以评估Alpaca。研究人员收集了这个评估集，并包含了几乎涵盖了所有内容的多样化用户指令的列表。研究人员还表示，Prompt工程师也将受益于这个已执行的模型。研究人员相信，发布上述资产将使学术界能够对指令跟踪语言模型进行控制科学研究，并最终导致解决该模型中存在的现有缺陷的新技术的出现。部署Alpaca的交互式演示还存在潜在风险，例如更广泛地传播有害内容并降低垃圾邮件的机会。NLP中的垃圾邮件检测技术在这个模型中也起着重要的作用。研究人员了解到，一旦发布模型权重或用户训练其指令跟踪模型，这些缓解措施就可以得到实现。该项目的未来计划还包括迭代高质量数据并应用技术来去除低质量数据。研究人员还需要对Alpaca进行更严格的评估。他们还将从HELM模型开始，希望能够捕捉更多生成信息。研究人员还希望研究Alpaca的风险，并努力进一步提高其安全性。

Leave a Comment

如何在消费者硬件上为Python编码调整Llama2

Published August 24, 2023 by 四海吧

通过监督微调和低秩适应技术提高Llama2在Python中的熟练程度

Leave a Comment

稳定传播：掌握室内设计的艺术

Published December 18, 2023 by 四海吧

在我们所生活的这个快节奏的世界中，尤其是在疫情过后，许多人意识到拥有一个宜人的家庭环境来逃避现实是无价之宝，同时也是我们要追求的目标无论…

Leave a Comment

高级RAG技术：图解概览 (Gāojí RAG jìshù tújiě gàilǎn)

Published December 17, 2023 by 四海吧

由于这篇文章的目标是对可用的RAG算法和技术进行概述和解释，我不会深入讨论代码的实现细节，只会简要提及并留给读者自行探索

Leave a Comment

每个开发者都应该了解的六个生成 AI 框架和工具

Published December 14, 2023 by 四海吧

本文探讨了顶级的生成性人工智能框架和工具发现释放想象力和探索生成性人工智能潜力所需的资源

Leave a Comment

使用 QLoRA 对 Llama 2 进行微调，并在 Amazon SageMaker 上部署，配备 AWS Inferentia2

Published December 13, 2023 by 四海吧

在这篇文章中，我们展示了使用参数高效微调 (PEFT) 方法对 Llama 2 模型进行微调，并将微调后的模型部署在 AWS Inferentia2 上我们使用 AWS Neuron 软件开发工具包 (SDK) 来访问 AWS Inferentia2 设备，并从其高性能中受益然后，我们使用一个由 […] 提供支持的大型模型推断容器

Leave a Comment

以10行代码使任何LLM适用于任何GPU

Published December 13, 2023 by 四海吧

谁有钱花在超过24GB的GPU上？特别是当我们只是想测试一下，试试操控它，还有本地运行游玩！我们是…

Leave a Comment

Mistral AI发布MoE 8x7B版本的语言模型突破性进展

Published December 12, 2023 by 四海吧

总部位于巴黎的初创公司Mistral AI推出了一款语言模型——MoE 8x7B。Mistral LLM经常被比作缩小版的GPT-4，它由8个拥有每个拥有70亿参数的专家组成。值得注意的是，在每个记号的推理中，只有其中的2个专家会被使用，展示了一种简化而高效的处理方式。该模型采用混合专家（MoE）架构，以实现令人印象深刻的性能和效率。与传统模型相比，这使得性能更高、效率更优。研究人员强调，MoE 8x7B在文本生成、理解以及需要高级处理的编码和SEO优化等任务方面，表现比之前的模型（例如Llama2-70B和Qwen-72B）更好。这在AI社区引起了很大轰动。著名的AI咨询师和以色列机器学习和深度学习社区的创始人表示，Mistral以此类发布闻名，并将其视为业界的特色。开源AI倡导者Jay Scambler指出了发布的不寻常之处。他表示，它成功地引起了极大关注，暗示这可能是Mistral故意采取的一种策略，以吸引AI社区的关注和好奇。 Mistral在AI领域的发展过程中也取得了里程碑式的成就，包括拿下创纪录的1.18亿美元种子轮融资，该轮融资被报道为欧洲历史上最大的融资规模。该公司在9月推出了其首个大型语言AI模型Mistral 7B，进一步获得了认可。 MoE 8x7B模型拥有8个专家，每个专家拥有70亿参数，相比之下，GPT-4每个专家拥有16个专家和1660亿参数。与估计的GPT-4的1.8万亿参数相比，该模型的估计总参数为420亿。此外，MoE 8x7B对语言问题有更深入的理解，从而改进了机器翻译、聊天机器人交互和信息检索。 MoE架构允许更高效的资源分配，从而实现更快的处理速度和更低的计算成本。Mistral AI的MoE 8x7B标志着语言模型发展的重大进步。其卓越的性能、效率和多样性为各个行业和应用领域带来了巨大的潜力。随着AI的不断发展，像MoE 8x7B这样的模型预计将成为寻求增强数字专长和内容策略的企业和开发者的重要工具。总之，Mistral AI的MoE 8x7B发布引入了一种结合了技术复杂性和非传统营销策略的新颖语言模型。研究人员对这种尖端语言模型的效果和用途感到兴奋，AI社区将继续审查和评估Mistral的架构。MoE 8x7B的能力可能会为教育、医疗保健和科学发现等各个领域的研究和发展开辟新的道路。

Leave a Comment

简洁与准确相遇：使用AWS Trainium进行高性价比的GPT NeoX和Pythia模型训练

Published December 12, 2023 by 四海吧

大型语言模型（或LLM）已成为日常对话的话题它们被迅速采用的证据是从“Facebook的4.5年”到“ChatGPT的短短2个月”的时间内就达到了1亿用户的数量生成式预训练变压器（GPT）使用因果自回归更新[…]

Leave a Comment

“Hugging Face 上十大大型语言模型”

Published December 12, 2023 by 四海吧

介绍 Hugging Face已经成为自然语言处理爱好者和开发人员的宝库，提供了各种预训练语言模型的多样集合，可以轻松集成到各种应用中。在大语言模型（LLM）的世界中，Hugging Face作为首选平台脱颖而出。本文探讨了Hugging Face上提供的前十个LLM模型，每个模型都对语言理解和生成的发展格局做出了贡献。让我们开始吧！ Mistral-7B-v0.1 Mistral-7B-v0.1是一个拥有70亿参数的大语言模型（LLM）。它被设计为预训练生成文本模型，并以在各个测试领域超越Llama 2 13B设置的基准而著称。该模型基于变形器架构，并采用了一些特定的注意机制选择，如分组查询注意力和滑动窗口注意力。Mistral-7B-v0.1还使用了字节回退的BPE标记器。用途和应用文本生成：Mistral-7B-v0.1非常适合需要高质量文本生成的应用，如内容创作、创意写作或自动化叙事。自然语言理解：凭借其先进的变形器架构和注意机制，该模型可应用于涉及自然语言理解的任务，包括情感分析和文本分类。语言翻译：鉴于其生成能力和大参数规模，该模型在语言翻译任务中可能表现出色，其中细致入微且上下文准确的翻译至关重要。研究和开发：研究人员和开发人员可以将Mistral-7B-v0.1作为基础模型，用于各种自然语言处理项目的进一步实验和微调。您可以在此处访问此LLM。 Starling-LM-11B-alpha 这个大型语言模型（LLM）有110亿参数，来自NurtureAI。它利用OpenChat 3.5模型作为基础，并通过AI反馈增强学习（RLAIF）进行微调，这是一种新颖的奖励训练和策略调整流程。该方法依赖于人工标记的排序数据集来指导训练过程。用途和应用 Starling-LM-11B-alpha是一个有潜力改变我们与机器互动方式的大型语言模型。其开源特性、强大的性能和多样化的功能使其成为研究人员、开发人员和创意专业人员的宝贵工具。自然语言处理（NLP）应用：为聊天机器人和虚拟助手生成逼真的对话、编写创意文本格式、翻译语言和总结文本。机器学习研究：为新的NLP算法和技术的发展做出贡献。教育和培训：提供个性化学习体验和生成互动内容。创意产业：生成剧本、诗歌、歌词和其他创意内容。…

Leave a Comment

EU对AI监管的初步协议：对ChatGPT的影响

Published December 12, 2023 by 四海吧

欧洲联盟最近达成了一项初步协议，概述了对先进人工智能模型进行监管的法规，特别强调了广为认可的ChatGPT。这标志着建立全球首个全面人工智能监管的重要进展。人工智能系统的透明度为了增强透明度，通用人工智能系统的开发者，包括令人敬畏的ChatGPT，必须遵守基本要求。这些要求包括实施可接受使用政策，及时更新模型训练方法的信息，并提供详细的培训数据摘要。此外，还必须承诺尊重版权法。对具有“系统风险”的模型的其他规定被确定为具有“系统风险”的模型面临更严格的监管。这种风险的确定取决于在模型训练过程中使用的计算能力。值得注意的是，任何超过每秒10万亿次操作的模型，其中包括OpenAI的GPT-4，都属于此类别。欧盟的执行机构有权根据多种标准（如数据集大小、注册商业用户和最终用户）指定其他模型。还有：惊人的消息：ChatGPT易受数据泄露攻击对高度可行模型的行为准则高度可行模型，包括ChatGPT，在欧洲委员会制定更全面和持久的控制措施之前，需要采取行为准则。如果不合规，就需要证明遵守人工智能法。需要注意的是，虽然开源模型可以豁免某些控制，但如果被认定存在系统风险，它们也不会免责。对模型的严格义务纳入监管框架的模型必须报告其能源消耗，进行红队或对抗性测试，评估和减轻潜在的系统风险，并报告任何事件。此外，它们还必须确保实施强大的网络安全控制、披露用于微调模型的信息，并在开发时遵守更节能的标准。批准过程和关注点欧洲议会和欧盟的27个成员国尚未批准这项初步协议。与此同时，法国和德国等国家提出了关切。这些担忧围绕着对欧洲人工智能竞争对手的压制风险，例如Mistral AI和Aleph Alpha等公司。法国和德国特别担心过多的监管会阻碍全球人工智能领域的创新和竞争力。还有：欧洲人工智能巨头MISTRAL AI筹集了3.85亿欧元我们的观点在应对人工智能监管的复杂领域中，欧盟的做法寻求在促进创新和防范潜在风险之间取得微妙的平衡。随着提议等待批准，一些成员国提出了担忧。这凸显了在AI领域的监管程度上达成共识的挑战。在制定人工智能治理未来时，平衡AI开发者的愿望与社会安全的需要仍然是一项关键任务。

Leave a Comment

革命化医疗保健：探索大型语言模型在医学领域的影响和未来

Published December 10, 2023 by 四海吧

探索Google的Med-PaLM 2和EPFL的Meditron等大型语言模型在医疗保健领域的转型影响，研究其应用、挑战和在提高患者护理和临床效率方面的潜力

Leave a Comment

《如何调优大型语言模型：一步一步指南》

Published December 7, 2023 by 四海吧

在2023年，如Alpaca、Falcon、Llama 2和GPT-4这样的大型语言模型（LLMs）的崛起显示出一种向人工智能民主化的趋势

Leave a Comment

阿里巴巴AI开源了包括Qwen-1.8B、Qwen-7B、Qwen-14B和Qwen-72B在内的Qwen系列，还有Qwen-Chat系列

Published December 6, 2023 by 四海吧

阿里巴巴云计算最新的开源AI模型系列Qwen，将人工智能技术的边界推向了新的高度。阿里巴巴通过发布Qwen-1.8B和Qwen-72B以及专门的聊天和音频模型，进一步扩展了其AI解决方案。阿里巴巴通过这些模型展示了其对开发AI能力的承诺，这些模型在语言和音频处理方面提供了改进的性能和多功能性。 Qwen系列已经得到显著增强，通过发布Qwen-1.8B及其更大的版本Qwen-72B。Qwen系列已包括Qwen-7B和Qwen-14B。Qwen-1.8B基于1.8亿个参数的Transformer模型，预训练语料库超过2.2万亿个令牌。该模型在中文和英文的各种语言任务中胜过许多相同规模甚至更大的模型。该模型还支持8192个令牌的长上下文。值得注意的是，Qwen-1.8B及其量化变体int4和int8提供了一种经济实惠的部署解决方案。这些特性使其成为各种应用的明智选择，通过大幅降低内存需求。超过150K个标记的广泛词汇进一步提高了其语言能力。更大规模的模型Qwen-72B训练了3万亿个令牌。该模型在大多数任务中优于GPT-3.5，并在所有测试任务中优于LLaMA2-70B。尽管参数较大，阿里巴巴已经设计了这些模型以实现低成本部署；量化版本仅需大约3GB的最小内存使用。这一突破显著降低了使用以前在云计算上成本高达数百万美元的大规模模型所面临的障碍。除了Qwen基础模型，阿里巴巴还推出了针对AI支持和对话能力进行优化的Qwen-Chat版本。Qwen-Chat除了生成材料和促进自然对话外，还能执行代码解释和摘要任务。阿里巴巴的Qwen-Audio在多模态AI中能够处理各种音频输入，并生成文本输出，这代表了一项值得注意的进步。值得注意的是，Qwen-Audio在语音识别和各种音频理解标准上取得了最先进的性能，而无需进行精细调整。在音频领域，Qwen-Audio作为基础音频语言模型树立了新的基准。它使用多任务学习框架处理多种音频格式。在多个基准测试中取得了令人瞩目的结果，包括在AISHELL-1和VocalSound等任务上的最先进得分。 Qwen-Audio的适应性包括从文本和音频输入操作多个聊天会话的能力，功能从语音编辑工具到音乐欣赏和声音解释等方面。

Leave a Comment

使用亚马逊SageMaker数据并行库实现更快的训练

Published December 5, 2023 by 四海吧

在过去一年中，大型语言模型（LLM）的训练变得越来越流行，因为发布了一些公开可用的模型，如Llama2，Falcon和StarCoder现在，顾客们正在训练规模空前的LLM，参数数量从10亿到超过1750亿不等训练这些LLM需要大量的计算资源和时间，通常需要数百台机器并运行数周甚至数月

Leave a Comment

每个人都可以使用LLM：在Google Colab中运行LangChain和MistralAI 7B模型

Published December 5, 2023 by 四海吧

大家都知道，根据定义，大型语言模型就是大型的而且，就在不久前，它们只能供高端硬件所有者使用，或者至少是为了使用云端服务而付费的人们才能使用…

Leave a Comment

北京大学和微软的研究人员推出COLE：一种有效的分层生成框架，可将简单的意图提示转化为高质量的图形设计

Published December 4, 2023 by 四海吧

自然图片的制作质量现在与专业摄影相当，这要归功于最近在质量上有显著改进的成果。这一进步归因于DALL·E3、SDXL和Imagen等创建技术。推动这些发展的关键要素包括使用强大的大规模语言模型（LLM）作为文本编码器，扩大训练数据集，增加模型复杂度，改进采样策略设计以及提高数据质量。研究团队认为，现在是时候专注于开发更专业的图片，特别是在品牌设计、市场营销和广告中具有关键作用的图形设计。作为一个专业领域，图形设计利用视觉传达的力量向特定社会群体清晰传递信息。这是一个需要想象力、独创性和快速思维的领域。在图形设计中，通常使用数字或手动方法将文字和视觉元素结合起来，创造出视觉上引人注目的故事。其主要目标是组织数据，为概念提供意义，并为记录人类体验的对象提供表达和情感。在图形设计中，对字体、文字排列、装饰和图像的创造性运用常常可以通过独立的想法、感受和态度来实现，这是单纯使用文字无法表达的。制作出顶级设计需要高度的想象力、独创性和侧面思考。根据现有研究，具有突破性的DALL·E3在生成高质量设计图片方面具有显著的技能，如图1所示，其设计图片具有引人注目的布局和图形。然而，这些图片也存在着缺陷。它们持续面临的问题包括渲染视觉文本出现错误，经常会漏掉或添加额外的字符（这也是的情况）。此外，由于这些生成的图片基本上无法编辑，修改它们需要复杂的过程，例如分割、擦除和修复填充。用户需要提供全面的文本提示，这是另一个重要的限制。为视觉设计生产创建良好的提示通常需要高水准的专业技能。图1 使用设计意图说明了DALL·E3（增强版GPT-4）生成的设计图片。如图2所示，与DALL·E3不同，他们的COLE系统只需基本的用户需求就能生成优质的图形设计图片。根据研究团队的说法，这三个限制严重影响了图形设计图片的质量。高质量、可扩展的视觉设计生成系统理想情况下应该提供一个灵活的编辑区域，为各种用途生成准确、高质量的排版信息，并要求用户付出较低的努力。用户可以根据需要使用人工的技能进一步提升结果。这一努力旨在建立一个稳定有效的自主文本到设计系统，能够根据用户意图提示生成优秀的图形设计图片。图2：上图是COLE系统生成的图片的视觉呈现。有趣的是，我们的系统只接收一个文字意图描述作为输入。其余的元素包括文本、设计图形和相关的排版属性（如字体类型、大小和位置）都由智能系统独立生成。微软亚洲研究院和北京大学的研究团队提出了一种名为COLE的分层生成方法，以简化创建图形设计图像的复杂过程。该过程涉及几个专门的生成模型，每个模型旨在处理不同的子任务。首先，重点是创造性设计和解释，主要是理解意图。通过使用尖端的LLM（语言-物理模型），即Llama2-13B，并利用近10万个策划意图的JSON配对数据集进行优化来实现这一目标。设计相关的重要信息，包括文本说明、物品标题和背景标题，都包含在JSON文件中。研究团队还提供了用于其他目的的可选参数，如对象位置。其次，他们着重于视觉的布局和改善，其中包括两个子任务：视觉构件和排版特征的生成。创建各种视觉特征需要对专门的级联扩散模型进行微调，例如DeepFloyd/IF。这些模型的构建方式保证了组件之间的平滑过渡，例如分层对象图像和装饰背景。然后，研究团队使用使用LLaVA-1.5-13B构建的装帧大型多模态模型（LMM）预测排版的JSON文件。该预测使用来自设计LLM的JSON文件，来自扩散模型的投影背景图片以及来自级联扩散模型的期望对象图像。然后，可视化渲染器使用预测的JSON文件中找到的布局组装这些组件。第三阶段，为了提高设计的整体质量，提供了质量保证和评论。反映LMM必须进行仔细调整，并且必须使用GPT-4V(ision)进行全面而多方面的质量检查。这一最后阶段可以根据需要微调JSON文件，包括更改文本框的大小和位置。最后，研究团队创建了一个名为DESIGNERINTENTION的系统，其中包含大约200个专业图形设计意图提示，涵盖了各种类别和约20个创意类别，以评估系统的能力。然后，他们将他们的方法与目前使用的最先进的图像生成系统进行了比较，在各个子任务上进行了详尽的消融实验，对他们系统生成的图形设计进行了彻底的分析，并就图形设计图像生成的局限性和潜在未来发展方向进行了讨论。

Leave a Comment

加州大学伯克利分校研究人员推出了Starling-7B：一种由强化学习和人工智能反馈训练的开放式大型语言模型（LLM）

Published December 4, 2023 by 四海吧

将以下HTML代码翻译成中文（保留HTML代码）：大型语言模型（LLM）是用于自然语言处理任务的人工智能模型。这些模型经过大规模的数据集训练，能够理解和生成人类般的文本。它们通过理解和生成人类般的文本，改变了自然语言处理的方式。在生活中各个领域都具有实用性。加州大学伯克利分校的研究人员推出了一个名为Starling-7B的开放大型语言模型（LLM），该模型通过基于强化学习的人工智能反馈（RLAIF）进行训练。该模型利用我们最近开发的奖励训练和策略调整管道、我们的新GPT-4标记分类数据集（Nectar）以及先进的奖励训练和策略调整管道。 https://starling.cs.berkeley.edu/ Starling-7B的基础是GPT-4标记分类数据集（Nectar）。该数据集包含183,000条聊天提示，每个提示提供了来自不同模型（如GPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-Instruct和Llama2-7B）的七个回复，共计380万个配对比较。为了确保公正性，在提示GPT-4进行排名时，研究人员付出了相当大的努力来减小位置偏差，这个过程在数据集部分详细说明。 https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha 他们使用了一个学习奖励模型来改进Openchat 3.5语言模型，并取得了令人印象深刻的结果。AlpacaEval得分从88.51%增加到91.99%，而MT-Bench得分从7.81增加到8.09。这些度量标准作为评估聊天机器人有多实用的标准。研究人员使用直接优化偏好（DPO）将该模型与早期的开源模型（如Zephyra-7B、Neural-Chat-7B和Tulu-2-DPO-70B）进行了测试。虽然这些模型在聊天机器人领域表现良好，但与顶级SFT模型（如OpenHermes 2.5和Openchat 3.5在MT Bench中）相比，它们可能没有充分发挥RLHF的潜力。研究人员强调该模型存在一定的挑战。它容易受到欺骗或操纵方法的影响。此外，模型在处理数学或推理任务时存在困难，并且其输出的事实准确性只能有时保证。他们还指出，模型偶尔会过于冗长，容易被越狱提示所影响。他们表示，依然致力于改进Starling-7B的这些缺陷。为了解决这个问题，他们提出通过利用基于规则的奖励模型来进一步改进该模型，其中GPT-4作为指导，使用GPT-4技术报告中概述的技术。总之，Starling-7B代表了LLM的重大进展，展示了通过人工智能反馈进行强化学习的可能性。自然语言处理领域正在因这些模型与社区共享的知识的合作而得到增强。研究人员正在努力改进模型的性能并解决这些限制。本文来源：加州大学伯克利分校研究人员介绍Starling-7B：一种基于强化学习的开放大型语言模型（LLM），首发于MarkTechPost。

Leave a Comment

深探：中国最新的语言模型的支配地位

Published December 1, 2023 by 四海吧

在最新的进展中，DeepSeek LLM在语言模型领域崭露头角，拥有令人印象深刻的670亿个参数。DeepSeek LLM在庞大的英语和中文数据集上经过精心训练，并通过开源其7B/67B基础版和7B/67B聊天版，为研究合作设定了新标准。本文深入探讨了该模型在各个领域的卓越能力，并评估了其在复杂评估中的表现。卓越的通用能力 DeepSeek LLM 67B基础版已通过在推理、编码、数学和中文理解等关键领域中胜过Llama2 70B基础版证明了其实力。该模型的实力延伸到多个领域，标志着语言模型演进的重要飞跃。精通编码和数学 DeepSeek LLM 67B聊天版在编码方面表现出色，其HumanEval Pass@1得分为73.78。该模型在数学能力方面也表现卓越，GSM8K 0-shot得分为84.1，Math 0-shot得分为32.6。值得注意的是，它在具有挑战性的匈牙利国家中学考试中获得了惊人的65分，彰显出出色的泛化能力。中文语言掌握能力在与GPT-3.5的中文语言能力对比中，DeepSeek LLM 67B聊天版成为中文语言掌握能力的领先者。评估结果凸显了该模型的优势，标志着自然语言处理的重大进展。评估见解为了公正评估DeepSeek LLM 67B聊天版，开发者提供了新的问题集，减少了数据污染，并考虑到特定的测试集。匈牙利国家中学考试成为评估该模型数学能力的试金石，揭示了该模型在解决复杂问题方面的实力。此外，谷歌于2023年11月15日发布的“指令遵循评估数据集”为评估DeepSeek LLM…

Leave a Comment

介绍Amazon SageMaker HyperPod以大规模训练基础模型

Published December 1, 2023 by 四海吧

建立基础模型（FMs）需要建立、维护和优化大型集群，以在海量数据上训练具有数百亿个参数的模型创建一个能够处理故障和环境变化而不会丢失几天甚至几周模型训练进度的韧性环境是一项运营挑战，需要你…

Leave a Comment

使用Amazon SageMaker Clarify和MLOps服務，以大規模操作化LLM評估

Published November 30, 2023 by 四海吧

在过去的几年中，大型语言模型（LLMs）因其杰出的能力而崭露头角，能够以前所未有的熟练度理解、生成和操纵文本它们的潜在应用领域从对话代理人到内容生成和信息检索，承诺着彻底改变所有行业然而，在确保负责任和…

Leave a Comment

探索对OpenAI模型的开源替代品

Published November 29, 2023 by 四海吧

介绍 11月在人工智能领域发生了许多重大事件。从GPT存储的推出，到GPT-4-turbo的发布，再到OpenAI的惨败，这一切都引发了一个重要的问题：封闭模型和背后的人员有多可靠？当你在生产中使用的模型因为一些内部公司事件而崩溃时，这将会是一次不愉快的经历。这对于开源模型来说并不是一个问题。您对部署的模型拥有完全控制权。您对数据和模型都有主权。但是是否可以用GPT代替开源模型？值得庆幸的是，许多开源模型已经达到或超过了GPT-3.5模型的性能。本文将探讨一些性能最佳的开源LLMs和LMMs替代方案。学习目标讨论开源大型语言模型。探索最先进的开源语言模型和多模态模型。对大型语言模型进行轻量化介绍。了解在本地和云端运行LLMs的工具和服务。本文作为数据科学博文马拉松的一部分发表。什么是开源模型？当模型的权重和架构是自由可用的时，我们称之为开源模型。这些权重是大型语言模型的预训练参数，例如Meta的Llama。这些通常是基础模型或未经调优的原始模型。任何人都可以使用这些模型，并将其在自定义数据上进行微调，以执行下游操作。但是它们是否是真正的开源？数据呢？由于有关版权内容和数据敏感性的种种问题，大多数研究实验室都不会公开发布训练基础模型时所使用的数据。这也涉及到模型的许可问题。每个开源模型都有类似于任何其他开源软件的许可证。许多基础模型（例如Llama-1）配有非商业许可证，这意味着您不能使用这些模型来赚钱。但是像Mistral7B和Zephyr7B这样的模型配有Apache-2.0和MIT许可证，可以在任何地方使用而不会有顾虑。开源替代方案自从Llama发布以来，开源领域一直在追赶OpenAI模型。迄今为止，取得了令人鼓舞的成果。在GPT-3.5发布一年内，我们已经拥有了参数更少但在性能上与GPT-3.5相媲美甚至更好的模型。但是GPT-4仍然是执行从推理和数学到代码生成等各种一般任务的最佳模型。进一步观察开源模型领域的创新和资金支持的步伐，我们很快将会有越来越接近GPT-4性能的模型。现在，让我们讨论一些出色的开源模型的替代方案。 Meta’s Llama 2 Meta在今年7月发布了他们最好的模型Llama-2，并因其令人印象深刻的能力而迅速走红。Meta发布了四个不同参数规模的Llama-2模型，分别是Llama-7b、13b、34b和70b。这些模型在各自的类别中足以击败其他开源模型。但是现在，诸如mistral-7b和Zephyr-7b等多个模型在许多基准测试中优于较小的Llama模型。Llama-2 70b仍然是其类别中最好的之一，可以作为GPT-4在摘要、机器翻译等任务上的替代品。 Llama-2在许多基准测试中表现优于GPT-3.5，并且能够接近GPT-4，使其成为GPT-3.5甚至在某些情况下是GPT-4的一个有价值的替代品。以下图表是由Anyscale提供的Llama和GPT模型的性能比较。有关Llama-2的更多信息，请参阅HuggingFace上的博客。这些LLM经过微调后在自定义数据集上表现良好。我们可以对模型进行微调，以在特定任务中发挥更好的性能。不同的研究实验室也发布了经过微调的Llama-2版本。这些模型在许多基准测试中显示出比原始模型更好的结果。这款经过微调的Llama-2模型，Nous-Hermes-Llama2-70b，由Nous Research经过超过300,000个自定义指令进行了微调，使其比原始的meta-llama/Llama-2-70b-chat-hf更好。查看HuggingFace的排行榜。您可以找到比原始模型效果更好的经过微调的Llama-2模型。这是开源模型的优点之一。根据需求，可以选择多种模型。 Mistral-7B Mistral-7B发布以来，它已成为开源社区的宠儿。它的性能要远远优于同类模型，并接近GPT-3.5的能力。这个模型可以在许多情况下替代Gpt-3.5，比如摘要、改写、分类等。…

Leave a Comment

使用新的Amazon SageMaker容器提升LLMs的推理性能

Published November 27, 2023 by 四海吧

今天，Amazon SageMaker推出了Large Model Inference (LMI) Deep Learning Containers (DLCs)的新版本（0.25.0），并新增了对NVIDIA的TensorRT-LLM Library的支持借助这些升级，您可以轻松访问最先进的工具，优化SageMaker上的大型语言模型（LLMs），并获得价格性能优势——Amazon SageMaker LMI TensorRT-LLM DLC将延迟降低了33% […]

Leave a Comment

使用亚马逊基石的企业人工智能平台

Published November 27, 2023 by 四海吧

以各种基础模型的亚马逊基石为主线，探索如何构建企业级通用人工智能平台的实例

Leave a Comment

Zephyr-7B： HuggingFace的超级优化LLM，基于Mistral 7B构建

Published November 24, 2023 by 四海吧

深入了解 Zephyr-7B，一款开创性的大型语言模型了解它如何利用知识蒸馏来建立新的人工智能效率和可访问性标准，塑造了会话型人工智能的未来

Leave a Comment

遇见谷歌的Open Se Cura项目：一个开源框架，加速开发安全、可扩展、透明和高效的人工智能系统

Published November 17, 2023 by 四海吧

随着人工智能的发展，它已经被应用于生活的各个方面。其应用正在各个领域中显现。人工智能的应用已经扩展到医疗保健、教育、交通、制造业、零售业、金融等各个领域。然而，随着人工智能（AI）越来越多地融入我们的日常生活，建立强大和有效的计算系统对于可靠和安全的人工智能体验是必要的。但是问题是：硬件突破必须跟上机器学习（ML）模型和软件开发的进展。这种不平衡使得构建完整和安全的全栈系统变得困难。此外，尽管电池技术在发展，但小型设备市场正在超过这些发展，这限制了人工智能系统的潜在强度和使用。因此，谷歌推出了开源框架Project Open Se Cura，旨在加速安全、可扩展、透明和高效的人工智能系统的开发。这个项目在谷歌内部以Project Sparrow的名字存在。Project Open Se Cura凸显了谷歌对开源开发的承诺。该倡议涉及创建开源设计工具和知识产权（IP）库，以加速全栈系统处理机器学习工作负载的增长。协作共同设计和开发流程旨在增强系统设计，侧重于安全、效率和可扩展性，并助力下一代人工智能体验。这个项目与VeriSilicon、Antmicro和lowRISC等重要合作伙伴密切合作开发。研究人员强调每个合作伙伴都提供了对开发过程至关重要的知识和资源。例如，lowRISC为项目提供了清晰的信任根、开发和集成工具，确保了安全的基础。Antmicro在开源系统级软件和使用Renode的系统仿真工具方面提供了专业知识。VeriSilicon在商业化、BSP（板支持包）开发、IP设计和硅设计方面提供了专业知识。这些工具使得通过在IP库中添加安全的机器学习功能，能够开发出低功耗的人工智能系统概念验证。研究人员表示，他们期待进一步开放地增强和发展Open Se Cura。他们正在积极寻求与剑桥大学（用于CHERI创新）和密歇根大学（用于低功耗和生成型人工智能）等机构的合作伙伴关系。谷歌对通过这些新工具探索可能性感到兴奋，并鼓励广大开源社区加入并做出贡献。这个协作努力旨在推动创新，创建安全、可扩展和高效的新型人工智能体验。研究人员预计与开源社区的合作引领人工智能进步的新时代。本文翻译自：Meet Google’s Project Open Se Cura: An Open-Source Framework to…

Leave a Comment

Can't find what you're looking for? Try refining your search: