Tag: Natural language processing

RAG vs 微调：哪个是提升你的LLM申请的最佳工具？

Published October 11, 2023 by 四海吧

选择适合您使用情况的正确方法的终极指南

Leave a Comment

比较自然语言处理技术：RNNs, Transformers, BERT

Published October 11, 2023 by 四海吧

RNN, Transformers和BERT是流行的自然语言处理技术，它们在序列建模、并行化和预训练方面存在一些权衡，适用于下游任务

Leave a Comment

自然语言处理的7个步骤掌握技巧

Published October 7, 2023 by 四海吧

想要了解自然语言处理（NLP）吗？这里有一个7步指南，帮助你从机器学习和Python的基础到Transformer，NLP的最新进展，以及更多

Leave a Comment

简介语言不仅仅是沟通的形式，更是文化、身份和遗产的储藏室。然而，许多语言面临灭绝的风险。语言复兴旨在扭转这个趋势，生成式人工智能已经成为这一努力中的强大工具。语言复兴对于保护濒危语言和文化遗产至关重要。生成式人工智能凭借其自然语言处理能力，在这一任务中具有重要作用。本指南将探讨以下内容：如何利用生成式人工智能进行语言复兴实用的Python实现了解语音合成、文本生成和度量本文作为“数据科学博文马拉松”的一部分发表。理解语言复兴语言复兴涉及到振兴濒危或休眠语言的努力。它包括语言文献记录、教学和语言资源的创建。理解AI语言复兴意味着认识到人工智能在保护和复兴濒危语言方面的变革潜力。人工智能系统，特别是GPT-3等自然语言处理（NLP）模型，可以理解、生成和翻译语言，使其成为记录和教学濒危语言的宝贵工具。这些由人工智能驱动的倡议可以创建大规模的语言语料库、自动翻译服务，甚至是互动式语言学习应用程序，使语言复兴更加可行。此外，人工智能还可以为创作具有文化敏感性的内容做出贡献，促进语言和文化遗产之间的更深层次的联系。通过理解人工智能在语言复兴中的微妙挑战和机遇，利益相关者可以利用这项技术弥合语言差距，吸引年轻一代，确保这些语言蓬勃发展。最终，AI语言复兴是一项多学科的努力，将语言学家、社区和技术人员汇聚在一起，以保护语言多样性，保存濒危语言所编码的丰富人类文化图谱。生成式人工智能和自然语言处理基于深度学习的生成式人工智能可以理解和生成类似人类的文本。自然语言处理（NLP）致力于使计算机能够理解、解释和生成人类语言。构建语言语料库在应用生成式人工智能之前，您需要一个大规模的语言数据集。本节将介绍如何收集、组织和预处理用于人工智能应用的语言数据。使用Python和GPT-3生成文本 OpenAI的GPT-3是一个可以生成类似人类文本的强大语言模型。我们将指导您设置OpenAI API并创建Python实现，用于在目标语言中生成文本。 # 使用GPT-3生成文本的Python代码import openai# 设置OpenAI API密钥api_key =…

Leave a Comment

在Google Colab上免费使用QLora对LLAMAv2进行微调

Published September 23, 2023 by 四海吧

在Google Colab上免费学习如何微调其中一个最有影响力的开源模型

Leave a Comment

前十个LLM漏洞

Published September 14, 2023 by 四海吧

攻击者利用LLM漏洞来利用自然语言处理系统进行恶意活动了解主要的LLM漏洞及其可能的缓解方法

Leave a Comment

ReAct，推理和行动用工具增强LLMs！

Published September 12, 2023 by 四海吧

将推理与行动相结合，人工智能迈出了向复制人类智能迈进的大胆新步伐

Leave a Comment

WavJourney：探索音频故事线生成的世界

Published September 12, 2023 by 四海吧

从提示到动力：用一次火花释放故事和音频！

Leave a Comment

酿造一个领域特定的LLM药水

Published August 31, 2023 by 四海吧

让你的LLM成为你领域的专家

Leave a Comment

探索OpenAI的ChatGPT代码解释器：深入了解其功能

Published August 28, 2023 by 四海吧

OpenAI 在自然语言处理（NLP）方面的进展标志着大型语言模型（LLM）的崛起，这些模型支持着数百万用户使用的产品，包括编码助手 GitHub Copilot 和必应搜索引擎这些模型通过其独特的记忆和融合信息的能力，在代码和文本等任务上树立了无与伦比的基准

Leave a Comment

用LangChain改变AI 文本数据的游戏规则改变者

Published August 1, 2023 by 四海吧

学习如何利用这个Python库来增强我们的AI使用能力

Leave a Comment

《ChatGPT中的提示工程精要指南》

Published July 27, 2023 by 四海吧

通过我们深入的指南，深入了解“提示工程”，重点关注其对快速增长的ChatGPT用户群体的影响探索什么是提示工程，如何成为提示工程师，顶级技术，并掌握这一热门人工智能职业道路的潜力

Leave a Comment

见面Brain2Music：一种使用功能磁共振成像（fMRI）捕获的脑活动重建音乐的人工智能方法

Published July 26, 2023 by 四海吧

谁不喜欢音乐呢？你是否曾经记得一首歌的节奏，但却想不起歌词，也无法找出歌曲的名字？谷歌和大阪大学的研究人员一起找到了一种方法，使用功能性磁共振成像（fMRI）从脑活动中重构音乐。根据音乐的流派、乐器和情绪，生成音乐。谷歌和大阪大学的研究人员使用深度神经网络生成音乐，通过预测高级、语义结构化的音乐来生成音乐特征，如fMRI扫描。根据人类听觉皮层的活动，可以预测音乐的不同组成部分。研究人员使用了JukeBox进行实验，该系统生成具有高时间连贯性的音乐，其中包含可预测的特征。使用低比特率的压缩神经音频编解码器生成高质量音频。从fMRI生成音乐需要中间阶段，其中包括通过选择音乐嵌入来表示音乐。他们使用的架构包括音乐嵌入，用于随后的音乐生成的瓶颈。如果预测的音乐嵌入接近受试者听到的原始刺激的音乐嵌入，则使用MusicLM（音乐生成模型）生成类似原始刺激的音乐。音乐生成模型MusicLM由名为MuLan和w2v-BERT-avg的音频派生嵌入组成。在侧前额皮质中，MuLan往往比w2v-BERT-avg具有更高的预测性能，因为它捕捉到了人脑中的高级音乐信息处理。与音频派生嵌入相比，音乐的抽象信息在听觉皮层中以不同的方式表示。 MuLan嵌入通过生成模型转换为音乐。模型中恢复了嵌入中不包含的信息。在检索技术中，重建的音乐也是音乐性的，因为它直接从音乐数据集中提取。这确保了更高水平的重建质量。研究人员使用fMRI响应数据的线性回归。该方法也存在局限性，包括在使用fMRI数据的线性回归中的确切信息量的不确定性。研究人员表示，他们未来的工作包括从个体的想象中重构音乐。当用户想象一段音乐片段时，解码分析会考察想象能否被准确重构。这将符合实际的读心术。不同音乐专业背景的多样化受试者存在，需要通过比较进行多个重构属性。比较受试者之间的重构质量，其中包括专业音乐家，可以为他们的观点和理解差异提供有用的见解。他们的研究工作只是将您纯粹的、富有想象力的思想变为现实的第一步。这也将导致仅凭空想象生成全息图像的可能性。在这一领域的进步还将从生物学角度提供定量解释。

Leave a Comment

每个数据科学家都必须阅读的前7本自然语言处理书籍

Published July 22, 2023 by 四海吧

介绍自然语言处理（NLP）的最新进展对于数据科学家来说至关重要。NLP相关书籍是提供深入知识、实用指导和前沿技术的宝贵资源。本文将介绍8本最佳的NLP书籍，这些书对于数据科学家来说是必读的。这些作品涵盖了从NLP的基本原理到尖端的深度学习技术。无论你是初学者还是经验丰富的从业者，这些书籍都将提高你在NLP方面的理解和能力。什么是NLP？自然语言处理是人工智能领域的一个研究方向，专注于计算机与人类语言之间的交互。它涉及开发算法和技术，使计算机能够理解、解释和生成人类语言，以便实现诸如语言翻译、情感分析、聊天机器人和信息检索等任务。请查看我们关于自然语言处理入门的免费课程。 1. 语音和语言处理作者：Daniel Jurafsky和James H. Martin 《语音和语言处理》被认为是关于NLP最全面的手册，包括语音和语言处理方法。这本书介绍了基本概念、前沿的研究主题和算法。它提供了针对各种能力水平读者的练习和实际例子，对建立NLP的坚实基础非常有帮助。书籍链接：语音和语言处理 2. 使用Python进行自然语言处理作者：Steven Bird, Ewan Klein和Edward Loper 如果你想通过实践来学习新知识，那么《使用Python进行自然语言处理》是一个不错的选择。这本书演示了如何使用Python和NLTK（自然语言工具包）等知名模块开发NLP算法。重要的NLP过程包括情感分析、命名实体识别、词性标注、分词和命名实体识别。这本NLP书籍通过提供有用的例子和代码片段，让你能够在实际环境中运用NLP思想。书籍链接：使用Python进行自然语言处理 3. 统计自然语言处理基础作者：Christopher…

Leave a Comment

符号调整改善语言模型中的上下文学习

Published July 21, 2023 by 四海吧

由谷歌研究的学生研究员Jerry Wei和首席科学家Denny Zhou发布人类智能的一个关键特征是人类可以通过只使用少数示例来学会执行新任务的推理。扩展语言模型解锁了机器学习中一系列新的应用和范例，包括通过上下文学习执行具有挑战性的推理任务的能力。然而，语言模型仍然对提示的方式敏感，表明它们并不是以稳健的方式进行推理。例如，语言模型通常需要大量的提示工程或将任务构建为指令的方式，并且它们表现出意外的行为，如在显示错误标签时对任务的表现不受影响。在“符号调优改进语言模型中的上下文学习”中，我们提出了一种简单的微调过程，称为符号调优，它可以通过强调输入-标签映射来改进上下文学习。我们在Flan-PaLM模型中尝试了符号调优，并观察到在各种设置下都有益处。符号调优提高了对未见过的上下文学习任务的表现，并且对于未明确指定的提示（例如没有指令或没有自然语言标签的提示）更加稳健。符号调优的模型在算法推理任务上表现更强。最后，符号调优的模型在使用上下文信息来覆盖先前知识时，对于翻转标签呈现的任务有很大的改进。符号调优的概述，其中模型在任务中使用任意符号代替自然语言标签进行微调。符号调优依赖于这样的直觉，即当没有指令和相关标签可用时，模型必须使用上下文示例来学习任务。动机指令调优是一种常见的微调方法，已经证明可以提高性能并使模型能够更好地遵循上下文示例。然而，一个缺点是模型并不强制学会使用这些示例，因为在评估示例中通过指令和自然语言标签重复定义了任务。例如，在上图左侧，虽然示例可以帮助模型理解任务（情感分析），但它们并不是严格必要的，因为模型可以忽略示例，只需阅读指示表明任务是什么。在符号调优中，模型在示例上进行微调，其中移除了指令，并用语义不相关的标签（例如“Foo”，“Bar”等）替换了自然语言标签。在这种设置下，不查看上下文示例的情况下任务是不清楚的。例如，在上图右侧，需要多个上下文示例才能弄清楚任务。因为符号调优教会模型在上下文示例之间和它们的标签之间进行推理，所以符号调优的模型在需要在上下文示例和标签之间进行推理的任务上应该有更好的表现。用于符号调优的数据集和任务类型。符号调整过程我们选择了22个公开可用的自然语言处理（NLP）数据集，用于我们的符号调整过程。这些任务过去被广泛使用，我们只选择了分类类型的任务，因为我们的方法需要离散标签。然后，我们将标签重新映射到从三个类别中选择的约30K个任意标签集中的随机标签：整数、字符组合和单词。在我们的实验中，我们对Flan-PaLM进行符号调整，这是PaLM的指令调整变体。我们使用了三种不同大小的Flan-PaLM模型：Flan-PaLM-8B、Flan-PaLM-62B和Flan-PaLM-540B。我们还测试了Flan-cont-PaLM-62B（Flan-PaLM-62B使用1.3T个标记而不是780B个标记），我们将其缩写为62B-c。我们使用了来自三个类别（整数、字符组合和单词）的约300K个任意符号。其中约30K个符号用于调整，其余的符号用于评估。实验设置我们希望评估模型在未见过的任务上的表现能力，因此不能在符号调整（22个数据集）或指令调整（1.8K个任务）中评估。因此，我们选择了11个在微调过程中未使用的NLP数据集。上下文学习在符号调整过程中，模型必须学会通过上下文示例进行推理，以成功执行任务，因为提示被修改以确保任务不能简单地从相关标签或指令中学习。符号调整的模型应在任务不明确且需要在上下文示例和其标签之间进行推理的情况下表现更好。为了探索这些情况，我们定义了四种上下文学习设置，这些设置根据输入和标签之间的推理量（基于指令/相关标签的可用性）来学习任务。根据指令和相关自然语言标签的可用性，模型可能需要对上下文示例进行不同程度的推理。当这些特征不可用时，模型必须通过给定的上下文示例进行推理以成功执行任务。符号调整改善了62B及更大模型在所有设置下的性能，在具有相关自然语言标签的设置中略有改进（+0.8%至+4.2%），在没有相关自然语言标签的设置中有显著改进（+5.5%至+15.5%）。令人惊讶的是，当相关标签不可用时，符号调整的Flan-PaLM-8B的性能超过了FlanPaLM-62B，而符号调整的Flan-PaLM-62B的性能超过了Flan-PaLM-540B。这种性能差异表明，符号调整可以使较小的模型在这些任务上表现得和大型模型一样好（有效地节省了约10倍推理计算量）。大型符号调整模型在上下文学习方面比基线模型表现更好，特别是在没有相关标签的情况下。性能以十一个任务的平均模型准确率（%）显示。算法推理…

Leave a Comment

使用自然语言处理（NLP）和引导法探索性别平等的研究

Published July 4, 2023 by 四海吧

介绍 NLP（自然语言处理）可以帮助我们理解大量的文本数据。不需要手动阅读大量文档，我们可以利用这些技术加快理解速度，快速获得主要信息。在这篇博文中，我们将深入探讨如何使用Python中的pandas数据框和NLP工具，通过使用Elicit，对在阿富汗进行性别平等研究时人们的写作内容有一个了解。这些见解可能有助于我们理解在过去几十年中，在一个被认为是对女性或女孩来说最困难的地方之一的国家，为促进性别平等所做的工作和未能取得的成果（世界经济论坛，2023年）。学习目标掌握处理CSV文件中的文本分析。了解如何在Python中进行自然语言处理。开发有效数据可视化的沟通技巧。深入了解阿富汗性别平等研究的演变。本文是数据科学博文马拉松的一部分。使用Elicit进行文献综述为了生成底层数据，我使用了Elicit，一款用于文献综述的AI工具（Elicit）。我让这个工具生成与问题“为什么阿富汗的性别平等失败了？”相关的论文列表。然后，我以CSV格式下载了结果列表（我考虑了150多篇论文的随机数量）。这些数据是什么样的？让我们来看一看！在Python中分析来自Elicit的CSV数据我们首先将CSV文件读入pandas数据框中： import pandas as pd #识别路径和CSV文件 file_path = ‘./elicit.csv’ #读入CSV文件 df = pd.read_csv(file_path) #CSV的形状…

Leave a Comment

2023年阅读的5本自然语言处理免费书籍

Published June 29, 2023 by 四海吧

大型语言模型正在左右中释放，并且如果您想更好地了解它们，您需要了解自然语言处理（NLP）这里有5本免费的书籍可以帮助您

Leave a Comment

使用Google MusicLM从文本生成音乐

Published June 29, 2023 by 四海吧

介绍谷歌最新的AI音乐模型突破

Leave a Comment

免费全栈LLM编程营

Published June 14, 2023 by 四海吧

想要了解更多关于LLMs，并构建酷炫的LLM驱动应用程序吗？这个免费的全栈LLM Bootcamp就是你所需要的！

Leave a Comment

MIT研究人员使语言模型可扩展的自学习者

Published June 9, 2023 by 四海吧

科学家们使用基于自然语言的逻辑推理数据集来创建更小的语言模型，其表现优于比它们大得多的模型

Leave a Comment

深入探讨GPT模型：演进与性能比较

Published June 9, 2023 by 四海吧

该博客专注于GPT模型，提供深入的理解和分析它解释了GPT模型的三个主要组成部分：生成、预训练和变压器

Leave a Comment

介绍MPT-7B：一个新的开源LLM

Published June 9, 2023 by 四海吧

一个由MosaicML基金会系列培训的LLM，训练了1T个文本和代码令牌

Leave a Comment

红色睡衣项目：开源倡议，民主化LLMs

Published June 9, 2023 by 四海吧

领先的项目，通过可访问的大型语言模型赋能社区

Leave a Comment

猎鹰LLM：开源LLM的新王者

Published June 9, 2023 by 四海吧

Falcon LLM 是一款新的大型语言模型，已经从 LLaMA 夺得了桂冠

Leave a Comment

使用机器学习解决代码审查评论

Published June 9, 2023 by 四海吧

由亚历山大·弗瑞姆根 (Alexander Frömmgen)，高级软件工程师莱拉·卡拉提扬 (Lera Kharatyan) 发布代码更改审查是规模化软件开发过程中至关重要的一部分，占用了代码作者和代码审查人员相当数量的时间。作为这个过程的一部分，审查人员检查建议的代码，并通过自然语言编写的评论要求作者进行代码更改。在 Google，我们每年看到数百万个审查人员的评论，作者需要平均 ~60 分钟的积极引导时间，在发送更改进行审查和最终提交更改之间。在我们的测量中，代码作者必须做出的为了应对审查人员的评论所需的积极工作时间几乎是随着评论数量线性增长的。然而，通过机器学习 (ML)，我们有机会自动化和简化代码审查过程，例如，根据评论的文本提出代码更改。今天，我们描述了我们在 Google 的日常开发工作流程中应用最新的大型序列模型 (使用 DIDACT 方法论) 的应用，自动解决代码审查评论。截至今天，Google 的代码更改作者通过应用 ML 建议的编辑，处理了大量的审查人员评论。我们预计，在 Google 的规模下，这将每年减少数十万小时的代码审查时间。非请求的非常积极的反馈表明，ML 建议的代码编辑的影响增加了 Google…

Leave a Comment

3个问题：Jacob Andreas关于大型语言模型的看法

Published June 9, 2023 by 四海吧

该CSAIL科学家通过最先进的机器学习模型和对语言如何增强其他类型的人工智能的研究，描述了自然语言处理研究

Leave a Comment

Tag: Natural language processing

RAG vs 微调：哪个是提升你的LLM申请的最佳工具？

比较自然语言处理技术：RNNs, Transformers, BERT

自然语言处理的7个步骤掌握技巧

语言复兴的生成AI

在Google Colab上免费使用QLora对LLAMAv2进行微调

前十个LLM漏洞

ReAct，推理和行动用工具增强LLMs！

WavJourney：探索音频故事线生成的世界

酿造一个领域特定的LLM药水

探索OpenAI的ChatGPT代码解释器：深入了解其功能

用LangChain改变AI 文本数据的游戏规则改变者

《ChatGPT中的提示工程精要指南》

见面Brain2Music：一种使用功能磁共振成像（fMRI）捕获的脑活动重建音乐的人工智能方法

每个数据科学家都必须阅读的前7本自然语言处理书籍

符号调整改善语言模型中的上下文学习

使用自然语言处理（NLP）和引导法探索性别平等的研究

2023年阅读的5本自然语言处理免费书籍

使用Google MusicLM从文本生成音乐

更多关于大型语言模型的免费课程

免费全栈LLM编程营

MIT研究人员使语言模型可扩展的自学习者

深入探讨GPT模型：演进与性能比较

介绍MPT-7B：一个新的开源LLM

红色睡衣项目：开源倡议，民主化LLMs

猎鹰LLM：开源LLM的新王者

使用机器学习解决代码审查评论

3个问题：Jacob Andreas关于大型语言模型的看法