“解析生成AI的关键术语”

“解析生成AI的关键术语” 四海第1张

在过去的几年中，特别是在12个月前ChatGPT出现后，生成式AI模型用于创建逼真的合成文本、图像、视频和音频已经出现并迅速发展。最初的谦逊研究迅速发展为能够在上述各种VoAGI中产生高质量、类人输出的系统。神经网络的关键创新和计算能力的大幅增加推动着这一进展，越来越多的公司现在提供免费和/或付费访问这些不断提高能力的模型。

然而，生成式AI并非一切都是彩虹和小狗。虽然它在各种应用中极具增强人类创造力的潜力，但人们仍然担心如何正确评估、测试和负责任地部署这些生成式系统。人们尤为担忧的是这项技术引入的错误信息传播、偏见、真实性和社会影响问题。

然而，对于任何新技术而言，我们首先要做的事情是在利用或批评之前试图理解它。本文的目的就是帮助读者对关键的生成式AI术语有一个直观的理解，为初学者提供一个基础，并为深入学习铺平道路。因此，对于下面的每个关键术语，您将找到与之相关的链接，以便根据需要进一步调查。

现在让我们开始吧。

自然语言处理

自然语言处理（NLP）是人工智能的一个子领域，专注于通过以编程方式向机器提供所需工具来使机器能够理解、解释和生成人类语言。NLP弥合了人类沟通和计算机理解之间的差距。最初，NLP采用基于规则的方法，然后采用“传统”的机器学习方法，而如今最先进的NLP大多依赖于各种神经网络技术。

神经网络

神经网络是由（而非复制）人脑启发的机器学习计算模型，用于从数据中进行学习。神经网络由层（多层=深度学习）构成，这些层中的人工神经元处理和传递小块的数据，并将这些数据与函数匹配，并重复更新与处理神经元相关的权重，以尝试“更好地拟合”函数和数据。神经网络对于当今AI的学习和决策能力非常重要。没有十多年前开始的深度学习革命，我们所称之为AI的很多东西都是不可能的。

生成式AI

生成式AI是一类由神经网络驱动的人工智能，其重点是创建新内容。这些内容可以采用很多形式，从文本到图像到音频等等。这与“传统”类型的AI不同，后者着重于分类或分析现有数据，而生成式AI则具备“想象”并根据训练数据产生新内容的能力。

内容生成

内容生成是经过训练的生成模型生成合成文本、图像、视频和音频的实际过程，这些模型会根据其训练数据中学到的模式，在用户输入或提示的情况下生成相关的输出。这些提示也可以采用所提及的任何形式。例如，可以使用文本作为提示生成更多的文本，或者根据文本描述生成图像，或者生成音频或视频片段。同样地，可以使用图像作为提示生成另一幅图像、文本、视频等等。还可以进行多模态提示，例如使用文本和图像生成音频。

大型语言模型

大型语言模型（LLMs）是专门针对处理和“理解”人类语言的机器学习模型。LLMs通过大量的文本数据进行训练，使它们能够分析和复制复杂的语言结构、细微差别和上下文。无论使用的是哪种确切的LLM模型和技术，这些模型的整体本质都是学习和预测下一个单词或令牌（字母组合）跟随当前单词的情况，依此类推。LLMs本质上是极其复杂的“下一个单词猜测器”，而改进下一个单词的猜测是目前非常热门的研究课题，您可能已经听说过。

基础模型

基础模型是具备广泛能力的AI系统，可以根据不同的具体任务进行适应。基础模型为构建更专门的应用提供了基础，例如调整通用语言模型以用于特定的聊天机器人、助手或其他生成功能。基础模型不仅限于语言模型，还包括图像和视频等生成任务。一些著名且备受依赖的基础模型的例子包括GPT、BERT和Stable Diffusion。

参数

在这个上下文中，参数是定义模型结构、操作行为以及学习和预测能力的数字值。例如，OpenAI的GPT-4中的数十亿个参数影响其单词预测和对话生成能力。从技术角度来说，神经网络中的每个神经元之间存在权重（前面提到的），这些权重都是单个模型参数。神经元越多 → 权重越多 → 参数越多 → 网络（经过良好训练的）学习和预测的能力越大。

词嵌入

词嵌入是一种将单词或短语转换为预定维度数量的数值向量的技术，旨在捕捉它们的含义和上下文关系，并将其表示在远远小于对词汇中的每个单词（或短语）进行独热编码所需的大小的多维空间中。如果你创建一个包含500,000个单词的矩阵，其中每一行都是为一个单词创建的，而该行中的每个列都设为“0”，除了一个表示所讨论的单词的列，那么该矩阵将是500,000 x 500,000行x列的，并且非常稀疏。这对于存储和性能来说是灾难性的。通过将列设置为0到1之间的各种分数值，并将列的数量减少到，比如，300（维度），我们就有了一个更加专注的存储结构，并从根本上提高了操作性能。作为一个副作用，通过让神经网络学习这些维度嵌入值，相似的词在维度值上会比不相似的词“更接近”，为我们提供有关相对词义的见解。

变压器模型

变压器模型是同时处理整个句子的AI架构，这对于理解语言上下文和长期关联至关重要。它们擅长于检测句子中远离的词语和短语之间的关系。例如，当在一段文本的早期建立“她”作为指称特定个体的名词和/或代词时，变压器能够“记住”这种关系。

位置编码

位置编码是变压器模型中的一种方法，用于保持词语的顺序。这对于理解句子内部和句子之间的上下文至关重要。

通过人类反馈进行强化学习

强化学习通过人类反馈（RLHF）是一种训练LLMs的方法。与传统的强化学习（RL）一样，RLHF训练和使用奖励模型，但这个奖励模型直接来自于人类的反馈。然后，该奖励模型被用作LLM训练中的奖励函数，通过优化算法来使用。该模型在模型训练过程中明确地将人类纳入其中，希望人类反馈可以提供优化LLMs所需的关键反馈，可能是无法通过其他途径获取的反馈。

新兴行为

新兴行为是指大型和复杂语言模型展示出的意外技能，这些技能在简单的模型中不会展示出来。这些意外技能可以包括编码、音乐创作和创作虚构故事。这些技能不是显式地编程到模型中的，而是从它们复杂的架构中衍生出来的。然而，关于新兴能力的问题可能超出这些更常见的技能，例如，心智理论是一种新兴行为吗？

幻觉

幻觉是指当LLMs由于数据和架构的限制而产生事实不正确或不合逻辑的回应时的术语。尽管该模型具有任何先进的能力，但是由于查询中出现了模型训练数据中没有依据的情况，或者模型的训练数据包含不正确或非真实信息时，这些错误仍然可以发生。

拟人化

拟人化是将人类类似的特质归因于人工智能系统的倾向。值得注意的是，尽管AI系统能够模仿人类的情绪或语言，并且我们本能地倾向于将模型视为“他”或“她”（或其他任何代词）而不是“它”，但AI系统并不具有感受或意识。

偏见

偏见是在AI研究中一个具有含义的术语，可以指很多不同的事物。在我们的背景下，偏见指的是由于训练数据偏斜导致的AI输出错误，从而导致不准确、冒犯或误导的预测。当算法将无关紧要的数据特征优先于有意义的模式，或者根本没有有意义的模式时，就会出现偏见。

****[Matthew Mayo](https://www.kdnuggets.com/wp-content/uploads/./profile-pic.jpg)**** (@mattmayo13) 拥有计算机科学硕士学位和数据挖掘研究生证书。作为VoAGI的总编辑，Matthew的目标是让复杂的数据科学概念变得易于理解。他的专业兴趣包括自然语言处理、机器学习算法和探索新兴的人工智能领域。他的使命是在数据科学社区中普及知识。Matthew从6岁开始编程。