Press "Enter" to skip to content

生成式人工智能的迷人演进

介绍

在不断扩展的人工智能领域中,一个引人入胜的领域吸引着研究人员、技术人员和爱好者的想象力,那就是生成式人工智能。这些聪明的算法每天都在推动机器人的能力和理解力的极限,引领着一个新的创新和创造的时代。在这篇文章中,我们将踏上一段关于生成式人工智能演化的激动人心的旅程,探索其谦逊的起源、重要的转折点以及影响其发展的开创性进展。

生成式人工智能的迷人演进 四海 第1张

我们将研究生成式人工智能如何革新各个领域,从艺术和音乐到医学和金融,从早期尝试创建简单模式到现在创造令人惊叹的杰作。通过理解生成式人工智能的历史背景和创新,我们可以深入了解它对未来的巨大潜力。让我们一起探索机器如何获得创造、发明和想象的能力,从而永远改变人工智能和人类创造力的领域。

生成式人工智能演化时间线

在不断发展的人工智能领域中,很少有分支像生成式人工智能一样引起如此多的好奇和兴趣。从最早的概念化到近年来取得的令人叹为观止的成就,生成式人工智能的发展之旅堪称非凡。

在本节中,我们将踏上一段迷人的时间之旅,揭示塑造生成式人工智能发展的里程碑。我们深入研究关键突破、研究论文和进展,绘制出其增长和演化的全面图景。

让我们一起踏上历史之旅,见证创新概念的诞生,重要人物的出现,以及生成式人工智能在各个行业的渗透,丰富生活并改变我们对人工智能的认知。

生成式人工智能的迷人演进 四海 第2张

1805年:第一个神经网络/线性回归

1805年,Adrien-Marie Legendre引入了一个具有输入层和单个输出单元的线性神经网络(NN)。该网络将输出计算为加权输入的总和。使用最小二乘法调整权重,类似于现代线性神经网络,为浅层学习和随后的复杂结构奠定了基础。

1925年:第一个RNN架构

20世纪20年代,物理学家Ernst Ising和Wilhelm Lenz引入和分析了第一个非学习的循环神经网络(RNN)架构(Ising模型或Lenz-Ising模型)。它以响应输入条件进入平衡状态,并成为第一个学习型循环神经网络的基础。

1943年:神经网络的引入

1943年,Warren McCulloch和Walter Pitts首次引入了神经网络的概念。它受到生物神经元的工作方式的启发。神经网络是用电路模拟的。

1958年:MLP(无深度学习)

1958年,Frank Rosenblatt引入了具有非学习的第一层和自适应输出层的多层感知机(MLP)。尽管这还不是深度学习,因为只有最后一层是学习的,但Rosenblatt基本上拥有了后来被重新命名为极限学习机(ELMs)的东西,只是没有得到适当的归属。

生成式人工智能的迷人演进 四海 第3张

1965年:第一个深度学习

1965年,Alexey Ivakhnenko和Valentin Lapa引入了第一个成功的深度多层感知机(MLP)的学习算法。

1967年:通过SGD进行深度学习

1967年,Shun-Ichi Amari提出使用随机梯度下降(SGD)从头开始训练多层感知机(MLP)的方法。他们训练了一个具有两个可调层的五层MLP,用于分类非线性模式,尽管与今天相比计算成本很高。

1972年:发布了人工循环神经网络(Artificial RNNs)

1972年,阿马里顺一(Shun-Ichi Amari)将Lenz-Ising循环架构改进为自适应型,通过改变连接权重来学习将输入模式与输出模式相关联。十年后,阿马里网络以Hopfield网络的名义重新发布。

1979年:深度卷积神经网络(Deep Convolutional NN)

1979年,福岛邦彦(Kunihiko Fukushima)首次提出了第一个CNN架构,其中包括卷积层和下采样层,命名为Neocognitron 1979。1987年,Alex Waibel将卷积、权重共享和反向传播结合在一起,称之为TDNNs,应用于语音识别,预示着CNN的出现。

生成式人工智能的迷人演进 四海 第4张

1980年:自编码器(Auto Encoders)的发布

上世纪80年代,Hinton和PDP小组(Rumelhart,1986)首次引入了自编码器,以解决“无教师反向传播”问题,即利用输入数据作为教师。自编码器的基本思想非常简单,即通过设置一个编码器和解码器作为神经网络,并使用迭代优化过程学习最佳的编码-解码方案。

1986年:反向传播算法的发明

1970年,Seppo Linnainmaa首次引入了一种称为反向传播的自动微分方法,用于可微分函数嵌套网络。1986年,Hinton和其他研究人员提出了一种改进的反向传播算法,用于训练前馈神经网络,在他们的论文“通过反向传播错误来学习表示”中概述了该算法。

1988年:图像识别(CNN)

魏章(Wei Zhang)将反向传播应用于训练用于字母识别的CNN,最初被称为Shift-Invariant Artificial Neural Network(SIANN)。他们进一步将CNN应用于医学图像对象分割和乳腺癌检测,去除了最后一个全连接层。这种方法为现代计算机视觉奠定了基础。

1990年:生成对抗网络(GAN)/ 好奇心的引入

生成对抗网络(GANs)自1990年首次发表以来就变得越来越受欢迎,最初被称为Artificial Curiosity。GANs涉及两个相互对抗的神经网络,一个是生成器(控制器),另一个是预测器(世界模型),它们在一个极小极大博弈中相互最大化损失。生成器产生概率性输出,而预测器预测环境反应。预测器通过梯度下降最小化错误,而生成器则试图最大化错误。

生成式人工智能的迷人演进 四海 第5张

1991年:第一个Transformer

具有“线性化自注意力”(linearized self-attention)的Transformer于1991年3月首次发表,被称为“Fast Weight Programmers”或“Fast Weight Controllers”。它们像传统计算机一样分离存储和控制,但以端到端可微分、自适应、完全神经方式实现。当今标准Transformer中的“自注意力”将其与1993年引入的投影和softmax相结合。

1991年:梯度消失问题

“梯度消失”是由Sepp Hochreiter于1991年发现的基本深度学习问题,用于解决深度神经网络中的挑战。Hochreiter发现在典型的深度和循环网络中,反向传播的错误信号要么迅速减小,要么不受控制地增加。

1995年:LeNet-5发布

几家银行应用了LeCun于1995年提出的开创性的7层卷积网络LeNet-5,用于识别支票上手写数字。

1997年:引入LSTM

1995年,Sepp Hochreiter和Jürgen Schmidhuber在一份技术报告中首次发布了长短期记忆(LSTM)。随后,1997年的主要LSTM论文解决了梯度消失问题。最初的LSTM块包括单元、输入和输出门。1999年,Felix Gers和他的导师Jürgen Schmidhuber以及Fred Cummins引入了遗忘门(forget gate)到LSTM架构中,使得LSTM能够重置其状态。

千年发展

2001年 – NPLM的引入

在1995年,我们已经有了一个出色的神经概率文本模型,其基本概念在2003年被重复使用,即Pollack在词嵌入和其他结构上的早期工作以及Nakamura和Shikano在1989年的词类别预测模型。在2001年,研究人员表明LSTM可以学习传统模型(如HMMs)无法学习的语言,即神经“亚符号”模型突然在学习“符号”任务方面表现出色。

2014年 – 变分自编码器

变分自编码器是一种自编码器,其训练被正则化以避免过拟合,并确保潜在空间具有适当的属性,以实现生成过程。VAE的架构类似于自编码器,但编码-解码过程略有修改。研究人员将输入编码为潜在空间上的分布,而不是一个单点。

2014年 – GAN的发布

研究人员提出了一种通过对抗性过程估计生成模型的新框架,其中同时训练了两个模型。一个生成模型G捕捉数据分布,一个判别模型D估计样本来自训练数据而不是G的概率。对G的训练过程是最大化D犯错误的概率。

2014年 – GRU的发布

Cho [2014]提出了门控循环单元(GRU),使每个循环单元能够自适应地捕捉不同时间尺度的依赖关系。与LSTM单元类似,GRU具有调节单元,用于调节单元内部的信息流动,但没有独立的记忆单元。

生成式人工智能的迷人演进 四海 第6张

2015年 – 扩散模型的发布

扩散模型是当今图像生成任务的核心。通过将图像形成过程分解为逐步应用去噪自编码器,扩散模型(DMs)在图像数据及其他领域实现了最先进的合成结果。此外,它们的构建允许引导机制来控制图像生成过程而无需重新训练。

2016年 – WaveNet的发布

WaveNet是用于音频数据的语言模型。它是一个深度神经网络,用于生成原始音频波形。该模型完全是概率性的和自回归的,每个音频样本的预测分布都取决于先前的所有样本。

2017年:Transformer的发布

谷歌在2017年引入了一篇具有突破性的论文,标题为“Attention Is All You Need”。LSTM已经过时了!该论文介绍了一个完全依赖于注意机制的新架构。Transformer的基本元素包括自注意力、编码器-解码器注意力、位置编码和前馈神经网络。Transformer的基本原理在今天的语言模型中仍然保持不变。

2018年:GPT的发布

OpenAI推出了GPT(Generative Pretraining Transformer),通过在多样的无标签文本语料库上进行预训练,以自回归地预测文本中的新词序列。该模型基本遵循原始Transformer架构,但仅包含一个12层的解码器。在接下来的几年里,研究不断发展,导致了规模更大的模型的开发:GPT-2(1.5B)、GPT-3(175B)。

2018年:BERT的发布

BERT(Bidirectional Encoder Representations from Transformers)由Google于2018年发布。研究人员通过两个步骤对模型进行训练:预训练和下一个句子预测。与GPT不同,该模型在预训练期间预测文本中任何位置的缺失标记。这里的理念是通过从两个方向捕捉上下文来改善对文本的语言理解。

2019年:StyleGAN发布

研究人员提出了一种替代的生成对抗网络生成器架构,借鉴了风格转移文献的方法。这种新的架构可以自动学习生成图像中的高级属性(例如人脸的姿势和身份)和随机变化(例如雀斑、头发)。它还允许对合成进行简单的、特定于规模的控制。

2020年:wav2vec 2.0发布

2019年,Meta AI发布了wav2vec,这是一个用于无监督的语音识别预训练框架,通过学习原始音频的表示来进行。随后,在2020年,推出了wav2vec 2.0,用于自监督学习语音表示。它学习了最强大的语音音频表示。该模型使用连续时间分类(CTC)进行训练,因此模型输出必须使用Wav2Vec2CTCTokenizer进行解码。

2021年:DALL·E发布

DALL·E是一个拥有120亿参数的GPT-3版本,通过使用文本-图像对的数据集,从文本描述生成图像。它具有创建动物和物体的拟人化版本、组合不相关的概念、渲染文本和转换现有图像等多样的能力。

生成式人工智能的迷人演进 四海 第7张

2022年:潜在扩散发布

潜在扩散模型在图像修复方面达到了最新的技术水平,并在图像生成方面表现出极高的竞争力。研究人员使用强大的预训练自动编码器在潜在空间和交叉注意力层中训练扩散模型。这是首次实现了在复杂度减少和细节保留之间达到几乎最优的点,大大提高了视觉保真度。

2022年:DALL·E 2发布

2021年,研究人员训练了一个拥有120亿参数的GPT-3版本DALL·E,用于通过文本描述生成图像,使用了文本-图像对的数据集。2022年,DALL·E 2被开发出来,可以根据自然语言的描述创建逼真的图像和艺术作品。DALL·E 2可以组合概念、属性和风格。

2022年:Midjourney发布

Midjourney是由一个位于旧金山的独立研究实验室创建和托管的非常受欢迎的文本到图像模型。它可以通过自然语言描述(称为提示)创建高质量的图像。

2022年:Stable Diffusion发布

Stable Diffusion是一个潜在的文本到图像扩散模型,能够根据任何文本输入生成逼真的图像,培养了自主创作的自由,可以在几秒钟内让数十亿人创作出令人惊叹的艺术作品。

2022年:ChatGPT发布

ChatGPT是人工智能历史上的一项革命性模型。它是InstructGPT的姊妹模型,训练得可以迅速遵循指示并提供详细的回答。它以对话的形式进行交互,使ChatGPT能够回答后续问题、承认错误、挑战不正确的前提并拒绝不合适的请求。

2022年:AudioLM发布

AudioLM是Google推出的用于高质量音频生成的框架,具有长期的一致性。AudioLM将输入音频映射到一系列离散的标记,并将音频生成视为在这种表示空间中的语言建模任务。根据提示(语音/音乐),它可以完成生成。

2023年解锁:探索最新热门发布

2023年:GPT-4发布

GPT-4是OpenAI最先进的系统,产生更安全、更有用的回答。由于其更广泛的常识和问题解决能力,GPT-4能够更准确地解决复杂问题。它在创造力、视觉输入和更长的上下文方面超越了GPT-3.5。

2023年:Falcon的发布

Falcon LLM是一个基础的大型语言模型(LLM),由400亿个参数训练而成,使用一万亿个标记。Falcon在Hugging Face Open LLM排行榜上名列前茅。团队特别关注规模化的数据质量。他们在构建数据管道时非常注重使用广泛的过滤和去重技术提取高质量的网络内容。

2023年:Bard的发布

Google发布了Bard作为ChatGPT的竞争对手。Bard是一款由Google开发的对话式生成人工智能聊天机器人。基于PaLM基础模型,Bard可以进行对话互动,回答后续问题,承认错误,质疑错误前提,并拒绝不适当的请求。

2023年:MusicGen的发布

MusicGen是一个单阶段的自回归Transformer模型,能够根据文本描述或音频提示生成高质量的音乐样本。冻结的文本编码器模型将文本描述传递以获取一系列隐藏状态表示。

2023年:AutoGPT的发布

Auto-GPT是一个实验性的开源应用程序,展示了GPT-4语言模型的能力。这个由GPT-4驱动的程序将LLM“思想”链接在一起,以自主地实现您设定的任何目标。作为GPT-4完全自主运行的首个示例之一,Auto-GPT推动了人工智能的可能性边界。

生成式人工智能的迷人演进 四海 第8张

2023年:LongNet的发布

在大型语言模型时代,扩展序列长度已成为一个关键需求。然而,现有方法在计算复杂度或模型表现力方面遇到困难,限制了最大序列长度。LongNet是一种Transformer变体,可以将序列长度扩展到超过10亿个标记,而不会牺牲对较短序列的性能。

2023年:Voicebox的发布

Meta AI宣布了具有突破性的语音生成人工智能Voicebox。研究人员开发了Voicebox,这是一种最先进的人工智能模型,能够通过上下文学习执行语音生成任务,如编辑、采样和风格化,即使没有特定的训练。

2023年:LLaMA的发布

Meta AI推出了LLaMA,这是一组从70亿到650亿参数的基础语言模型。他们证明了可以仅使用公开可获得的数据集进行训练,而无需使用专有和不可访问的数据集,从而实现了最先进模型。其中,LLaMA-13B在大多数基准测试中超越了GPT-3(175B)。

结论

回顾生成式人工智能的时间线,我们见证了它如何克服挑战和限制,不断重新定义曾经被认为是不可能的事情。开创性的研究、先导性的模型和合作努力塑造了这个领域成为前沿创新的驱动力。

除了在艺术、音乐和设计方面的应用,生成式人工智能在医疗保健、金融和自然语言处理等各个领域都产生了重大影响,改善了我们的日常生活。这一进展为技术与人类之间的和谐共存提供了潜力,创造了无数机遇。让我们致力于发展这个卓越的领域,在未来的岁月中鼓励合作和探索。

Leave a Reply

Your email address will not be published. Required fields are marked *