Press "Enter" to skip to content

十年人工智能回顾

从图像分类到聊天机器人治疗

十年人工智能回顾 人工智能 第1张

过去十年是人工智能(AI)领域一段激动人心而又充满事件的旅程。对深度学习潜力的初步探索演变为一个爆炸性的领域,现在包括从电子商务中的推荐系统到自动驾驶车辆的物体检测和可以创建从逼真的图像到连贯文本的生成模型。

在本文中,我们将回顾一些关键突破,看看它们如何把我们带到今天的地步。无论您是一名经验丰富的AI从业者还是仅对该领域的最新发展感兴趣,本文都将为您提供一个全面的概述,介绍令人惊叹的进步如何使AI成为家喻户晓的名字。

2013年:AlexNet和变分自编码器

2013年被广泛认为是深度学习的“成年礼”,这是由于计算机视觉的重要进展所引发的。根据Geoffrey Hinton最近的一次采访,到2013年,“几乎所有的计算机视觉研究都转向了神经网络”。这种繁荣主要是由一项相当惊人的图像识别突破在一年前引起的。

2012年9月,深度卷积神经网络(CNN)AlexNet在ImageNet大规模视觉识别挑战赛(ILSVRC)中创下了创纪录的表现,展示了深度学习在图像识别任务中的潜力。它的前5个错误率为15.3%,比最接近的竞争对手低了10.9%。

十年人工智能回顾 人工智能 第2张

这个成功背后的技术改进对AI的未来轨迹起到了关键作用,并且显著改变了深度学习的看法。

首先,作者应用了一个由五个卷积层和三个完全连接的线性层组成的深度CNN ——这种建筑设计当时被许多人认为是不切实际的。此外,由于网络深度产生的大量参数,训练是在两个图形处理单元(GPU)上并行进行的,证明了能够显着加速大型数据集的训练。通过交换传统的激活函数,如sigmoid和tanh,而使用更高效的修正线性单元(ReLU),进一步缩短了训练时间。

十年人工智能回顾 人工智能 第3张

这些共同推动AlexNet成功的进步标志着AI历史的转折点,并在学术界和技术界引发了对深度学习的热潮。因此,许多人认为,2013年是深度学习真正开始起飞的拐点。

此外,在2013年也发生了其他事件,尽管被AlexNet的噪音所淹没,但是变分自编码器或VAEs的发展也在这一年——这是可以学习表示和生成数据(例如图像和声音)的生成模型。它们通过在一个低维空间中学习输入数据的压缩表示,即潜在空间,来生成新的数据。之后,VAEs被证明打开了新的生成建模和数据生成领域,并应用于艺术、设计和游戏等领域。

2014年:生成对抗网络

接下来的一年,即2014年6月,深度学习领域又见证了另一次重大进展,即Ian Goodfellow和同事提出了生成对抗网络或GANs。

GANs是一种能够生成类似于训练集的新数据样本的神经网络。基本上,两个网络同时进行训练:(1)一个生成器网络生成假样本;(2)一个鉴别器网络评估它们的真实性。这种训练是在类似于游戏的环境下进行的,生成器试图创建可以欺骗鉴别器的样本,而鉴别器试图正确地识别出假样本。

当时,GANs代表了一种强大而新颖的数据生成工具,不仅用于生成图像和视频,还用于音乐和艺术。它们还促进了无监督学习的进展,这是一个被认为发展不足和具有挑战性的领域,因为它们证明了在不依赖显式标签的情况下,能够生成高质量的数据样本的可能性。

2015年:ResNets和自然语言处理突破

2015年,人工智能领域在计算机视觉和自然语言处理(NLP)方面都取得了相当大的进展。

Kaiming He和他的同事发表了一篇名为“Deep Residual Learning for Image Recognition”的论文,其中他们介绍了残差神经网络(ResNets)的概念,这种架构允许信息通过添加快捷方式更轻松地流经网络。与常规神经网络不同,常规神经网络的每一层都将前一层的输出作为输入,而在ResNet中,添加了额外的残差连接,跳过一个或多个层并直接连接到网络中更深的层。

因此,ResNets能够解决梯度消失的问题,这使得训练比当时认为的更深的神经网络成为可能。这反过来又导致了图像分类和物体识别任务的显着改进。

与此同时,研究人员也在发展循环神经网络(RNNs)和长短期记忆(LSTM)模型方面取得了相当大的进展。尽管这些模型自1990年代以来就存在,但直到2015年左右才开始引起人们的关注,主要原因是(1)有更大更多样化的数据集可供训练,(2)计算能力和硬件的改进,使得可以训练更深层次、更复杂的模型,以及(3)沿途进行的修改,如更复杂的门控机制。

因此,这些架构使得语言模型能够更好地理解文本的上下文和含义,在语言翻译、文本生成和情感分析等任务上取得了巨大的进步。当时RNN和LSTM的成功铺平了今天我们看到的大型语言模型(LLMs)的发展道路。

2016: AlphaGo

在1997年Garry Kasparov被IBM的Deep Blue击败之后,另一场人类与机器的战斗在2016年震惊了游戏世界:谷歌的AlphaGo击败了围棋世界冠军李世石。

十年人工智能回顾 人工智能 第4张

李世石的失败标志着AI进步轨迹上的又一个重要里程碑:它证明了机器可以在曾经被认为对计算机过于复杂的游戏中击败即使是最熟练的人类选手。AlphaGo使用了深度强化学习和蒙特卡罗树搜索的组合,分析了来自先前游戏的数百万个位置,并评估了最佳走法——这种策略在这种情况下远远超过了人类的决策能力。

2017: Transformer Architecture and Language Models

可以说,2017年是铺就了我们今天所见到的生成式AI突破的最关键一年。

2017年12月,Vaswani和他的同事发布了开创性论文“Attention is all you need”,介绍了利用自我关注的概念来处理序列输入数据的Transformer架构。这使得处理长程依赖关系更加高效,而这在传统的RNN架构中曾经是一个挑战。

十年人工智能回顾 人工智能 第5张

Transformer由两个基本组件组成:编码器和解码器。编码器负责对输入数据进行编码,例如可以是一系列单词。然后,它采用多层自我关注和前馈神经网络来捕捉句子中的关系和特征,并学习有意义的表示。

基本上,自我关注允许模型理解句子中不同单词之间的关系。与传统模型不同,传统模型会按照固定的顺序处理单词,而Transformer实际上会同时检查所有单词。它会根据单词与句子中其他单词的相关性赋予每个单词一些称为注意力分数的东西。

另一方面,解码器接收来自编码器的编码表示,并生成输出序列。在机器翻译或文本生成等任务中,解码器根据从编码器接收到的输入生成翻译序列。类似于编码器,解码器也包含多层自我关注和前馈神经网络。但是,它还包括一个额外的注意机制,使其能够专注于编码器的输出。这使得解码器在生成输出时考虑到输入序列的相关信息。

Transformer架构已经成为LLMs发展的关键组成部分,并在NLP领域,如机器翻译、语言模型和问答方面取得了显着的改进。

2018: GPT-1、BERT和图神经网络

在 Vaswani 等人发表了他们的基础论文几个月后,OpenAI 在 2018 年 6 月推出了基于 Transformer 架构的生成式预训练模型 GPT-1,有效地捕捉文本中的长距离依赖关系。GPT-1 是第一批演示了无监督预训练后特定 NLP 任务微调的有效性的模型之一。

同时,谷歌也利用还相对新颖的 Transformer 架构,在 2018 年末发布并开源了他们自己的预训练方法 BERT。与以前的单向文本处理模型(包括 GPT-1)不同,BERT 同时考虑每个词的上下文。为了说明这一点,作者提供了一个非常直观的例子:

在句子“I accessed the bank account”中,单向上下文模型会根据“I accessed the”而不是“account”来表示“bank”。然而,BERT 使用它的前后上下文——“I accessed the … account”——从深度神经网络的最底层开始表示“bank”,使其成为深度双向模型。

双向性的概念非常强大,使 BERT 在各种基准任务上优于最先进的 NLP 系统。

除了 GPT-1 和 BERT,图神经网络(GNN)在那一年也引起了一些关注。它们属于专门设计用于处理图数据的神经网络类别。GNN 使用消息传递算法在图的节点和边之间传播信息。这使得网络以更直观的方式学习数据的结构和关系。

这项工作允许从数据中提取更深入的洞见,因此扩大了深度学习可以应用于的问题范围。使用 GNN,社交网络分析、推荐系统和药物发现等领域取得了重大进展。

2019 年:GPT-2 和改进的生成模型

2019 年标志着生成模型中几个值得注意的进展,特别是 GPT-2 的推出。这个模型通过在许多 NLP 任务中实现最先进的性能,并且能够生成高度逼真的文本,使其在同行中脱颖而出。

该领域的其他改进包括 DeepMind 的 BigGAN,它生成的高质量图像几乎无法与真实图像区分,以及 NVIDIA 的 StyleGAN,它允许更好地控制生成的图像的外观。

总的来说,这些现在被称为生成 AI 的进展将该领域的边界推向了更远,而…

2020 年:GPT-3 和自监督学习

…不久之后,另一个模型诞生了,即 GPT-3,它已成为技术界之外的家喻户晓的名称。这个模型在 LLMs 的规模和功能方面迈出了重要的一步。为了把事情放到上下文中,GPT-1 只有 1.17 亿个参数。GPT-2 的参数数量增加到 15 亿,GPT-3 的参数数量则增加到 1750 亿。

这么多的参数空间使 GPT-3 能够在广泛的提示和任务中生成非常连贯的文本。它还在各种 NLP 任务中展示了出色的性能,如文本完形填空、问答和创意写作。

此外,GPT-3 再次突显了使用自监督学习的潜力,这使得模型可以在大量未标记的数据上进行训练。这有一个优点,即这些模型可以在不需要广泛的任务特定训练的情况下获得广泛的语言理解,从而使其更经济实惠。

Yann LeCun 在推特上发布了一篇关于自监督学习的 NYT 文章。

2021 年:AlphaFold 2、DALL·E 和 GitHub Copilot

从蛋白质折叠到图像生成和自动化编码协助,2021 年因 AlphaFold 2、DALL·E 和 GitHub Copilot 的发布而充满了活力。

AlphaFold 2被誉为解决几十年来的蛋白质折叠难题的期待已久的解决方案。DeepMind的研究人员扩展了变压器架构,创建了evoformer块-利用进化策略进行模型优化的架构,以构建能够基于其1D氨基酸序列预测蛋白质的3D结构的模型。这一突破具有革命性的潜力,可以彻底改变药物研发、生物工程以及我们对生物系统的理解。

OpenAI今年也再次成为新闻焦点,发布了DALL·E。本质上,该模型将GPT式语言模型和图像生成的概念结合起来,以便从文本描述中生成高质量的图像。

为了说明这个模型的强大之处,请考虑下面的图像,它是使用提示“带有飞行汽车的未来世界的油画”生成的。

十年人工智能回顾 人工智能 第6张

最后,GitHub发布了后来成为每个开发者最好的朋友的Copilot。这是与OpenAI合作实现的,后者提供了基础语言模型Codex,该模型在大量公开可用的代码上进行了训练,从而学会了理解和生成各种编程语言的代码。开发人员可以通过简单地提供一个代码注释来使用Copilot,说明他们正在尝试解决的问题,然后模型会建议实现解决方案的代码。其他功能包括描述自然语言中的输入代码以及在编程语言之间进行代码转换的能力。

2022年:ChatGPT和Stable Diffusion

过去十年人工智能的快速发展在OpenAI的ChatGPT中达到了一个重大的突破,ChatGPT是一种聊天机器人,于2022年11月发布。这个工具代表了自然语言处理中的尖端成就,能够生成连贯且与上下文相关的回答,回答各种查询和提示。此外,它还可以参与对话、提供解释、提供创意建议、协助解决问题、编写和解释代码,甚至模拟不同的个性或写作风格。

十年人工智能回顾 人工智能 第7张

与机器人交互的简单直观界面也刺激了可用性的急剧增长。过去,主要是技术社区会玩转最新的基于人工智能的发明。然而,如今,人工智能工具已经渗透到几乎所有的专业领域,从软件工程师到作家、音乐家和广告商。许多公司还使用该模型自动化服务,如客户支持、语言翻译或回答常见问题。事实上,我们正在看到的自动化浪潮引发了一些担忧,并引发了关于哪些工作可能面临被自动化的风险的讨论。

尽管ChatGPT在2022年占据了很多的舞台,但图像生成方面也取得了重大进展。在2022年,Stability AI发布了一种潜在文本到图像扩散模型Stable diffusion,该模型能够根据文本描述生成逼真的照片。

Stable diffusion是传统扩散模型的扩展,它通过在图像上迭代地添加噪声,然后反转过程以恢复数据来工作。它被设计为在低维表示或潜在空间上操作,以加快此过程。此外,扩散过程通过向网络添加用户的变压器嵌入文本提示进行修改,从而允许其在每次迭代过程中引导图像生成过程。

总的来说,2022年发布的ChatGPT和Stable Diffusion突显了多模态、生成式人工智能的潜力,并引发了这个领域进一步发展和投资的巨大推动。

2023年:LLMs和机器人

当前的一年无疑是LLMs和聊天机器人的一年。越来越多的模型正在以不断增加的速度开发和发布。

十年人工智能回顾 人工智能 第8张 图片由作者提供。

例如,Meta AI于2月24日发布了LLaMA,一种比GPT-3表现更好的LLM,尽管参数数量较少。不到一个月后,即3月14日,OpenAI发布了GPT-4,这是GPT-3的更大、更能干和多模态版本。尽管GPT-4的确切参数数量未知,但据推测应该在万亿级别。

3月15日,斯坦福大学的研究人员发布了Alpaca,这是一种轻量级语言模型,它是从LLaMA上进行指令跟踪演示的微调而来的。几天后,即3月21日,谷歌推出了其ChatGPT竞争对手:Bard。谷歌还在本月10日发布了最新的LLM PaLM-2。由于该领域的不断发展速度,当您阅读本文时,很可能已经出现了另一个模型。

我们还看到越来越多的公司将这些模型纳入其产品中。例如,Duolingo宣布推出了由GPT-4驱动的Duolingo Max,这是一种旨在为每个人提供量身定制语言课程的新订阅级别。Slack也推出了一个名为Slack GPT的AI助手,可以完成草拟回复或总结线程等任务。此外,Shopify推出了一款ChatGPT驱动的助手,可以通过各种提示帮助客户识别所需产品。

Shopify在Twitter上宣布推出了由ChatGPT驱动的助手。

有趣的是,现在甚至将AI聊天机器人视为人类治疗师的替代品。例如,美国聊天机器人应用Replika为用户提供了一个“关心你的AI伴侣,时刻在这里倾听和交谈,时刻站在你这边”。其创始人Eugenia Kuyda表示,该应用的客户范围广泛,从自闭症儿童,他们将其视为“人际交往前的热身”,到孤独的成年人,他们只是需要一个朋友。

在结束之前,我想强调过去十年AI发展的高潮:人们实际上正在使用Bing!今年早些时候,Microsoft推出了其定制了搜索功能的GPT-4驱动的“网络联合驾驶员”,这是有史以来第一次成为谷歌长期占据搜索业务主导地位的严肃竞争对手。

回顾和展望

当我们回顾过去十年的AI发展时,我们会发现我们正在见证一场对我们工作、做生意和相互交往产生深远影响的转型。最近取得的大部分显著进展,特别是LLM的进展,似乎坚持着“越大越好”的共识,这指的是模型的参数空间。这在GPT系列中尤其明显,该系列从117万个参数(GPT-1)开始,每个连续模型的参数增加约一个数量级,最终在GPT-4中达到了数万亿个参数。

然而,根据最近的一次采访,OpenAI CEO Sam Altman认为我们已经到达了“越大越好”的时代的终点。未来,他仍然认为参数计数会趋于上升,但未来模型改进的主要重点将是提高模型的能力、效用和安全性。

后者尤其重要。考虑到这些强大的AI工具现在已经落入普通公众手中,不再局限于研究实验室的受控环境中,现在比以往任何时候都更加关键,我们要谨慎行事,确保这些工具是安全的,并符合人类的最佳利益。希望我们在AI安全领域看到与我们在其他领域看到的同样多的发展和投资。

PS:如果我遗漏了你认为应该包括在本文中的核心AI概念或突破,请在下面的评论中让我知道!

Thomas A Dorfer是Microsoft的数据和应用科学家。在担任现任职务之前,他曾在生物技术行业担任数据科学家,在神经反馈领域担任研究员。他拥有整合神经科学硕士学位,在业余时间还在小猪AI上撰写有关数据科学、机器学习和AI的技术博客文章。

原文。经过允许发布。

Leave a Reply

Your email address will not be published. Required fields are marked *