Snorkel AI的首席执行官兼联合创始人 Alex Ratner – 面试系列

亚历克斯·拉特纳是Snorkel AI的首席执行官兼联合创始人，这是一家由斯坦福人工智能实验室孵化出来的公司。

Snorkel AI通过将手动的人工智能开发流程转化为编程解决方案，使人工智能开发变得快速和实用。Snorkel AI使企业能够使用自有数据和知识10-100倍快速地开发适用于其独特工作负载的人工智能。

最初是什么吸引您从事计算机科学？

当你年轻时，计算机科学有两个非常令人兴奋的方面。一是你可以通过尝试和构建来自由地学习，得到即时的反馈，而不必等待老师。二是你可以构建很多东西，而无需征求任何人的许可！

出于这些原因，我在很小的时候就开始了编程。我也喜欢它所需要的精确性。我喜欢将复杂的过程和例程抽象化，然后以模块化的方式对其进行编码的过程。

后来，作为一个成年人，我通过一份咨询工作重新步入了计算机科学的行列，我的任务是编写脚本对专利语料库进行一些基本分析。我被人类知识的多少——任何被认为可以申请专利的东西——是如此容易获得，却又如此难以接触，因为要对复杂的技术文本和多模态数据进行即使是最简单的分析都非常困难所迷住了。

这就是我重新探索计算机科学的原因，最终回到了斯坦福大学攻读自然语言处理的研究生学位，这是关于在自然语言上使用机器学习/人工智能的领域。

您在斯坦福时首次开始并领导了Snorkel开源项目，您能为我们讲述一下早期的这段旅程吗？

那时，和业界的许多人一样，我们关注的是开发新算法和——也就是社区中研究人员研究并发表论文的所有“花哨”的机器学习内容。

然而，我们始终致力于将这些内容应用于现实世界的问题——主要与斯坦福的医生和科学家合作。但每当我们提出一个新模型或算法时，反应总是“可以尝试一下，但我们需要那些我们没有时间创建的标记训练数据！”

我们发现尚未被提及的大问题在于标记和管理这些训练数据的过程，因此我们将所有注意力转向了这个问题，这就是Snorkel项目和“以数据为中心的人工智能”概念的起源。

Snorkel采用以数据为中心的人工智能方法，您能定义一下这是什么意思，以及它与以模型为中心的人工智能开发有何不同？

以数据为中心的人工智能意味着关注构建更好的数据以构建更好的模型。

这与以模型为中心的人工智能相对立，但两者可以共同工作。在以模型为中心的人工智能中，数据科学家或研究人员假设数据是静态的，并将精力投入调整模型架构和参数以取得更好结果。

研究人员在以模型为中心的人工智能方面仍然做着出色的工作，但现成的模型和自动化机器学习技术已经大大改进，以至于模型选择在生产时已经成为商品化。在这种情况下，改进这些模型的最佳方式是为其提供更多更好的数据。

以数据为中心的人工智能方法的核心原则是什么？

以数据为中心的人工智能的核心原则很简单：更好的数据建立更好的模型。

在我们的学术研究中，我们将之称为“数据编程”。其思想是，如果你给一个足够稳健的模型足够多的输入示例和预期输出，模型就会学会如何复制这些模式。

这带来了比你预期更大的挑战。绝大多数数据都没有标签，或者至少对你的应用程序没有有用的标签。通过手工标记数据需要枯燥、时间和人力的努力。

拥有一个带有标签的数据集也不保证质量。人为错误无处不在。您的基准数据中每个错误示例都会降低最终模型的性能。任何参数调整都无法掩盖这个事实。研究人员甚至在基础开源数据集中发现了错误标记的记录。

您能详细解释一下以数据为中心的人工智能方法如何成为一种程序化方法吗？

手动标记数据存在严重的挑战。这样做需要大量人力工时，有时这些人力工时非常昂贵。例如，医疗文件只能由医生进行标记。

此外，手动标注常常只用于单次项目。标注人员根据严格的模式对数据进行注释。如果企业需求变化并需要不同的标签集，标注人员必须从头开始。

面向数据中心的AI的程序化方法可以最小化这两个问题。Snorkel AI的程序化标注系统整合各种信号，从旧模型到现有标签再到外部知识库，以便在大规模上开发概率标签。我们主要的信号来源于主题专家与数据科学家合作建立标注函数。他们将专业判断编码为可扩展的规则，使一次决策的投入能够影响数十甚至数百个数据点。

此框架也很灵活。用户在业务需求变化时无需从头开始，而是通过添加、删除和调整标注函数以在几小时内应用新标签。

这种以数据为中心的方法如何加速对未标记数据的扩展？

我们的以数据为中心的程序化方法通过放大每个选择的影响，实现对未标记数据的快速扩展。一旦主题专家建立了初始的一小组准确数据，他们便开始与数据科学家合作进行快速迭代。他们定义几个标注函数，进行快速模型训练，分析标注函数的影响，然后根据需要添加、删除或调整标注函数。

每个周期都会改善模型性能，直到达到或超过项目的目标。这可以将数月的数据标注工作缩短到几小时。在一个Snorkel研究项目中，我们的两名研究人员在一天内标注了2万份文档，而手动标注人员可能需要十周甚至更长时间。

Snorkel提供了多种AI解决方案，包括Snorkel Flow、Snorkel GenGlow和Snorkel Foundry。这些产品之间有什么区别？

Snorkel AI套件使用户能够创建标注函数（例如在文档中查找关键字或模式），以便能够在几分钟内以程序化方式标记数百万个数据点，而不是手动逐个标记数据点。

它压缩了将专有数据转化为可供生产使用的模型所需的时间，并开始从中提取价值。Snorkel AI允许企业通过高效地整合人工判断和主题专家知识来扩展人机协作方法。

这将实现更加透明和可解释的人工智能，使企业能够管理偏见并提供负责任的产出。

深入探究，Snorkel AI使得财富500强企业能够：

开发高质量标记数据以训练模型或改进RAG；
通过调整优化自定义大型语言模型；
将大型语言模型精简为更小、更便宜的专用模型；
通过预训练构建特定领域和任务的大型语言模型。

您曾写过一些有突破性的论文，您认为哪一篇是最重要的论文？

其中一篇关键论文是关于数据编程（以程序化方式标记训练数据）以及关于Snorkel的论文。

您对Snorkel的未来有什么愿景？

我认为Snorkel将成为所有对人工智能感兴趣的大型企业的值得信赖的合作伙伴。

Snorkel Flow应成为大型企业数据科学团队普遍使用的工具，无论他们是为其组织调整自定义大型语言模型、构建图像分类模型还是构建简单易部署的逻辑回归模型。

无论企业需要何种类型的模型，他们都需要高质量的标记数据来进行训练。

感谢您的精彩采访，希望想了解更多的读者可以访问Snorkel AI。