生成式人工智能改变公司处理数据的5种方式（以及不改变的方式）

风险投资、雪花和其他专家讨论生成AI如何使数据团队受益及他们必须解决的挑战。

图像由DiffusionBee生成，作者提供。 — 图像由作者提供，由DiffusionBee生成。

生成AI并不是一个新概念。它已经被研究了几十年，并在有限的范围内应用。直到2022年底，ChatGPT才震惊了我们的集体意识。

然而，生成意大利千层面的食谱与将生成AI能力融入业务或将大型语言模型（LLMs）整合到数据工程工作流程中是完全不同的过程。

变革正在来临，但组织如何对待数据以及仍需克服哪些障碍将会带来什么影响？为了回答这个问题，我们召集了：

Kristen Werner，数据科学与工程总监，Snowflake
Tomasz Tunguz，常务合伙人，Theory Ventures
Lior Gavish，联合创始人兼首席技术官，Monte Carlo

他们的经验包括创建新技术、为大量的GenAI初创企业提供资金支持，并帮助数千家客户利用AI从数据中获取更多价值。

尽管他们对“生成AI有多少炒作”的估计从50%到20%不等，但每个小组成员都同意这项具有变革性的技术今天已经具备了实际应用，并具有巨大潜力。所以让我们来看一下一些重复出现的主题。

本文内容：

5个生成AI的好处

#1- 增加数据可访问性
#2- 从数据和图表分析中提取见解
#3- 让非结构化数据发挥作用
#4- 加速数据管道开发
#5- 降低成本（也许是收入生成）

5个生成AI的挑战

#1- 幻觉、可靠性和信任
#2- 解决自身问题
#3- 安全性和隐私
#4- 基础设施和解决方案还处于早期阶段
#5- 技能转变

5个生成AI的好处

在Gen AI领域，很难区分事实与虚构，实际应用与蛇油。以下是生成AI为组织和数据团队提供价值的一些现有和可能的方式，无论是今天还是在不久的将来。

#1- 增加数据可访问性

在数据领域内，生成AI最容易的目标是非技术用户能够输入自然语言提示，以生成SQL查询来检索特定的数据点。

“将文本转为SQL是无处不在的，”Tomasz说。“OpenAI正在开发它。你可以在BI层、数据探索工具中找到它。我认为这是非常容易实现的。”

自动化SQL查询可以彻底使非技术用户获得数据的可访问性，从而加快价值实现的时间。

“我认为AI为那些不熟悉数据的人提供了可能性…他们可以真正获得有意义的数据、有意义的见解，”Lior说。“即使对于懂得SQL的人来说，它也会加速这个过程。所以我们将把数据交到更多人手上。”

像Snowflake这样的数据平台正在投资于如何通过生成AI不仅生成SQL，而且重新构想用户数据体验。Kristen谈到了数据云的一个实验性功能，目前正在开发中，旨在将LLMs、SQL查询和数据可视化联系起来。

“价值链可能需要很长时间来生成正确的数据，然后获得令人满意的最终用户体验。是推送通知吗？是仪表板吗？是BI报告吗？”她说。“我对AI能够简化这些步骤并允许最终用户更快地更垂直地进入堆栈并获得更好的最终体验的能力感到非常兴奋…尽管现在还不是，但我认为它将会实现。”

#2- 从数据和图表分析中提取洞察

图表分析可能很快就会由Gen AI完成。照片由Chris Liverani在Unsplash上提供

生成式人工智能可以通过进一步提取洞察从数据中产生影响，而不仅仅是查询和可视化数据。事实上，这已经是Tomasz已经在使用的过程。

他说：“ChartGPT是一个专注于图表数据的特殊产品。如果有人玩过[ChatGPT]代码解释器，那真的很疯狂。”他说：“你可以将一家上市公司的Excel电子表格上传到代码解释器中，并要求它总结‘Google财报后的状态’，它将产生一些重要的洞察。”

#3- 利用非结构化数据

我们的专家小组对生成式人工智能有能力从非关系型数据源中提取价值感到兴奋。

Lior说：“世界上有很多非结构化数据。需要专门的技能和工具来分析文本和图像数据。”你可以想象Gen AI从这些文本和图像数据集中提取结构，并以与我们处理关系型数据相同的方式进行利用。

Tomasz将这个过程称为“信息压裂”。

他说：“在我们的创业公司中，我们收集了大约10,000份文件…大约两周前，我们仅通过对这些文件进行大量的文本文件压裂，就为一个名为生成式RPA的领域制作了我们的第一份投资备忘录摘要。”

Snowflake和其他数据平台正在发布可以加快数据团队实现这一目标的功能。

她说：“由于我们收购了Applica，Document AI作为一个不断发展的项目。这个用例的真正目的是读取和解释文件。”她说：“这可以用于人力资源、采购合同等等…我遇到的客户拥有大量的数据，他们希望从中获取价值。”

Document AI是在最近的Snowflake峰会上推出的。照片由作者拍摄。

#4- 加快数据管道开发

生成式人工智能可能会改变数据管道架构，但它肯定可以让数据工程师更快地构建和部署它们。

Lior说：“Gen AI已经非常擅长编写SQL、Python、Scala或其他你正在编写管道的语言。因此，我们将看到Gen AI使工程师在构建这些解决方案时更加高效和快速。”他说：“我不确定它是否会提高10倍的效率，但对于很多团队来说，它肯定会提高20%或30%的效率，这对他们来说是有意义的。”

然而，Lior迅速指出，AI不太可能执行数据建模和理解数据源如何相互关联的活动，他说：“我认为在可预见的未来，这仍然需要人类来完成。”

#5- 降低成本（也许增加收入）

目前是一个降低成本的环境，许多组织都将如何利用生成式人工智能来帮助实现这些目标作为重点。

Kristen说：“改善盈利能力有两种途径。一种是通过增加收入，这更多是面向外部的，而且会遇到很多问题。”她说：“另一种提高盈利能力的方法是在内部降低成本…很多人问，‘我们如何使用人工智能来降低内部成本？’然后希望有很多经验教训可以帮助构建通往更多外部和增收用例的路径。”

5个生成式AI的挑战

现在我们都为AI的可能性而陶醉，是时候清醒一下，面对一些非常真实的挑战和限制了。这些挑战包括：

#1 – 幻觉、可靠性和信任

现在我们已经相当了解了大型语言模型的幻觉现象，或者换句话说，它们自信地产生错误的结果。这是一个挑战，因为我们经常将推理充分的论点与正确的论点混为一谈。

“我们已经看到了一些挑战，无论是幻觉还是在非通用领域中使生成式AI工作的挑战…我认为所有这些仍然是重大挑战，” Tomasz说。

然而，这不仅仅是幻觉。像分析仪表板和机器学习应用程序一样，生成式AI模型的可靠性和可信度也只取决于其所访问或训练的基础数据的可靠性。这些并不是新问题，但它们将更加普遍，并需要更具可扩展性的解决方案。

“选择使用哪个数据集，如何验证它，如何清理它，以及如何将其组合起来，以回答业务问题[当您在循环中有]更少的分析师时，这些都将加剧存在的一些治理问题，” Lior说。”您如何确定哪些数据集可信，哪些有用，以及如何拥有正确的元数据和文档，使数据对模型有用呢？”

底层数据堆栈也将作为生成式AI了解底层数据的关键指南。

“如果您要求模型根据其对世界其他部分的了解来解释您的业务，那么世界其他部分不知道您如何解释您的业务，” Kristen说。”您在数据堆栈的基础层之中，将业务逻辑融入到哪里，以服务于每个后续层？我认为在数据堆栈的基础层中，围绕您的业务制定一些关键规则，无论是与实体相关还是嵌入关系，都将为[模型的速度和准确性]提供服务。”

#2 – 解决自身的问题

Tomasz分享了使用生成式AI进行更广泛任务时的相关经验：

“我正在准备一个演讲，我想绘制一个特定GitHub存储库的GitHub星标增长情况。所以有两三段代码我需要构建。所以我让机器人生成一个爬虫来获取信息。然后另一部分是实际绘制，然后我想自动化它，让它可以遍历一系列的存储库，”他说。”它很难将这样一个庞大的问题分解成个别的任务，然后再组合起来。”

他还对生成式AI模型在犯错后很难走出困境表示了不满。

“[当]它走上错误的道路，代码不能执行时，它很难忘记它犯过的错误，并且它想要继续改进，您必须重新启动会话。它有非常非常持久的记忆，”他说。

#3 – 安全和隐私

根据Tomasz的说法，这可能是广泛采用生成式AI的最大障碍。

“许多[财富2000强的银行和公司]已经完全封锁了[生成式AI]。我认为他们中的很多人都在等待AI产品在Azure VPC内部交付，这样他们就可以控制它，”他说。”在云中，我们转向了多租户，在同一台机器上有多个客户…对于LLM，客户会接受这一点吗，或者我们实际上需要为每个客户提供一个LLM？”

这个行业正在初步解决这些问题，但目前已经有四种主要方法来解决这些安全和隐私挑战：

禁止使用
定期告诉LLM“忘记我的所有数据，不要用它来训练”
使用一个中间层来拦截个人身份信息
接受风险

解决方案通常由使用情况决定。生成一个模板化的网站比客户服务更少风险，因为客户信息和信用卡可能会被处理。

当然，如果没有提到提示注入和与SQL注入相关的相关xkcd，这将不是一个生成式AI讨论。

#4- 我们在基础设施和解决方案方面还处于早期阶段

要解决治理、可靠性、安全性和其他生成式人工智能挑战，需要一个强大的基础设施，而这样的基础设施目前尚不完善。

“在基础设施和解决方案方面，现在仍然是早期阶段。当我们谈论Gen AI时，对于大多数人来说，这意味着使用OpenAI的API。有一些人可能会尝试一些开源模型和向量数据库，但我认为这方面的工具还处于早期阶段，”Lior说道。

分类和访问控制是另外两个挑战，支持基础设施可以帮助解决这些问题。

“数据分类是一个难题。当你考虑到访问控制以及大规模访问控制时…你必须已经对分类有一定的了解，”Kristen说道。“我们在这个领域花费了很多时间，并且在Snowflake中有一些原生功能。”

PII实际上并不难解决，但我认为重点是让人们能够创建自定义分类器。因为宇宙是无限的，如果你考虑什么构成商业机密或客户数据，这在公司内部可能是动态的。”

#5- 技能需求的转变

讨论的最长部分可能是围绕着新兴生成式人工智能技能需求的增长以及在企业中部署这些大型语言模型将导致的工作人员转变。

最大的赢家是数据团队，他们将迎来对其服务的指数性需求，尤其是对不同生成式人工智能模型的评估和微调。

“我认为一些[责任]将转移到数据团队，因为他们需要确保输出的准确性以及所使用的解决方案是否符合业务所适用的任何规定，”Tomasz说道。“他们将负责从最初的评估到持续的维护。因此，我认为数据团队将会壮大。”

Lior指出，过去的技术进步表明不太可能会减少数据人员，而是我们将从数据中创造更多的价值。

“我们在过去的软件方面一次又一次地看到了这一点。我们从汇编语言发展到了Python，这种语言更加高效。但这是否意味着我们拥有更少的软件工程师？不，我们拥有更多的工程师，世界上也有更多的软件。我认为这种情况在可预见的未来都会持续下去，”他说道。

这种需求增长的一个挑战将是弥合技能差距，正如Kristen所强调的。

“我看到的势头是，在OpenAI之前，试图通过使更多的人能够使用SQL来弥合技能差距。管理所有基础设施、模型以及我们谈到的LLM，我觉得这更深入地涉及到堆栈中的内容…这不是更多的SQL分析师，而是一个不同的角色。”

对于数据团队来说是一个令人兴奋的时刻

正如我们的专家小组明确表示的那样，生成式人工智能将对组织如何思考和从数据中提取价值产生重大影响…只是可能需要比那些Twitter上的帖子所声称的更长的时间。

现在是身处数据领域并有机会解决这些重要挑战的令人兴奋的时刻。

谢谢阅读！ 关注我 在VoAGI上获取更多关于数据工程、数据质量和相关主题的故事。 订阅 以便将我的故事发送到您的收件箱。