大型模型与大数据相遇：Spark和LLMs的和谐

数据工程与生成式人工智能

使用Apache Spark和大语言模型的逐步指南

生成式人工智能（包括大型语言模型）正在革新人类生活的不同方面。在过去的五年中，生成式人工智能从一个研究项目发展成为许多人的现实应用。作为一个对生成式人工智能感兴趣的数据工程师，我一直在问自己，这项技术对我的工作和数据工程应用有什么帮助？对于工程师来说，生成式人工智能和大型语言模型的一些常见应用包括示范编码、辅助文档编写等。但是在这里，我将评估生成式人工智能和大型语言模型在数据工程领域更专业的用途。如果您对此话题感兴趣，请阅读本文并关注我的VoAGI和Linkedin以获取更多关于其他用例的文章。

大型语言模型（LLM）：强大的转换工具

数据工程师喜欢结构化和抽象化的数据并不是什么新鲜事。但是，世界上充满了非结构化和无组织的数据，需要数据工程师的关注。对于非结构化数据的转换总是复杂的，有时对于传统工具来说几乎是不可能的。历史上，其中一个具有挑战性的非结构化数据就是文本（例如评论、评价、对话）。简单的文本转换并不是什么大问题，但是复杂的转换可以从文本中提取更多信息，我们可以生成更丰富的数据集。

复杂的文本转换例子可以包括从文本中提取名称和对象，对评论或评论进行情感分析，屏蔽存储文本中的重要信息（例如个人数据、用户数据），将文本从一种语言翻译成标准语言，文本摘要等等。好消息是现在大型语言模型可以完成各种这些转换。因此，我相信在数据工程中大型语言模型的应用之一是作为处理复杂数据（例如文本）的转换函数。

在本文中，我将展示通过强大的分布式数据处理系统Apache Spark来展示大型语言模型的这种能力。具体来说，我将使用一个小型的大型语言模型…