能否使用LLMs逆向工程一个合并的数据集来设计原始数据库并建议相应的数据质量检查?
在我之前关于如何利用生成式人工智能进行数据活动的帖子的连续性中,我想探索这个用例,其中一个数据团队从一个功能(比如人力资源)接收到一个合并的数据集,并需要在他们的数据平台中重新设计一个适当的数据模型来处理未来的查询。
我们将比较GPT-4和Bard的答案,以确定哪个模型提供了更相关的答案。
(注意:笔记本和数据源可以在文章末尾找到)
初始(和最终)数据集
有时,业务解决方案只允许您以报告的形式从其专有系统中提取信息…如果您幸运的话,它们甚至可能通过API访问。
这是在“MyCompany”这里的情况,其中人力资源信息系统(HRIS)遗留系统只能提供一个包含所有员工的提取,其中包含有关公司的许多详细信息,其中一些是机密的。
根据数据网格原则,人力资源团队希望公开这些数据,但他们也理解到报告不能被直接使用,更不用说触发类似“薪水”、“年龄”或“年度评估”的某些列的机密性问题。
逆向工程数据模型
当与数据团队互动时,桌上的每个人很快就会明白这个数据集不能广播给所有的功能/员工,而且需要将其拆分成多个表。
其中一些表可以为许多其他分析或用例提供支持:
- 内部部门列表
- 员工列表,包括他们的电子邮件、部门、国家和位置