Press "Enter" to skip to content

掌握合成数据生成 应用与最佳实践

企业应将数据视为最深层的机密,因为它在数字领域中产生持久影响。在追求相同目标时,合成数据是一种模拟实际数据的武器,能够实现许多数据功能,而不会泄漏PII。尽管其效用低于实时数据,但在许多用例中仍然具有相等的价值。

例如,Deloitte生成了80%的训练数据,使用合成数据源从ML模型中获取。

为了获得高质量的合成数据,我们需要同样优秀的数据生成平台,以满足企业的动态需求。

关键合成数据用例是什么?

合成数据生成有助于构建准确的ML模型。特别是在企业需要训练其ML算法,可用数据集极度不平衡的情况下,合成数据生成非常有用。在选择数据平台之前,让我们快速了解可能的用例。

  • 合成数据可为软件QA过程提供更好的测试环境,从而提高产品性能。
  • 在生产数据不存在或稀缺时,合成数据补充ML模型的训练。
  • 通过分发合成数据而不披露PII集合,授权第三方和合作伙伴。金融和患者数据是主要示例。
  • 设计师可以使用合成数据在受控环境中设置评估产品性能的基准。
  • 合成数据可进行行为仿真,以测试和验证假设。

合成数据生成的最佳实践是什么?

  • 确保数据清洁:这是任何数据实践的首要原则。为避免垃圾数据导致垃圾输出的情况,请确保进行数据协调。这意味着来自不同来源的相同数据属性映射到同一列。
  • 确保用例相关性:不同的合成数据生成技术适用于不同的用例。评估所选生成技术是否适用。
  • 保持统计相似性:统计属性应匹配并保持原始数据集的特征。还包括保持属性不变。
  • 维护数据隐私:实施适当的保护隐私措施,以保护生成数据中的敏感信息。这可能涉及匿名化、泛化或不同的隐私技术
  • 验证数据质量:充分验证合成数据与原始数据的质量。评估其统计属性、分布模式和相关性的相似性。

企业的合成数据生成

现在,基于实体的数据管理是一种与我们迄今讨论的方法完全不同的方法。简单来说,仅存储或生成特定业务实体的数据可以确保一致性和最优利用。基于实体的方法创建了虚假但上下文相关的数据集,带来了参考完整性。

例如,在医疗保健领域,该方法可以创建具有真实医疗历史的患者记录,确保隐私的同时保持研究和分析目的的准确性。同样,它还可以为客户、设备、订单等业务实体创建人工但几乎准确的数据集。

基于实体的合成数据生成对于在模拟数据集中保持参考完整性和特定上下文的准确性非常重要,为测试、分析和机器学习模型训练等多样化的业务应用提供了基础策略。以下是关键优势的快速介绍:

  • 焦点实体生成:确保每个业务实体的相关数据在各个系统中都是准确和一致。
  • 与实体模型的引用完整性:作为一个全面指南,组织和分类字段以在生成过程中维护引用完整性。
  • 技术多样性:利用生成式人工智能生成有效和一致的数据,基于规则的引擎用于特定字段规则,实体克隆用于复制带有新标识符的实体,数据屏蔽用于安全配置。
  • 应用一致性:无论是训练人工智能模型还是为测试提供数据安全,基于实体的方法都能保证合成数据的一致性和准确性,在每个阶段都能保持引用完整性。

虽然过去有许多产品尝试了基于实体的模型,但只有少数产品取得了成功。然而,K2View成为首个为其数据织物和网格产品引入和专利基于实体模型的产品。该织物在一个独立的微型数据库中存储每个业务实体的数据,同时存储数百万条记录。他们的合成数据生成工具涵盖了从数据采集、子集提取、数据处理到其他操作的整个生命周期。该解决方案为训练机器学习模型提供了精确、合规且逼真的合成数据,受到多家财富500强企业的信任。

相比之下,像Gretel和MOSTLY AI这样的合成数据生成器虽然没有基于实体的模型,但提供了独特的优势:

Gretel为机器学习工程师提供了APIs,促进了匿名化和安全的合成数据的创建,同时维护了隐私和完整性。

与此同时,较新的平台MOSTLY AI专门模拟真实世界的数据并保留详细的信息细粒度,同时保护敏感数据。

结论 

鉴于合规性要求的加强,如GDPR,企业必须谨慎行事。否则,无论意外还是有意的违规行为都可能面临巨额罚款。选择合适的合成数据平台将使企业能够在跨国界无缝运营。

Leave a Reply

Your email address will not be published. Required fields are marked *