lishan|合成数据指南：定义、生成及类型、技术和工具

前几天看了关于2024年数据管理的趋势的文章，文章中提到的一个趋势就是在2024年企业将会使用相关技术如AI生成更多的合成数据、更多地利用合成数据实现企业商业价值。

那什么是合成数据，为什么它会是2024年的数据使用趋势，它与数据增强、数据匿名化有什么关系，它们的区别是什么？

合成数据可以定义为人工注释的信息。它是由计算机算法或模拟生成的。合成数据生成通常是在真实数据不可用或由于个人身份信息（PII）或合规风险而必须保密时完成的。它广泛应用于健康、制造、农业和电子商务领域。

1. 什么是合成数据？

2. 为什么需要合成数据？

3. 合成数据生成

3.1. 真实数据与合成数据

3.2. 合成数据的优势

3.3. 合成数据的特征

3.4. 合成数据的使用

4. 合成数据的类型

5. 合成数据的多样性

6. 合成数据生成方法

6.1. 基于统计分布

6.2. 基于代理建模

6.3. 使用深度学习

7. 合成数据生成工具

8. 使用基于 Python 的库生成合成数据

9. 使用合成数据时的挑战和局限性

10. 使用合成数据的实际应用

11. 合成数据的未来

12. 合成数据VS数据增强VS数据匿名化

结束语

1、什么是合成数据？

合成数据不是由现实世界的事件生成的信息，而是人工生成的信息。它是使用算法创建的，用于测试操作数据的数据集。这主要用于验证数学模型和训练合成数据深度学习模型.

使用合成数据的优点是，它可以减少使用受管制数据或敏感数据时的约束。并根据特定要求创建数据要求，而这些要求是真实数据无法实现的。合成数据集通常用于质量保证和软件测试。

合成数据的缺点包括当您尝试复制原始数据中发现的复杂性时发生的不一致，以及它无法直接替换真实数据，因为您仍然需要准确的数据来产生有用的结果。

2、为什么需要合成数据？

出于三个主要原因，合成数据可以成为企业的资产，以解决隐私问题、加快产品测试的周转速度以及训练机器学习算法。大多数数据隐私法都限制了企业处理敏感数据的方式。

任何个人身份客户信息的泄露和共享都可能导致昂贵的诉讼，也会影响品牌形象。因此，尽量减少隐私问题是公司投资合成数据生成方法的首要原因。

对于全新的产品，通常无法获得数据。此外，人工注释数据是一个昂贵且耗时的过程。如果公司投资于合成数据，则可以避免这种情况，这些数据可以快速生成并有助于开发可靠的机器学习模型。

3、合成数据生成

通过使用 Excel 等工具手动创建新数据或自动使用计算机模拟或算法作为真实世界数据的替代品来创建新数据的过程称为合成数据生成。

这种假数据可以从实际数据集中生成，或者如果真实数据不可用，则可以生成一个全新的数据集。新生成的数据与原始数据几乎相同。合成数据可以随时随地以任何大小生成。

虽然它是人工的，但合成数据在数学上或统计学上复制了真实世界的数据。它类似于从实际对象、事件或人员中收集的真实数据，用于训练 AI 模型。

3.1、真实数据与合成数据

真实数据是在现实世界中收集或测量的。当个人使用智能手机、笔记本电脑或计算机、佩戴智能手表、访问网站或在线购买时，这些数据每时每刻都会创建。这些数据也可以通过调查（在线和离线）生成。

相反，合成数据是在数字环境中生成的。这些数据的制造方式在基本属性方面成功地模仿了实际数据，但未从任何真实世界事件中获得的部分除外。

通过各种技术来生成合成数据，机器学习模型所需的训练数据很容易获得，这使得合成数据作为真实数据的替代品非常有前途。然而，合成数据是否可以成为所有现实世界问题的答案，这并不能说是事实。这并不影响合成数据必须提供的显著优势。

3.2、合成数据的优点

合成数据具有以下优点：

·定制：可以创建合成数据来满足企业的特定需求。

·高性价比：与真实数据相比，合成数据是一种经济实惠的选择。例如，汽车制造商的真实车辆碰撞数据获取成本将高于创建合成数据的成本。

·生产速度更快：由于合成数据不是从真实世界的事件中捕获的，因此可以使用合适的工具和硬件更快地生成和构建数据集。这意味着可以在更短的时间内提供大量的人工数据。

·维护数据隐私：合成数据仅类似于真实数据，但理想情况下，它不包含有关实际数据的任何可追溯信息。此功能使合成数据匿名且足以用于共享目的。这对医疗保健和制药公司来说可能是一个福音。

3.3、合成数据的特征

数据科学家不关心他们使用的数据是真实的还是合成的。数据的质量，潜在的趋势或模式，以及现有的偏见，对他们来说更重要。

以下是合成数据的一些显著特征：

·提高数据质量：真实世界的数据除了难以获取且成本高昂外，还可能容易受到人为错误、不准确和偏见的影响，所有这些都直接影响机器学习模型的质量。但是，公司可以在生成合成数据时保障数据的质量、多样性和平衡性。

·数据的可扩展性：随着对训练数据的需求不断增加，数据科学家可以选择合成数据。因为它可以调整大小以适应机器学习模型的训练需求。

·简单有效：使用算法时，创建虚假数据非常简单。但重要的是要确保生成的合成数据不会显示与真实数据的任何链接，没有错误，并且没有额外的偏见。

数据科学家可以完全控制合成数据的组织、呈现和标记方式。这表明公司只需点击几下即可访问现成的高质量、值得信赖的数据源。

3.4、合成数据的使用

合成数据在各种情况下都适用。在机器学习方面，充足、高质量的数据仍然是先决条件。有时，由于隐私问题，对真实数据的访问可能会受到限制，而有时数据似乎不足以训练机器学习模型。

有时，生成合成数据作为补充数据，这有助于改进机器学习模型。许多行业可以从合成数据中获得实质性的好处：

·银行和金融服务

·医疗保健和制药

·汽车和制造业

·机器人

·互联网广告和数字营销

·情报和安全公司

4、合成数据的类型

在选择最合适的合成数据创建方法时，必须了解解决业务问题所需的合成数据类型。完全合成和部分合成数据是合成数据的两类。

·完全合成的数据与真实数据没有任何联系。这表示所有必需的变量都可用，但数据无法识别。

·部分合成数据保留原始数据中除敏感信息之外的所有信息。它是从实际数据中提取的，这就是为什么有时真实值可能会保留在精选的合成数据集中的原因。

5、各种合成数据

以下是一些合成数据：

·文本数据：合成数据可以人工生成文本自然语言处理（NLP）应用程序。

·表格数据：表格合成数据是指人工生成的数据，如对分类或回归任务有用的真实数据日志或表格。

·媒体：合成数据也可以是合成视频、图像或声音，用于计算机视觉应用。

6、合成数据生成方法

为了构建合成数据集，使用以下技术：

6.1、基于统计分布

在这种方法中，您必须通过观察实际统计分布从分布中提取数字，应再现类似的事实数据。在无法获得真实数据的某些情况下，您可以使用这些事实数据。

如果数据科学家对真实数据中的统计分布有正确的理解，他可以创建一个具有随机分布样本的数据集。这可以通过正态分布、卡方分布、指数分布等来实现。经过训练的模型的准确性很大程度上取决于数据科学家在这种方法方面的专业知识。

6.2、基于要建模的代理

使用此方法，您可以创建一个模型来解释观察到的行为，并且它将使用相同的模型生成随机数据。这是将实际数据拟合到已知的数据分布。企业可以使用这种方法生成合成数据。

除此之外，还可以使用其他机器学习方法来拟合分布。但是，当数据科学家想要预测未来时，决策树会过度拟合，因为它很简单，而且会深入到最深处。

此外，在某些情况下，您可以看到部分真实数据可用。在这种情况下，企业可以使用混合方法构建基于统计分布的数据集，并使用基于真实数据的代理建模生成合成数据。

6.3、使用深度学习

深度学习模型的使用将采用变分自动编码器或生成对抗网络模型，使用生成合成数据的方法。

·VAE 是无监督机器学习模型类型，其中包含用于压缩和压缩实际数据的编码器，而解码器则分析此数据以生成实际数据的表示。使用VAE的重要原因是确保输入和输出数据保持极其相似。

·GAN模型和对抗网络是两个相互竞争的神经网络。GAN是负责创建合成数据的生成器网络。对抗性网络是鉴别器网络，它通过确定虚假数据集来发挥作用，并通知生成器有关这种歧视的信息。然后，生成器将修改下一批数据。这样，鉴别器将提高对虚假资产的检测。

·还有另一种生成额外数据的方法，称为数据增强。但是，它不是合成数据。此方法是将新数据添加到现有数据集的过程。这称为数据匿名化，此类数据不是合成数据。

7、合成数据生成工具

合成数据生成现在与机器学习模型一起是一个广泛使用的术语。由于它是人工智能，使用生成合成数据的工具起着至关重要的作用。以下是一些用于相同目的的工具：

·去雾化：Datomize 拥有人工智能或机器学习模型，主要被全球世界级银行使用。借助 Datomize，您可以轻松地连接企业数据服务，并使用不同的表处理高强度的数据结构和依赖关系。该算法将帮助您从原始数据中提取行为特征，并且您可以使用原始数据创建相同的数据孪生。

·生成式AI：人工智能是一种合成数据工具，可实现人工智能和高优先级隐私，同时从原始数据中提取结构和模式，以准备完全不同的数据集。

·合成：Synthesized 是一个多合一的 AI dataOps 解决方案，可帮助您进行数据增强、协作、数据配置和安全共享。该工具生成原始数据的不同版本，并使用多个测试数据对其进行测试。这有助于识别缺失值和查找敏感信息。

·朦胧：Hazy 是一种合成数据生成工具，旨在为金融科技行业训练原始银行数据。它将让开发人员在收集真实客户数据的同时避免任何欺诈行为，从而加快他们的分析工作流程。您可以在金融服务生成过程中生成复杂的数据，并将其存储在公司内部的孤岛中。但是，出于研究目的共享真实财务数据受到政府的严格限制和限制。

·索盖蒂：Sogeti 是一种基于认知的解决方案，可帮助您进行数据合成和处理。它使用人工数据放大器技术，可以读取和推理任何数据类型，无论是结构化的还是非结构化的。ADA 使用深度学习方法来模仿识别功能，并将其区分开来。

·格莱托：Gretel 是专门为创建合成数据而构建的工具。它是一种自称的工具，可以生成统计上等效的数据集，而不会从源头提供任何敏感的客户数据。在训练模型进行数据合成时，它通过使用序列到序列模型来比较实时信息，以便在生成新数据的同时进行预测。

·CVEDIA：CVEDIA 包含不同的机器语言算法，提供合成计算机视觉解决方案，用于改进对象识别和 AI 渲染。它用于各种工具，以及用于开发 AI 应用程序和传感器的物联网服务。

·Rendered.AI：Rendered.AI 为卫星、机器人、医疗保健和自动驾驶汽车生成基于物理的合成数据集。它是一个无代码配置工具和 API，供工程师对数据集进行快速更改和分析。他们可以在浏览器上执行数据生成，并且无需太多计算能力即可轻松操作 ML 工作流。

·Oneview：Oneview 是一种数据科学工具，它使用卫星图像和遥感技术进行国防情报。使用手机、卫星、无人机和相机，即使在图像模糊或分辨率较低的情况下，该算法也将有助于物体检测。它将在虚拟创建的图像上提供准确和详细的注释，这些图像将与真实世界的环境非常相似。

·MDClone：MDClone 是一种专用工具，主要用于医疗保健业务，用于生成大量患者数据，这将使该行业能够利用这些信息进行个性化护理。但是，为了获取临床数据，研究人员应该依赖介质，而这个过程缓慢且有限。MDClone 提供了一种系统的方法，可在不干扰敏感数据的情况下使医疗保健数据民主化，以进行研究、综合和分析。

8、使用基于 Python 的库生成合成数据

一些基于 Python 的库可用于生成满足特定业务需求的合成数据。需要生成的数据类型选择合适的Python 工具非常重要。

所有这些库都是开源的，可以免费用于不同的 Python 版本。这不是一个详尽的列表，因为经常添加更新的工具。

9、使用合成数据时的挑战和局限性

尽管合成数据为具有数据科学计划的企业提供了一些优势，但它也有一定的局限性：

1. 数据的可靠性：众所周知，任何机器学习/深度学习模型的好坏都取决于其数据源。在这种情况下，合成数据的质量与输入数据和用于生成数据的模型的质量密切相关。重要的是要确保源数据中没有偏差，否则这些偏差可能会很好地反映在合成数据中。此外，在将数据用于任何预测之前，应验证和验证数据的质量。

2. 复制异常值：合成数据只能类似于真实世界的数据，不能完全复制。因此，合成数据可能无法涵盖真实数据中存在的一些异常值。数据中的异常值可能比正常数据更重要。

3. 需要专业知识、时间和精力：虽然与真实数据相比，合成数据可能更容易且成本低廉，但它确实需要一定程度的专业知识、时间和精力。

4. 用户接受度：合成数据是一个新概念，没有看到其优势的人可能还没有准备好相信基于它的预测。这意味着首先需要提高对合成数据价值的认识，以推动更多的用户接受。

5. 质量检查和输出控制：创建合成数据的目标是模拟真实世界的数据。手动检查数据变得至关重要。对于使用算法自动生成的复杂数据集，在机器学习/深度学习模型中实现数据之前，必须确保数据的正确性。

10、使用合成数据的实际应用

以下是一些积极使用合成数据的真实示例。

1. 医疗：医疗保健组织使用合成数据来创建模型和各种数据集测试，以测试没有实际数据的情况。在医学成像领域，合成数据被用于训练人工智能模型，同时始终确保患者的隐私。此外，他们还使用合成数据来预测和预测疾病的趋势。

2. 农业：合成数据在计算机视觉应用中很有帮助，有助于预测作物产量、作物病害检测、种子/果实/花卉识别、植物生长模型等。

3. 银行和金融：银行和金融机构可以更好地识别和预防在线欺诈，因为数据科学家可以使用合成数据设计和开发新的有效欺诈检测方法。

4. 电子商务：公司通过基于合成数据训练的高级机器学习模型，从高效的仓储和库存管理以及改善的客户在线购买体验中获得好处。

5. 制造业：公司正在从用于预测性维护和质量控制的合成数据中受益。

6. 灾害预测和风险管理：政府组织正在使用合成数据来预测自然灾害，以预防灾害并降低风险。

7. 汽车与机器人：公司利用合成数据来模拟和训练自动驾驶汽车/自动驾驶汽车、无人机或机器人。

11、合成数据的未来

在本文中，我们看到了合成数据的不同技术和优势。现在，我们想要了解“合成数据会取代真实世界的数据吗？”或者“合成数据是未来吗？”。

是的，合成数据具有高度可扩展性，比真实世界的数据更智能。但是，与使用人工智能工具创建数据相比，创建准确的合成数据需要更多的努力。当您想生成正确和准确的合成数据时，您需要对 AI 有透彻的了解，并且应该具备处理风险框架的专业技能。

同样在数据集中，不应该有任何经过训练的模型会扭曲它并使其远离现实。这将通过创建真实世界数据的真实表示并考虑当前的偏差来调整数据集。您可以使用此方法生成合成数据并实现您的目标。

众所周知，合成数据旨在促进数据科学家完成新的和创新的事情，而这些事情在现实世界的数据中更难实现，因此您可以肯定地认为合成数据是未来。

12、合成数据VS数据增强VS数据匿名化

合成数据是一种新的概念，不要与数据增强或数据匿名化相混淆。让我们仔细看看这些术语之间的区别。

数据增强是一种使用原始数据并进行一些小改动并创建修改副本的技术。目的是人为地增加数据集。一种常见的用途是使用滤镜（例如模糊和旋转）进行图像增强，以创建现有图像或帧的新版本。例如，这种技术将使图像变亮或旋转以创建新图像。
数据匿名化是一种技术，可帮助您保护敏感数据，例如个人身份信息或受限制的业务数据，以避免泄露机密信息的风险。它是在资产强制执行的策略规则中定义的。根据数据匿名化的方法，数据在资产预览中被编辑、屏蔽或替换。

与上述技术不同，合成数据使用机器学习来人工生成新数据，而不是改变或修改现实世界的数据。

结束语

在许多情况下，合成数据可以解决企业或组织内数据短缺或缺乏相关数据的问题。我们还看到了哪些技术可以帮助生成合成数据，以及谁可以从中受益。此外，我们还讨论了处理合成数据所涉及的一些挑战，以及一些使用合成数据的行业的真实示例。

真实数据始终是业务决策的首选。但是，当这些真实的原始数据无法用于分析时，合成数据是下一个最佳解决方案。但是，需要考虑的是，要生成合成数据;我们确实需要对数据建模有深刻理解的数据科学家。此外，对真实数据及其环境的清晰了解也至关重要。这对于确保生成的数据尽可能接近实际数据是必要的。

Gartner：“到 2024 年，用于开发 AI 和分析项目的数据的 60% 将是综合生成的”。

文章来源：转型数据治理微信公众号