合成数据:使用制造模型创建准确的 AI 系统

图片来源:
图片来源
iStock

合成数据:使用制造模型创建准确的 AI 系统

合成数据:使用制造模型创建准确的 AI 系统

副标题文字
为了创建准确的人工智能 (AI) 模型,由算法创建的模拟数据的实用性越来越高。
    • 作者:
    • 作者姓名
      量子运行远见
    • 2022 年 5 月 4 日

    洞察总结

    合成数据是一种强大的工具,其应用范围从医疗保健到零售,正在重塑人工智能系统的开发和实施方式。 通过在不危及敏感信息的情况下创建多样化和复杂的数据集,合成数据正在提高各行业的效率、保护隐私并降低成本。 然而,它也带来了挑战,例如制造欺骗性媒体的潜在滥用、与能源消耗相关的环境问题以及需要谨慎管理的劳动力市场动态的变化。

    合成数据上下文

    几十年来,合成数据以不同的形式存在。 它可以在飞行模拟器等计算机游戏和描绘从原子到星系的一切事物的物理模拟中找到。 现在,合成数据正被应用于医疗保健等行业,以解决现实世界的人工智能挑战。

    人工智能的进步继续遇到一些实施障碍。 例如,大型数据集需要提供可信的发现、没有偏见,并遵守越来越严格的数据隐私法规。 在这些挑战中,由计算机模拟或程序创建的注释数据已成为真实数据的替代品。 这种人工智能创建的数据被称为合成数据,对于解决隐私问题和消除偏见至关重要,因为它可以确保反映现实世界的数据多样性。

    例如,医疗保健从业者在医学图像领域使用合成数据来训练人工智能系统,同时维护患者的机密性。 例如,虚拟护理公司 Curai 使用 400,000 万个综合医疗案例来训练诊断算法。 此外,Caper 等零售商使用 3D 模拟从短短 2021 张产品照片中创建包含 2030 张照片的合成数据集。 根据 Gartner XNUMX 年 XNUMX 月发布的一项针对合成数据的研究,到 XNUMX 年,人工智能开发中使用的大部分数据将通过立法、统计标准、模拟或其他方式人工制造。

    破坏性影响

    合成数据有助于保护隐私和防止数据泄露。 例如,医院或公司可能会向开发人员提供高质量的合成医学数据来训练基于人工智能的癌症诊断系统——这些数据与该系统要解释的真实世界数据一样复杂。 通过这种方式,开发人员在设计和编译系统时可以使用高质量的数据集,并且医院网络不会冒危及敏感的患者医疗数据的风险。 

    合成数据可以进一步允许测试数据的购买者以比传统服务更低的价格访问信息。 根据共同创立 AI Reverie 的 Paul Walborsky 的说法,AI Reverie 是最早的专用合成数据企业之一,一张标签服务花费 6 美元的单张图像可以人工生成 XNUMX 美分。 相反,合成数据将为增强数据铺平道路,这需要将新数据添加到现有的现实世界数据集中。 开发人员可以旋转或增亮旧图像以制作新图像。 

    最后,考虑到隐私问题和政府限制,数据库中存在的个人信息正变得越来越合法和复杂,这使得真实世界的信息更难用于创建新的程序和平台。 合成数据可以为开发人员提供替代高度敏感数据的变通解决方案。

    合成数据的含义 

    合成数据的更广泛影响可能包括:

    • 新人工智能系统在规模和多样性方面的加速发展,改善了众多行业和学科领域的流程,从而提高了医疗保健、交通和金融等行业的效率。
    • 使组织能够更公开地共享信息,使团队能够更有效地协作和运营,从而形成更具凝聚力的工作环境并能够轻松处理复杂的项目。
    • 开发人员和数据专业人员能够通过电子邮件发送或在笔记本电脑上携带大型合成数据集,并安全地知道关键数据不会受到威胁,从而实现更加灵活和安全的工作条件。
    • 数据库网络安全漏洞的频率降低,因为不再需要频繁访问或共享真实数据,从而为企业和个人带来更安全的数字环境。
    • 政府获得更多自由来实施更严格的数据管理立法,而不必担心阻碍人工智能系统的行业发展,从而形成更加规范和透明的数据使用环境。
    • 合成数据有可能被不道德地用于创建深度伪造品或其他操纵性媒体,从而导致错误信息和对数字内容信任的侵蚀。
    • 劳动力市场动态的变化,对合成数据的依赖增加,可能会减少对数据收集角色的需求,从而导致某些行业的工作岗位流失。
    • 生成和管理合成数据所需的计算资源增加会对环境产生潜在影响,从而导致更高的能源消耗和相关的环境问题。

    需要考虑的问题

    • 还有哪些行业可以从合成数据中受益?
    • 关于如何创建、使用和部署合成数据,政府应实施哪些法规? 

    洞察参考

    此见解引用了以下流行和机构链接:

    麻省理工学院新闻 合成数据的真正承诺