合成データ: 製造されたモデルを使用して正確な AI システムを作成する

画像クレジット:
画像著作権
iStock

合成データ: 製造されたモデルを使用して正確な AI システムを作成する

合成データ: 製造されたモデルを使用して正確な AI システムを作成する

小見出しのテキスト
正確な人工知能 (AI) モデルを作成するために、アルゴリズムによって作成されたシミュレーション データの有用性が高まっています。
    • 著者:
    • 著者名
      クォンタムラン・フォーサイト
    • 2022 年 5 月 4 日

    洞察の要約

    合成データは、ヘルスケアから小売まで幅広い用途に使用できる強力なツールであり、AI システムの開発と実装の方法を再構築しています。 合成データは、機密情報を危険にさらすことなく、多様で複雑なデータセットの作成を可能にすることで、業界全体の効率を高め、プライバシーを保護し、コストを削減します。 ただし、欺瞞的なメディアの作成における悪用の可能性、エネルギー消費に関連する環境への懸念、慎重に管理する必要がある労働市場の動向の変化などの課題も抱えています。

    合成データのコンテキスト

    何十年もの間、合成データはさまざまな形で存在してきました。 フライト シミュレーターのようなコンピューター ゲームや、原子から銀河まであらゆるものを描写する物理シミュレーションに見られるかもしれません。 現在、合成データはヘルスケアなどの業界で適用され、現実世界の AI の課題を解決しています。

    AI の進歩は、いくつかの実装上の障害に直面し続けています。 たとえば、大規模なデータ セットは、信頼できる調査結果を提供し、偏見がなく、ますます厳しくなるデータ プライバシー規制に準拠する必要があります。 これらの課題の中で、コンピューター化されたシミュレーションまたはプログラムによって作成された注釈付きデータが、本物のデータに代わるものとして浮上しています。 合成データとして知られるこの AI 作成データは、現実の世界を反映したデータの多様性を確保できるため、プライバシーに関する懸念を解決し、偏見を根絶するために重要です。

    医療従事者は、一例として医療画像分野で合成データを使用して、患者の機密性を維持しながら AI システムをトレーニングします。 たとえば、バーチャル ケア会社 Curai は、診断アルゴリズムをトレーニングするために 400,000 件の合成医療症例を使用しました。 さらに、Caper などの小売業者は 3D シミュレーションを使用して、わずか 2021 つの製品ショットから 2030 枚の写真の合成データセットを作成しています。 XNUMX年XNUMX月に発表された合成データに焦点を当てたGartnerの調査によると、AI開発で利用されるデータのほとんどは、XNUMX年までに法律、統計基準、シミュレーションなどの手段によって人工的に製造されるようになるという。

    破壊的な影響

    合成データは、プライバシーの保護とデータ侵害の防止に役立ちます。 たとえば、病院や企業は、AI ベースのがん診断システムをトレーニングするために開発者に高品質の合成医療データを提供する場合があります。このデータは、このシステムが解釈する実世界のデータと同じくらい複雑です。 このようにして、開発者はシステムを設計およびコンパイルするときに使用する高品質のデータセットを手に入れ、病院のネットワークは機密性の高い患者の医療データを危険にさらすリスクを冒しません。 

    合成データにより、テスト データの購入者は、従来のサービスよりも低価格で情報にアクセスできるようになります。 最初の合成データ専用ビジネスの 6 つである AI Reverie を共同設立した Paul Walborsky 氏によると、ラベリング サービスで XNUMX ドルかかる単一の画像を XNUMX セントで人工的に生成できます。 逆に、合成データは、既存の実世界のデータセットに新しいデータを追加する必要がある拡張データへの道を開きます。 開発者は、古い画像を回転または明るくして、新しい画像を作成できます。 

    最後に、プライバシーに関する懸念と政府の制限により、データベースに存在する個人情報はますます法規制化され、複雑化しており、現実世界の情報を使用して新しいプログラムやプラットフォームを作成することが難しくなっています。 合成データは、機密性の高いデータを置き換えるための回避策を開発者に提供する可能性があります。

    合成データの意味 

    合成データの広範な影響には次のものが含まれる可能性があります。

    • 規模と多様性の両面で新しい AI システムの開発が加速し、多くの業界や専門分野のプロセスを改善し、医療、運輸、金融などの分野の効率向上につながります。
    • 組織がよりオープンに情報を共有し、チームがより効率的に協力して運営できるようにすることで、より団結した作業環境が実現し、複雑なプロジェクトに簡単に取り組むことができるようになります。
    • 開発者やデータ専門家は、大規模な合成データ セットをラップトップに電子メールで送信したり、ラップトップで持ち運んだりできるため、重要なデータが危険にさらされていないことがわかって安心できるため、より柔軟で安全な作業環境が実現します。
    • 本物のデータに頻繁にアクセスしたり共有したりする必要がなくなるため、データベースのサイバーセキュリティ侵害の頻度が減少し、企業と個人の両方にとってより安全なデジタル環境が実現します。
    • 政府は、業界の AI システム開発を妨げることを心配することなく、より厳格なデータ管理法をより自由に施行できるようになり、より規制が厳しく透明性のあるデータ利用状況が実現します。
    • 合成データがディープフェイクやその他の操作メディアの作成に非倫理的に使用され、誤った情報やデジタル コンテンツの信頼の低下につながる可能性があります。
    • 合成データへの依存度が高まる労働市場のダイナミクスの変化により、データ収集の役割の必要性が減少する可能性があり、特定の分野での離職につながります。
    • 合成データの生成と管理に必要な計算リソースの増加による潜在的な環境への影響は、エネルギー消費量の増加とそれに伴う環境問題につながります。

    考慮すべき質問

    • 合成データから恩恵を受けることができる他の業界は?
    • 合成データの作成、使用、展開方法に関して、政府はどのような規制を実施する必要がありますか? 

    インサイトの参照

    この洞察のために、次の一般的な機関リンクが参照されました。