Données synthétiques : création de systèmes d'IA précis à l'aide de modèles fabriqués

CRÉDIT D'IMAGE:
Crédit image
iStock

Données synthétiques : création de systèmes d'IA précis à l'aide de modèles fabriqués

Données synthétiques : création de systèmes d'IA précis à l'aide de modèles fabriqués

Texte du sous-titre
Pour créer des modèles d'intelligence artificielle (IA) précis, les données simulées créées par un algorithme sont de plus en plus utiles.
    • Auteur :
    • Nom de l'auteur
      Prévision quantique
    • 4 mai 2022

    Résumé des informations

    Les données synthétiques, un outil puissant dont les applications vont des soins de santé au commerce de détail, remodèlent la manière dont les systèmes d’IA sont développés et mis en œuvre. En permettant la création d'ensembles de données divers et complexes sans mettre en danger les informations sensibles, les données synthétiques améliorent l'efficacité dans tous les secteurs, préservent la confidentialité et réduisent les coûts. Cependant, cela présente également des défis, tels qu'une utilisation abusive potentielle dans la création de médias trompeurs, des préoccupations environnementales liées à la consommation d'énergie et des changements dans la dynamique du marché du travail qui doivent être gérés avec soin.

    Contexte de données synthétiques

    Depuis des décennies, les données synthétiques existent sous différentes formes. On peut le trouver dans les jeux informatiques comme les simulateurs de vol et dans les simulations physiques qui dépeignent tout, des atomes aux galaxies. Aujourd'hui, des données synthétiques sont appliquées dans des secteurs tels que les soins de santé pour résoudre les défis de l'IA dans le monde réel.

    L'avancement de l'IA continue de se heurter à plusieurs obstacles de mise en œuvre. De grands ensembles de données, par exemple, sont nécessaires pour fournir des résultats fiables, être exempts de biais et respecter des réglementations de plus en plus strictes en matière de confidentialité des données. Au milieu de ces défis, les données annotées créées par des simulations ou des programmes informatisés sont apparues comme une alternative aux données authentiques. Ces données créées par l'IA, appelées données synthétiques, sont essentielles pour résoudre les problèmes de confidentialité et éradiquer les préjugés, car elles peuvent garantir une diversité de données qui reflète le monde réel.

    Les professionnels de santé utilisent par exemple des données synthétiques dans le secteur de l’imagerie médicale pour former des systèmes d’IA tout en préservant la confidentialité des patients. La société de soins virtuels Curai, par exemple, a utilisé 400,000 3 cas médicaux synthétiques pour former un algorithme de diagnostic. De plus, des détaillants tels que Caper utilisent des simulations 2021D pour créer un ensemble de données synthétiques d'un millier de photographies à partir de seulement cinq clichés de produits. Selon une étude Gartner publiée en juin 2030 et axée sur les données synthétiques, la plupart des données utilisées dans le développement de l'IA seront artificiellement fabriquées par la législation, des normes statistiques, des simulations ou d'autres moyens d'ici XNUMX.

    Impact perturbateur

    Les données synthétiques contribuent à la préservation de la vie privée et à la prévention des violations de données. Par exemple, un hôpital ou une entreprise peut proposer à un développeur des données médicales synthétiques de haute qualité pour former un système de diagnostic du cancer basé sur l'IA, des données aussi complexes que les données du monde réel que ce système est censé interpréter. De cette façon, les développeurs disposent d'ensembles de données de qualité à utiliser lors de la conception et de la compilation du système, et le réseau hospitalier ne court pas le risque de mettre en danger les données médicales sensibles des patients. 

    Les données synthétiques peuvent en outre permettre aux acheteurs de données de test d'accéder à des informations à un prix inférieur à celui des services traditionnels. Selon Paul Walborsky, qui a cofondé AI Reverie, l'une des premières entreprises dédiées aux données synthétiques, une seule image qui coûte 6 $ à partir d'un service d'étiquetage peut être générée artificiellement pour XNUMX centimes. À l'inverse, les données synthétiques ouvriront la voie aux données augmentées, ce qui implique l'ajout de nouvelles données à un ensemble de données réel existant. Les développeurs pouvaient faire pivoter ou éclaircir une ancienne image pour en créer une nouvelle. 

    Enfin, compte tenu des problèmes de confidentialité et des restrictions gouvernementales, les informations personnelles contenues dans une base de données deviennent de plus en plus légiférées et complexes, ce qui rend plus difficile l'utilisation d'informations du monde réel pour créer de nouveaux programmes et plates-formes. Les données synthétiques pourraient fournir aux développeurs une solution de contournement pour remplacer les données hautement sensibles.

    Implications des données synthétiques 

    Les implications plus larges des données synthétiques peuvent inclure :

    • Le développement accéléré de nouveaux systèmes d’IA, tant en termes d’échelle que de diversité, qui améliorent les processus dans de nombreux secteurs et domaines de discipline, conduisant à une efficacité accrue dans des secteurs tels que la santé, les transports et la finance.
    • Permettre aux organisations de partager des informations plus ouvertement et aux équipes de collaborer et de fonctionner plus efficacement, conduisant à un environnement de travail plus cohérent et à la capacité de gérer facilement des projets complexes.
    • Les développeurs et les professionnels des données peuvent envoyer des e-mails ou transporter de grands ensembles de données synthétiques sur leurs ordinateurs portables, en sachant que les données critiques ne sont pas menacées, ce qui conduit à des conditions de travail plus flexibles et plus sécurisées.
    • La fréquence réduite des violations de cybersécurité des bases de données, car les données authentiques ne devront plus être consultées ou partagées aussi souvent, conduisant à un environnement numérique plus sécurisé pour les entreprises et les particuliers.
    • Les gouvernements obtiennent plus de liberté pour mettre en œuvre une législation plus stricte sur la gestion des données sans se soucier d’entraver le développement industriel des systèmes d’IA, ce qui conduit à un paysage d’utilisation des données plus réglementé et transparent.
    • La possibilité que des données synthétiques soient utilisées de manière contraire à l’éthique pour créer des deepfakes ou d’autres médias manipulateurs, conduisant à la désinformation et à l’érosion de la confiance dans le contenu numérique.
    • Un changement dans la dynamique du marché du travail, avec un recours accru aux données synthétiques, réduisant potentiellement le besoin de rôles de collecte de données, conduisant à des suppressions d'emplois dans certains secteurs.
    • L'impact environnemental potentiel de l'augmentation des ressources informatiques nécessaires pour générer et gérer des données synthétiques, entraînant une consommation d'énergie plus élevée et des problèmes environnementaux associés.

    Questions à considérer

    • Quelles autres industries pourraient bénéficier de données synthétiques ?
    • Quelles réglementations le gouvernement devrait-il mettre en place concernant la manière dont les données synthétiques sont créées, utilisées et déployées ? 

    Références Insight

    Les liens populaires et institutionnels suivants ont été référencés pour cet aperçu :