Syntetiske data: Lage nøyaktige AI-systemer ved å bruke produserte modeller

BILDEKREDITT:
Bilde kreditt
iStock

Syntetiske data: Lage nøyaktige AI-systemer ved å bruke produserte modeller

Syntetiske data: Lage nøyaktige AI-systemer ved å bruke produserte modeller

Underoverskriftstekst
For å lage nøyaktige modeller for kunstig intelligens (AI) får simulerte data laget av en algoritme økt nytte.
    • Forfatter:
    • forfatternavn
      Quantumrun Foresight
    • Kan 4, 2022

    Oppsummering av innsikt

    Syntetiske data, et kraftig verktøy som har applikasjoner som spenner fra helsetjenester til detaljhandel, omformer måten AI-systemer utvikles og implementeres på. Ved å muliggjøre opprettelse av varierte og komplekse datasett uten å sette sensitiv informasjon i fare, øker syntetiske data effektiviteten på tvers av bransjer, bevarer personvernet og reduserer kostnadene. Det byr imidlertid også på utfordringer, som potensielt misbruk ved å skape villedende medier, miljøhensyn knyttet til energiforbruk og endringer i arbeidsmarkedsdynamikken som må håndteres nøye.

    Syntetisk datakontekst

    I flere tiår har syntetiske data eksistert i forskjellige former. Det kan finnes i dataspill som flysimulatorer og i fysikksimuleringer som viser alt fra atomer til galakser. Nå brukes syntetiske data i bransjer som helsevesen for å løse AI-utfordringer i den virkelige verden.

    Utviklingen av AI fortsetter å møte flere implementeringshindringer. Store datasett, for eksempel, kreves for å levere pålitelige funn, være fri for skjevheter og overholde stadig strengere personvernregler. Midt i disse utfordringene har kommenterte data laget av datastyrte simuleringer eller programmer dukket opp som et alternativ til ekte data. Disse AI-skapte dataene, kjent som syntetiske data, er avgjørende for å løse personvernproblemer og utrydde fordommer siden de kan sikre datamangfold som gjenspeiler den faktiske verden.

    Helsepersonell bruker syntetiske data, som et eksempel, innen medisinsk bildesektoren for å trene AI-systemer samtidig som pasientens konfidensialitet opprettholdes. Det virtuelle omsorgsfirmaet Curai brukte for eksempel 400,000 3 syntetiske medisinske tilfeller for å trene en diagnosealgoritme. Videre bruker forhandlere som Caper 2021D-simuleringer for å lage et syntetisk datasett med tusen fotografier fra så lite som fem produktbilder. I følge en Gartner-studie utgitt i juni 2030 med fokus på syntetiske data, vil mesteparten av dataene som brukes i AI-utvikling være kunstig produsert av lovgivning, statistiske standarder, simuleringer eller andre midler innen XNUMX.

    Forstyrrende påvirkning

    Syntetiske data hjelper i bevaring av personvernet og forebygging av datainnbrudd. For eksempel kan et sykehus eller et selskap tilby en utvikler syntetiske medisinske data av høy kvalitet for å trene opp et AI-basert kreftdiagnosesystem – data som er like komplekse som de virkelige dataene dette systemet er ment å tolke. På denne måten har utviklerne kvalitetsdatasett å bruke ved utforming og kompilering av systemet, og sykehusnettverket risikerer ikke å sette sensitive, pasientmedisinske data i fare. 

    Syntetiske data kan videre gi kjøpere av testdata tilgang til informasjon til en lavere pris enn tradisjonelle tjenester. I følge Paul Walborsky, som var med å grunnlegge AI Reverie, en av de første dedikerte syntetiske databedriftene, kan et enkelt bilde som koster $6 fra en merketjeneste genereres kunstig for seks cent. Omvendt vil syntetiske data bane vei for utvidede data, som innebærer å legge til nye data til et eksisterende datasett i den virkelige verden. Utviklere kan rotere eller gjøre et gammelt bilde lysere for å lage et nytt. 

    Til slutt, gitt personvernhensyn og myndighetsbegrensninger, blir personlig informasjon som eksisterer i en database stadig mer lovfestet og kompleks, noe som gjør det vanskeligere for informasjon fra den virkelige verden å brukes til å lage nye programmer og plattformer. Syntetiske data kan gi utviklere en løsning for å erstatte svært sensitive data.

    Implikasjoner av syntetiske data 

    Større implikasjoner av syntetiske data kan omfatte:

    • Den akselererte utviklingen av nye AI-systemer, både i skala og mangfold, som forbedrer prosesser i en rekke bransjer og fagfelt, noe som fører til økt effektivitet i sektorer som helsevesen, transport og finans.
    • Gjør det mulig for organisasjoner å dele informasjon mer åpent og team til å samarbeide og operere mer effektivt, noe som fører til et mer sammenhengende arbeidsmiljø og muligheten til å takle komplekse prosjekter med letthet.
    • Utviklere og datafagfolk som kan sende e-post eller bære store syntetiske datasett på sine bærbare datamaskiner, trygge ved å vite at kritiske data ikke blir truet, noe som fører til mer fleksible og sikre arbeidsforhold.
    • Den reduserte frekvensen av brudd på cybersikkerheten i databasen, ettersom autentiske data ikke lenger trenger å få tilgang til eller deles så ofte, noe som fører til et sikrere digitalt miljø for både bedrifter og enkeltpersoner.
    • Regjeringer får større frihet til å implementere strengere datahåndteringslovgivning uten å bekymre seg for å hindre industriutvikling av AI-systemer, noe som fører til et mer regulert og transparent databrukslandskap.
    • Potensialet for at syntetiske data kan brukes uetisk til å lage dype falske eller andre manipulerende medier, noe som fører til feilinformasjon og erosjon av tilliten til digitalt innhold.
    • Et skifte i arbeidsmarkedsdynamikken, med økt avhengighet av syntetiske data, kan potensielt redusere behovet for datainnsamlingsroller, noe som fører til forskyvning av jobber i visse sektorer.
    • Den potensielle miljøpåvirkningen av økte beregningsressurser som kreves for å generere og administrere syntetiske data, som fører til høyere energiforbruk og tilhørende miljøhensyn.

    Spørsmål å vurdere

    • Hvilke andre bransjer kan dra nytte av syntetiske data?
    • Hvilke regler bør myndighetene implementere om hvordan syntetiske data opprettes, brukes og distribueres? 

    Innsiktsreferanser

    Følgende populære og institusjonelle lenker ble referert for denne innsikten: