Syntetiske data skaber nøjagtige ai-systemer ved hjælp af fremstillede modeller

BILLEDKREDIT:

iStock

Syntetiske data: Oprettelse af nøjagtige AI-systemer ved hjælp af fremstillede modeller

For at skabe nøjagtige modeller af kunstig intelligens (AI) får simulerede data skabt af en algoritme øget nytte.

Forfatter:
Forfatter navn
Quantumrun Foresight
Maj 4, 2022

Oversigt over indsigt

Syntetiske data, et kraftfuldt værktøj, der har applikationer lige fra sundhedspleje til detailhandel, omformer måden AI-systemer udvikles og implementeres på. Ved at muliggøre oprettelsen af forskellige og komplekse datasæt uden at bringe følsom information i fare, øger syntetiske data effektiviteten på tværs af brancher, bevarer privatlivets fred og reducerer omkostningerne. Det giver dog også udfordringer, såsom potentielt misbrug til at skabe vildledende medier, miljøhensyn i forbindelse med energiforbrug og ændringer i arbejdsmarkedets dynamik, der skal håndteres omhyggeligt.

Syntetisk datakontekst

I årtier har syntetiske data eksisteret i forskellige former. Det kan findes i computerspil som flysimulatorer og i fysiksimuleringer, der skildrer alt fra atomer til galakser. Nu bliver syntetiske data anvendt inden for industrier som sundhedspleje for at løse AI-udfordringer i den virkelige verden.

Udviklingen af AI løber fortsat ind i adskillige implementeringshindringer. Store datasæt er for eksempel påkrævet for at levere troværdige resultater, være fri for bias og overholde stadigt strengere databeskyttelsesforskrifter. Midt i disse udfordringer er kommenterede data skabt af computersimuleringer eller programmer dukket op som et alternativ til ægte data. Disse AI-skabte data, kendt som syntetiske data, er afgørende for at løse privatlivsproblemer og udrydde fordomme, da det kan sikre datadiversitet, der afspejler den faktiske verden.

Læger i sundhedssektoren bruger f.eks. syntetiske data inden for den medicinske billedsektor til at træne AI-systemer og samtidig bevare patientens fortrolighed. Det virtuelle plejefirma, Curai, brugte for eksempel 400,000 syntetiske medicinske sager til at træne en diagnosealgoritme. Desuden bruger detailhandlere som Caper 3D-simuleringer til at skabe et syntetisk datasæt med tusinde fotografier fra så lidt som fem produktbilleder. Ifølge en Gartner-undersøgelse udgivet i juni 2021 med fokus på syntetiske data, vil de fleste af de data, der bruges i AI-udvikling, være kunstigt fremstillet af lovgivning, statistiske standarder, simuleringer eller andre midler i 2030.

Forstyrrende påvirkning

Syntetiske data hjælper med at bevare privatlivets fred og forebygge databrud. For eksempel kan et hospital eller en virksomhed tilbyde en udvikler syntetiske medicinske data af høj kvalitet til at træne et AI-baseret kræftdiagnosesystem – data, der er lige så komplekse som de virkelige data, som dette system er beregnet til at fortolke. På den måde har udviklerne kvalitetsdatasæt til brug ved design og kompilering af systemet, og hospitalsnetværket risikerer ikke at bringe følsomme, patientmedicinske data i fare.

Syntetiske data kan yderligere give købere af testdata adgang til information til en lavere pris end traditionelle tjenester. Ifølge Paul Walborsky, som var med til at stifte AI Reverie, en af de første dedikerede syntetiske datavirksomheder, kan et enkelt billede, der koster $6 fra en mærkningstjeneste, genereres kunstigt for seks cents. Omvendt vil syntetiske data bane vejen for udvidede data, som indebærer tilføjelse af nye data til et eksisterende datasæt fra den virkelige verden. Udviklere kunne rotere eller gøre et gammelt billede lysere for at lave et nyt.

Til sidst bliver personlige oplysninger, der findes i en database, stadig mere lovbestemte og komplekse, hvilket gør det sværere for oplysninger fra den virkelige verden at blive brugt til at skabe nye programmer og platforme. Syntetiske data kan give udviklere en løsning til at erstatte meget følsomme data.

Konsekvenser af syntetiske data

Større implikationer af syntetiske data kan omfatte:

Den accelererede udvikling af nye AI-systemer, både i skala og mangfoldighed, der forbedrer processer i adskillige industrier og fagområder, hvilket fører til øget effektivitet i sektorer som sundhedspleje, transport og finans.
Gør det muligt for organisationer at dele information mere åbent og teams til at samarbejde og operere mere effektivt, hvilket fører til et mere sammenhængende arbejdsmiljø og evnen til at tackle komplekse projekter med lethed.
Udviklere og dataprofessionelle, der er i stand til at e-maile eller bære store syntetiske datasæt på deres bærbare computere, sikre ved, at kritiske data ikke bringes i fare, hvilket fører til mere fleksible og sikre arbejdsforhold.
Den reducerede frekvens af brud på databasens cybersikkerhed, da autentiske data ikke længere skal tilgås eller deles så ofte, hvilket fører til et mere sikkert digitalt miljø for både virksomheder og enkeltpersoner.
Regeringer får mere frihed til at implementere strengere datahåndteringslovgivning uden at bekymre sig om at hæmme industriens udvikling af AI-systemer, hvilket fører til et mere reguleret og gennemsigtigt databrugslandskab.
Potentialet for, at syntetiske data kan bruges uetisk til at skabe deepfakes eller andre manipulerende medier, hvilket fører til misinformation og udhuling af tilliden til digitalt indhold.
Et skift i arbejdsmarkedets dynamik, hvor øget afhængighed af syntetiske data potentielt reducerer behovet for dataindsamlingsroller, hvilket fører til jobforskydning i visse sektorer.
Den potentielle miljøpåvirkning af øgede beregningsressourcer, der kræves til at generere og administrere syntetiske data, hvilket fører til højere energiforbrug og tilhørende miljøhensyn.

Spørgsmål at overveje

Hvilke andre industrier kunne drage fordel af syntetiske data?
Hvilke regler bør regeringen implementere om, hvordan syntetiske data skabes, bruges og implementeres?

Føj til liste