Synthetische gegevens creëren nauwkeurige AI-systemen met behulp van gefabriceerde modellen

BEELDKREDIET:

iStock

Synthetische gegevens: nauwkeurige AI-systemen maken met behulp van gefabriceerde modellen

Om nauwkeurige modellen voor kunstmatige intelligentie (AI) te maken, worden gesimuleerde gegevens die door een algoritme zijn gemaakt, steeds meer bruikbaar.

Auteur:
auteursnaam
Quantumrun-prognose
4 mei 2022

Samenvatting inzicht

Synthetische data, een krachtig hulpmiddel met toepassingen variërend van de gezondheidszorg tot de detailhandel, verandert de manier waarop AI-systemen worden ontwikkeld en geïmplementeerd. Door de creatie van diverse en complexe datasets mogelijk te maken zonder gevoelige informatie in gevaar te brengen, verbeteren synthetische data de efficiëntie in alle sectoren, behouden ze de privacy en verlagen ze de kosten. Het brengt echter ook uitdagingen met zich mee, zoals potentieel misbruik bij het creëren van misleidende media, milieuproblemen in verband met energieverbruik en verschuivingen in de dynamiek van de arbeidsmarkt die zorgvuldig moeten worden beheerd.

Synthetische gegevenscontext

Al tientallen jaren bestaat synthetische data in verschillende vormen. Het kan worden gevonden in computerspellen zoals vluchtsimulators en in natuurkundige simulaties die alles weergeven, van atomen tot sterrenstelsels. Nu worden synthetische gegevens toegepast in sectoren zoals de gezondheidszorg om echte AI-uitdagingen op te lossen.

De vooruitgang van AI blijft op verschillende implementatieobstakels stuiten. Grote datasets zijn bijvoorbeeld vereist om betrouwbare bevindingen te leveren, vrij van vooringenomenheid te zijn en te voldoen aan steeds strengere regels voor gegevensprivacy. Te midden van deze uitdagingen zijn geannoteerde gegevens die zijn gemaakt door geautomatiseerde simulaties of programma's, naar voren gekomen als een alternatief voor echte gegevens. Deze door AI gecreëerde gegevens, ook wel synthetische gegevens genoemd, zijn van cruciaal belang voor het oplossen van privacyproblemen en het uitroeien van vooroordelen, omdat het kan zorgen voor gegevensdiversiteit die de werkelijke wereld weerspiegelt.

Beroepsbeoefenaren in de gezondheidszorg gebruiken bijvoorbeeld synthetische gegevens binnen de sector medische beelden om AI-systemen te trainen en tegelijkertijd de vertrouwelijkheid van de patiënt te behouden. Het virtuele zorgbedrijf Curai gebruikte bijvoorbeeld 400,000 synthetische medische casussen om een diagnose-algoritme te trainen. Bovendien gebruiken retailers zoals Caper 3D-simulaties om uit slechts vijf productfoto's een synthetische dataset van duizend foto's te creëren. Volgens een onderzoek van Gartner uit juni 2021, gericht op synthetische data, zullen de meeste gegevens die worden gebruikt bij de ontwikkeling van AI tegen 2030 kunstmatig worden vervaardigd door wetgeving, statistische standaarden, simulaties of andere middelen.

Disruptieve impact

Synthetische data helpt bij het behoud van privacy en het voorkomen van datalekken. Een ziekenhuis of bedrijf kan bijvoorbeeld een ontwikkelaar hoogwaardige synthetische medische gegevens aanbieden om een op AI gebaseerd kankerdiagnosesysteem te trainen - gegevens die net zo complex zijn als de echte gegevens die dit systeem moet interpreteren. Op deze manier beschikken de ontwikkelaars over hoogwaardige datasets die ze kunnen gebruiken bij het ontwerpen en samenstellen van het systeem, en loopt het ziekenhuisnetwerk niet het risico gevoelige medische patiëntgegevens in gevaar te brengen.

Synthetische gegevens kunnen kopers van testgegevens verder in staat stellen toegang te krijgen tot informatie tegen een lagere prijs dan traditionele diensten. Volgens Paul Walborsky, mede-oprichter van AI Reverie, een van de eerste gespecialiseerde bedrijven voor synthetische data, kan een enkele afbeelding die $ 6 kost van een labelservice kunstmatig worden gegenereerd voor zes cent. Omgekeerd zullen synthetische data de weg vrijmaken voor augmented data, wat inhoudt dat nieuwe data worden toegevoegd aan een bestaande real-world dataset. Ontwikkelaars kunnen een oude afbeelding draaien of opfleuren om een nieuwe te maken.

Ten slotte, gezien privacykwesties en overheidsbeperkingen, wordt persoonlijke informatie in een database steeds meer wettelijk geregeld en complexer, waardoor het moeilijker wordt om echte informatie te gebruiken om nieuwe programma's en platforms te creëren. Synthetische gegevens kunnen ontwikkelaars een tijdelijke oplossing bieden om zeer gevoelige gegevens te vervangen.

Implicaties van synthetische gegevens

Bredere implicaties van synthetische gegevens kunnen zijn:

De versnelde ontwikkeling van nieuwe AI-systemen, zowel qua schaal als qua diversiteit, die processen in tal van industrieën en vakgebieden verbeteren, wat leidt tot grotere efficiëntie in sectoren als de gezondheidszorg, transport en financiën.
Organisaties kunnen informatie opener delen en teams kunnen efficiënter samenwerken en opereren, wat leidt tot een meer samenhangende werkomgeving en de mogelijkheid om complexe projecten met gemak aan te pakken.
Ontwikkelaars en dataprofessionals kunnen grote synthetische datasets e-mailen of op hun laptops meenemen, in de zekerheid dat kritieke gegevens niet in gevaar komen, wat leidt tot flexibelere en veiligere werkomstandigheden.
De verminderde frequentie van inbreuken op de cyberbeveiliging van databases, omdat authentieke gegevens niet langer zo vaak hoeven te worden geopend of gedeeld, wat leidt tot een veiligere digitale omgeving voor zowel bedrijven als particulieren.
Overheden krijgen meer vrijheid om strengere wetgeving op het gebied van databeheer te implementeren zonder zich zorgen te hoeven maken over het belemmeren van de industriële ontwikkeling van AI-systemen, wat leidt tot een meer gereguleerd en transparant datagebruiklandschap.
De mogelijkheid dat synthetische gegevens onethisch worden gebruikt bij het creëren van deepfakes of andere manipulatieve media, wat leidt tot verkeerde informatie en erosie van het vertrouwen in digitale inhoud.
Een verschuiving in de dynamiek van de arbeidsmarkt, waarbij een grotere afhankelijkheid van synthetische gegevens mogelijk de behoefte aan gegevensverzameling vermindert, wat in bepaalde sectoren tot banenverdringing kan leiden.
De potentiële impact op het milieu van de toegenomen computerbronnen die nodig zijn om synthetische gegevens te genereren en te beheren, wat leidt tot een hoger energieverbruik en de daarmee samenhangende milieuproblemen.

Vragen om te overwegen

Welke andere industrieën kunnen baat hebben bij synthetische data?
Welke regelgeving moet de overheid implementeren over de manier waarop synthetische data wordt gemaakt, gebruikt en ingezet?

Toevoegen aan lijst