Sintētiskie dati: precīzu AI sistēmu izveide, izmantojot ražotus modeļus

ATTĒLA KREDĪTS:
Attēls kredīts
iStock

Sintētiskie dati: precīzu AI sistēmu izveide, izmantojot ražotus modeļus

Sintētiskie dati: precīzu AI sistēmu izveide, izmantojot ražotus modeļus

Apakšvirsraksta teksts
Lai izveidotu precīzus mākslīgā intelekta (AI) modeļus, simulētie dati, kas izveidoti ar algoritmu, kļūst arvien lietderīgāki.
    • Autors:
    • Autors nosaukums
      Quantumrun Foresight
    • 4. gada 2022. maijs

    Ieskata kopsavilkums

    Sintētiskie dati — jaudīgs rīks, kam ir dažādas lietojumprogrammas, sākot no veselības aprūpes līdz mazumtirdzniecībai, pārveido AI sistēmu izstrādes un ieviešanas veidu. Ļaujot izveidot dažādas un sarežģītas datu kopas, neapdraudot sensitīvu informāciju, sintētiskie dati uzlabo efektivitāti visās nozarēs, saglabā privātumu un samazina izmaksas. Tomēr tas rada arī problēmas, piemēram, iespējamu ļaunprātīgu izmantošanu, veidojot maldinošus plašsaziņas līdzekļus, ar enerģijas patēriņu saistītas vides problēmas un darba tirgus dinamikas izmaiņas, kas rūpīgi jāpārvalda.

    Sintētisko datu konteksts

    Gadu desmitiem sintētiskie dati ir pastāvējuši dažādās formās. To var atrast datorspēlēs, piemēram, lidojumu simulatoros un fizikas simulācijās, kas attēlo visu, sākot no atomiem līdz galaktikām. Tagad sintētiskie dati tiek izmantoti tādās nozarēs kā veselības aprūpe, lai atrisinātu reālās AI problēmas.

    AI attīstība joprojām saskaras ar vairākiem ieviešanas šķēršļiem. Piemēram, ir vajadzīgas lielas datu kopas, lai sniegtu uzticamus konstatējumus, lai tām nebūtu neobjektivitātes un tiktu ievēroti arvien stingrāki datu privātuma noteikumi. Šo izaicinājumu vidū anotēti dati, kas izveidoti ar datorizētām simulācijām vai programmām, ir parādījušies kā alternatīva patiesiem datiem. Šie mākslīgā intelekta radītie dati, kas pazīstami kā sintētiskie dati, ir ļoti svarīgi, lai atrisinātu privātuma problēmas un izskaustu aizspriedumus, jo tie var nodrošināt datu daudzveidību, kas atspoguļo reālo pasauli.

    Veselības aprūpes speciālisti izmanto sintētiskos datus, piemēram, medicīnas attēlu sektorā, lai apmācītu AI sistēmas, vienlaikus saglabājot pacienta konfidencialitāti. Piemēram, virtuālā aprūpes uzņēmums Curai izmantoja 400,000 3 sintētisko medicīnisko gadījumu, lai apmācītu diagnozes algoritmu. Turklāt mazumtirgotāji, piemēram, Caper, izmanto 2021D simulācijas, lai izveidotu sintētisku datu kopu ar tūkstoš fotogrāfijām no tikai pieciem produkta kadriem. Saskaņā ar Gartner pētījumu, kas tika publicēts 2030. gada jūnijā, kurā galvenā uzmanība tika pievērsta sintētiskiem datiem, lielākā daļa AI izstrādē izmantoto datu līdz XNUMX. gadam tiks mākslīgi iegūti, izmantojot tiesību aktus, statistikas standartus, simulācijas vai citus līdzekļus.

    Traucējoša ietekme

    Sintētiskie dati palīdz saglabāt privātumu un novērst datu pārkāpumus. Piemēram, slimnīca vai korporācija izstrādātājam var piedāvāt augstas kvalitātes sintētiskos medicīniskos datus, lai apmācītu uz AI balstītu vēža diagnostikas sistēmu — datus, kas ir tikpat sarežģīti kā reālās pasaules dati, kurus šī sistēma ir paredzēts interpretēt. Tādā veidā izstrādātājiem ir kvalitatīvas datu kopas, ko izmantot, veidojot un apkopojot sistēmu, un slimnīcu tīkls neriskē apdraudēt sensitīvus, pacientu medicīniskos datus. 

    Sintētiskie dati var arī ļaut testēšanas datu pircējiem piekļūt informācijai par zemāku cenu nekā tradicionālie pakalpojumi. Saskaņā ar Pola Valborska teikto, kurš līdzdibināja AI Reverie, vienu no pirmajiem specializētajiem sintētisko datu uzņēmumiem, vienu attēlu, kas maksā 6 USD no marķēšanas pakalpojuma, var mākslīgi ģenerēt par sešiem centiem. Un otrādi, sintētiskie dati pavērs ceļu paplašinātiem datiem, kas nozīmē jaunu datu pievienošanu esošai reālās pasaules datu kopai. Izstrādātāji var pagriezt vai paspilgtināt veco attēlu, lai izveidotu jaunu. 

    Visbeidzot, ņemot vērā privātuma apsvērumus un valdības ierobežojumus, datubāzē esošā personiskā informācija kļūst arvien vairāk reglamentēta un sarežģītāka, tādējādi apgrūtinot reālās pasaules informācijas izmantošanu jaunu programmu un platformu izveidē. Sintētiskie dati varētu nodrošināt izstrādātājus ar risinājumu, lai aizstātu ļoti sensitīvus datus.

    Sintētisko datu ietekme 

    Plašāka sintētisko datu ietekme var ietvert:

    • Jaunu mākslīgā intelekta sistēmu paātrināta izstrāde gan mērogā, gan daudzveidībā, kas uzlabo procesus daudzās nozarēs un disciplīnas jomās, tādējādi uzlabojot efektivitāti tādās nozarēs kā veselības aprūpe, transports un finanses.
    • Ļauj organizācijām atklātāk apmainīties ar informāciju un komandām sadarboties un darboties efektīvāk, radot vienotāku darba vidi un spēju viegli risināt sarežģītus projektus.
    • Izstrādātāji un datu speciālisti var sūtīt e-pastu vai nēsāt lielas sintētiskas datu kopas savos klēpjdatoros, zinot, ka kritiskie dati netiek apdraudēti, tādējādi radot elastīgākus un drošākus darba apstākļus.
    • Samazināts datubāzes kiberdrošības pārkāpumu biežums, jo autentiskiem datiem vairs nebūs nepieciešams piekļūt vai kopīgot tos tik bieži, tādējādi radot drošāku digitālo vidi gan uzņēmumiem, gan privātpersonām.
    • Valdības iegūst lielāku brīvību ieviest stingrākus datu pārvaldības tiesību aktus, neuztraucoties par AI sistēmu nozares attīstības kavēšanu, tādējādi radot regulētāku un pārredzamāku datu izmantošanas ainavu.
    • Iespējama sintētisko datu neētiska izmantošana dziļu viltojumu vai citu manipulatīvu datu nesēju izveidē, izraisot dezinformāciju un uzticības samazināšanos digitālajam saturam.
    • Darba tirgus dinamikas maiņa, palielinoties paļaušanās uz sintētiskiem datiem, potenciāli samazina nepieciešamību pēc datu vākšanas lomām, izraisot darba vietu pārvietošanu noteiktās nozarēs.
    • Sintētisko datu ģenerēšanai un pārvaldībai nepieciešamo palielināto skaitļošanas resursu iespējamā ietekme uz vidi, kā rezultātā palielinās enerģijas patēriņš un ar to saistītās vides problēmas.

    Jautājumi, kas jāapsver

    • Kuras citas nozares varētu gūt labumu no sintētiskajiem datiem?
    • Kādi noteikumi valdībai būtu jāievieš attiecībā uz sintētisko datu izveidi, izmantošanu un izvietošanu? 

    Ieskata atsauces

    Šim ieskatam tika izmantotas šādas populāras un institucionālas saites: