Sintetikong data na lumilikha ng tumpak na mga sistema ng ai gamit ang mga manufactured na modelo

CREDIT NG LARAWAN:

iStock

Sintetikong data: Paglikha ng mga tumpak na AI system gamit ang mga manufactured na modelo

Para gumawa ng mga tumpak na modelo ng artificial intelligence (AI), ang simulate na data na ginawa ng isang algorithm ay nakakakita ng mas mataas na utility.

May-akda:
pangalan Author
Quantumrun Foresight
Mayo 4, 2022

Buod ng pananaw

Ang synthetic data, isang mahusay na tool na may mga application mula sa pangangalaga sa kalusugan hanggang sa retail, ay muling hinuhubog ang paraan ng pagbuo at pagpapatupad ng mga AI system. Sa pamamagitan ng pagpapagana sa paglikha ng magkakaibang at kumplikadong mga dataset nang hindi nalalagay sa panganib ang sensitibong impormasyon, pinahuhusay ng synthetic na data ang kahusayan sa mga industriya, pinapanatili ang privacy, at binabawasan ang mga gastos. Gayunpaman, nagpapakita rin ito ng mga hamon, tulad ng potensyal na maling paggamit sa paglikha ng mapanlinlang na media, mga alalahanin sa kapaligiran na may kaugnayan sa pagkonsumo ng enerhiya, at mga pagbabago sa dynamics ng labor market na kailangang maingat na pamahalaan.

Sintetikong konteksto ng data

Sa loob ng mga dekada, umiral ang sintetikong data sa iba't ibang anyo. Maaari itong matagpuan sa mga laro sa computer tulad ng mga flight simulator at sa mga simulation ng pisika na naglalarawan ng lahat mula sa mga atom hanggang sa mga kalawakan. Ngayon, ang synthetic na data ay inilalapat sa loob ng mga industriya tulad ng pangangalagang pangkalusugan upang malutas ang mga hamon sa AI sa totoong mundo.

Ang pagsulong ng AI ay patuloy na humaharap sa ilang mga hadlang sa pagpapatupad. Ang malalaking set ng data, halimbawa, ay kinakailangan upang maghatid ng mga mapagkakatiwalaang natuklasan, maging walang bias, at sumunod sa lalong mahigpit na mga regulasyon sa privacy ng data. Sa gitna ng mga hamong ito, ang naka-annotate na data na ginawa ng mga computerized simulation o program ay lumitaw bilang isang alternatibo sa tunay na data. Ang data na ginawa ng AI na ito, na kilala bilang sintetikong data, ay kritikal sa pagresolba sa mga alalahanin sa privacy at pagpuksa sa pagkiling dahil masisiguro nito ang pagkakaiba-iba ng data na sumasalamin sa aktwal na mundo.

Gumagamit ang mga healthcare practitioner ng sintetikong data, bilang halimbawa, sa loob ng sektor ng mga medikal na larawan upang sanayin ang mga AI system habang pinapanatili ang pagiging kumpidensyal ng pasyente. Ang virtual na kompanya ng pangangalaga, Curai, halimbawa, ay gumamit ng 400,000 sintetikong mga medikal na kaso upang sanayin ang isang algorithm ng diagnosis. Higit pa rito, ang mga retailer gaya ng Caper ay gumagamit ng 3D simulation upang lumikha ng isang sintetikong dataset ng isang libong mga larawan mula sa kasing liit ng limang mga kuha ng produkto. Ayon sa isang pag-aaral ng Gartner na inilabas noong Hunyo 2021 na nakatuon sa synthetic na data, karamihan sa data na ginagamit sa pagbuo ng AI ay artipisyal na gagawin ng batas, mga istatistikal na pamantayan, simulation, o iba pang paraan sa 2030.

Nakakagambalang epekto

Nakakatulong ang sintetikong data sa pagpapanatili ng privacy at pag-iwas sa mga paglabag sa data. Halimbawa, maaaring mag-alok ang isang ospital o korporasyon sa developer ng mataas na kalidad na sintetikong medikal na data para sanayin ang isang AI-based na sistema ng diagnosis ng kanser—data na kasing kumplikado ng data sa totoong mundo na nilalayong bigyang-kahulugan ng system na ito. Sa ganitong paraan, may mga de-kalidad na dataset ang mga developer na gagamitin kapag nagdidisenyo at nagko-compile ng system, at ang network ng ospital ay hindi nanganganib na ilagay sa panganib ang sensitibo at medikal na data ng pasyente.

Ang sintetikong data ay maaaring higit pang magpapahintulot sa mga mamimili ng data ng pagsubok na ma-access ang impormasyon sa mas mababang presyo kaysa sa mga tradisyonal na serbisyo. Ayon kay Paul Walborsky, na co-founder ng AI Reverie, isa sa mga unang nakatuong negosyo ng synthetic data, ang isang imahe na nagkakahalaga ng $6 mula sa isang serbisyo sa pag-label ay maaaring artipisyal na mabuo para sa anim na sentimo. Sa kabaligtaran, ang synthetic na data ay magbibigay daan para sa pinalaki na data, na nangangailangan ng pagdaragdag ng bagong data sa isang kasalukuyang real-world na dataset. Maaaring paikutin o pagandahin ng mga developer ang isang lumang larawan upang makagawa ng bago.

Panghuli, dahil sa mga alalahanin sa privacy at mga paghihigpit ng gobyerno, ang personal na impormasyong umiiral sa isang database ay nagiging mas nasasabatas at nagiging kumplikado, na ginagawang mas mahirap para sa totoong mundo na impormasyon na gamitin upang lumikha ng mga bagong programa at platform. Ang sintetikong data ay maaaring magbigay sa mga developer ng isang solusyon sa solusyon upang palitan ang napakasensitibong data.

Mga implikasyon ng sintetikong data

Maaaring kabilang sa mas malawak na implikasyon ng sintetikong data ang:

Ang pinabilis na pag-unlad ng mga bagong sistema ng AI, kapwa sa sukat at pagkakaiba-iba, na nagpapahusay sa mga proseso sa maraming industriya at larangan ng disiplina, na humahantong sa pinahusay na kahusayan sa mga sektor tulad ng pangangalaga sa kalusugan, transportasyon, at pananalapi.
Nagbibigay-daan sa mga organisasyon na magbahagi ng impormasyon nang mas bukas at ang mga koponan na magtulungan at gumana nang mas mahusay, na humahantong sa isang mas magkakaugnay na kapaligiran sa trabaho at ang kakayahang harapin ang mga kumplikadong proyekto nang madali.
Ang mga developer at mga propesyonal sa data ay maaaring mag-email o magdala ng malalaking synthetic data set sa kanilang mga laptop, ligtas sa pag-alam na ang kritikal na data ay hindi nanganganib, na humahantong sa mas nababaluktot at secure na mga kondisyon sa trabaho.
Ang pinababang dalas ng mga paglabag sa cybersecurity sa database, dahil hindi na kailangang i-access o ibahagi nang madalas ang tunay na data, na humahantong sa isang mas secure na digital na kapaligiran para sa mga negosyo at indibidwal.
Ang mga pamahalaan ay nakakakuha ng higit na kalayaan na magpatupad ng mas mahigpit na batas sa pamamahala ng data nang hindi nababahala tungkol sa paghadlang sa pagbuo ng industriya ng mga AI system, na humahantong sa isang mas regulated at transparent na landscape ng paggamit ng data.
Ang potensyal para sa synthetic na data na gamitin nang hindi etikal sa paggawa ng mga deepfakes o iba pang manipulative na media, na humahantong sa maling impormasyon at pag-aalis ng tiwala sa digital na nilalaman.
Ang pagbabago sa dynamics ng labor market, na may tumaas na pag-asa sa sintetikong data na potensyal na nagpapababa sa pangangailangan para sa mga tungkulin sa pangongolekta ng data, na humahantong sa paglilipat ng trabaho sa ilang partikular na sektor.
Ang potensyal na epekto sa kapaligiran ng mas mataas na mapagkukunan ng computational na kinakailangan upang bumuo at pamahalaan ang synthetic na data, na humahantong sa mas mataas na pagkonsumo ng enerhiya at nauugnay na mga alalahanin sa kapaligiran.

Mga katanungang dapat isaalang-alang

Anong iba pang mga industriya ang maaaring makinabang mula sa sintetikong data?
Anong mga regulasyon ang dapat ipatupad ng pamahalaan tungkol sa kung paano nilikha, ginagamit, at ipinakalat ang sintetikong data?

Idagdag sa listahan