Ai alignment matching keunstmjittige yntelliginsje doelen oerien mei minsklike wearden

Ofbyldingskredyt:

iStock

AI-ôfstimming: oerienkommende doelen fan keunstmjittige yntelliginsje oerienkomme mei minsklike wearden

Guon ûndersikers leauwe dat maatregels moatte wurde útfierd om te garandearjen dat keunstmjittige yntelliginsje de maatskippij net skea docht.

Skriuwer:
Namme fan auteur
Quantumrun Foresight
Jannewaris 25, 2023

Keunstmjittige yntelliginsje (AI) ôfstimming is as de doelen fan in AI-systeem oerienkomme mei minsklike wearden. Bedriuwen lykas OpenAI, DeepMind, en Anthropic hawwe teams fan ûndersikers waans iennichste fokus is om guardrails te bestudearjen foar ferskate senario's wêryn dit kin barre.

AI alignment kontekst

Neffens in ûndersyksstúdzje fan 'e Universiteit fan Cornell fan 2021 hawwe ferskate stúdzjes oantoand dat ark as modellen makke troch algoritmen foaroardielen werjaan dy't ûntstien binne út de gegevens wêrop se waarden oplaat. Bygelyks, yn natuerlike taalferwurking (NLP), binne selekteare NLP-modellen oplaat op beheinde datasets dokuminteare dy't foarsizzings meitsje basearre op skealike geslachtstereotypen tsjin froulju. Op deselde manier fûnen oare stúdzjes dat algoritmen oplaat op tamperearre gegevensset resultearren yn rassistyske oanbefellings, benammen yn polysje.

D'r binne genôch foarbylden wêryn masine-learsystemen minder dien hawwe foar minderheden as groepen dy't lije oan meardere neidielen. Benammen automatisearre gesichtsanalyse en diagnostyk foar sûnenssoarch wurkje typysk net heul goed foar froulju en minsken fan kleur. As krityske systemen dy't moatte wurde basearre op feiten en logika ynstee fan emoasje wurde brûkt yn konteksten lykas it tawizen fan sûnenssoarch of ûnderwiis, kinne se mear skea dwaan troch it dreger te meitsjen om de redenearring efter dizze oanbefellings te identifisearjen.

As resultaat meitsje techbedriuwen AI-ôfstimmingsteams om te fokusjen op it hâlden fan algoritmen earlik en minsklik. Undersyk is essensjeel om de rjochting fan avansearre AI-systemen te begripen, lykas ek de útdagings dy't wy kinne tsjinkomme as AI-mooglikheden groeie.

Disruptive ynfloed

Neffens Jan Leike, haad fan AI-ôfstimming by OpenAI (2021), jûn dat AI-systemen pas yn 'e 2010's yn steat binne wurden, is it begryplik dat it measte AI-ôfstimmingsûndersyk teory-swier west hat. As enoarm krêftige AI-systemen wurde ôfstimd, is ien fan 'e útdagings wêr't minsken te krijen hawwe dat dizze masines oplossingen kinne meitsje dy't te yngewikkeld binne om te besjen en te beoardieljen as se etysk sin meitsje.

Leike betocht in rekursive reward modeling (RRM) strategy om dit probleem op te lossen. Mei RRM wurde ferskate "helper" AI's leard om in minske te helpen evaluearje hoe goed in kompleksere AI prestearret. Hy is optimistysk oer de mooglikheid fan it meitsjen fan wat hy ferwiist nei as in "ôfstimming MVP." Yn opstarttermen is in MVP (as minimaal libbensfetber produkt) it ienfâldichst mooglike produkt dat in bedriuw kin bouwe om in idee te testen. De hoop is dat AI ienris oerienkomt mei minsklike prestaasjes by it ûndersykjen fan AI en har ôfstimming mei wearden, wylst se ek funksjoneel binne.

Wylst tanimmende belangstelling foar AI-ôfstimming in netto posityf is, tinke in protte analisten op it fjild dat in protte fan 'e "etyk" wurk by liedende AI-laboratoria gewoan publike relaasjes is ûntworpen om techbedriuwen goed te meitsjen en negative publisiteit te foarkommen. Dizze persoanen ferwachtsje net dat etyske ûntwikkelingspraktiken gau in prioriteit wurde foar dizze bedriuwen.

Dizze observaasjes markearje it belang fan ynterdissiplinêre oanpakken foar ynspanningen foar weardeôfstimming, om't dit in relatyf nij gebiet is fan morele en technyske ûndersyk. Ferskillende tûken fan kennis moatte diel útmeitsje fan in ynklusive ûndersyksaginda. Dit inisjatyf wiist ek op de needsaak foar technologen en beliedsmakkers om bewust te bliuwen fan har sosjale kontekst en belanghawwenden, sels as AI-systemen avansearre wurde.

Gefolgen fan AI-ôfstimming

Bredere gefolgen fan AI-ôfstimming kinne omfetsje:

Laboratoria foar keunstmjittige yntelliginsje dy't ferskate etyske boards ynhiere om tafersjoch te hâlden op projekten en etyske AI-rjochtlinen te folbringen.
Regearingen meitsje wetten dy't bedriuwen fereaskje om har ferantwurdlik AI-kader yn te tsjinjen en hoe't se fan plan binne har AI-projekten fierder te ûntwikkeljen.
Ferheegde kontroversjes oer it brûken fan algoritmen yn werving, iepenbier tafersjoch, en wet hanthavenjen.
Undersikers wurde ûntslein út grutte AI-labs fanwegen belangekonflikten tusken etyk en bedriuwsdoelen.
Mear druk foar oerheden om avansearre AI-systemen te regeljen dy't beide ongelooflijk krêftich binne, mar mooglik de minskerjochten kinne skeine.