Vokenization: Luuqadda ay AI arki karto

Deynta sawirka:
Sumcadda Sawirka
iStock

Vokenization: Luuqadda ay AI arki karto

Vokenization: Luuqadda ay AI arki karto

Qoraalka ciwaan hoosaadka
Iyada oo sawirada hadda lagu daray tababarka hababka sirdoonka macmal (AI), robots-yada waxa laga yaabaa inay dhawaan awoodaan inay "arkaan" amarada.
    • About the Author:
    • Magaca qoraaga
      Quantumrun Aragtida Saadaasha
    • Waxaa laga yaabaa 9, 2023

    Habaynta luqadda dabiiciga ah (NLP) waxa ay awood u siisay nidaamyada sirdoonka macmal (AI) si ay u bartaan hadalka aadanaha iyagoo fahmaya erayada iyo is waafajinta macnaha guud iyo dareenka. Dhibka kaliya ayaa ah in nidaamyadan NLP ay yihiin kuwo qoraal ku saleysan oo keliya. Vokenization wuxuu ku dhow yahay inuu beddelo waxaas oo dhan.

    macnaha dhawaaqa

    Laba barnaamij oo barashada mashiinka ku salaysan (ML) ayaa inta badan loo isticmaalaa in lagu tababaro AI si loo habeeyo oo loo fahmo luqadda bini'aadamka: OpenAI's Generative Pre-tababaran Transformer 3 (GPT-3) iyo Google's BERT (Wakiilada Encoder Bidirectional from Transformers). Eray bixinta AI, ereyada lagu isticmaalo tababbarka NLP waxaa loo yaqaan calaamado. Cilmi-baarayaal ka socda Jaamacadda North Carolina (UNC) waxay arkeen in barnaamijyada tababarka qoraalka ku saleysan ay xaddidan yihiin sababtoo ah ma "arki karaan," taasoo la micno ah inaysan qabsan karin macluumaadka muuqaalka iyo isgaarsiinta. 

    Tusaale ahaan, haddii qof uu weydiiyo GPT-3 waxa midabka idaha ah, nidaamka ayaa inta badan ka jawaabi doona "madow" xitaa haddii ay si cad u caddahay. Jawaabtaani waa sababta oo ah nidaamka qoraalka ku saleysan ayaa la xiriirin doona ereyga "ido madow" halkii la aqoonsan lahaa midabka saxda ah. Marka la isku daro muuqaalada calaamadaha (voken), nidaamyada AI waxay yeelan karaan faham buuxa oo ku saabsan ereyada. Vokenization-ku wuxuu dhexgeliyaa dhawaaqyada nidaamyada NLP ee is-maamula, taas oo u oggolaanaysa inay horumariyaan "caqli guud."

    Isku dhafka moodooyinka luqadda iyo aragtida kombuyuutarku maaha fikrad cusub, waana goob si degdeg ah u fidinaysa cilmi-baarista AI. Isku darka labadan nooc ee AI waxay ka faa'iidaystaan ​​awooddooda shakhsi ahaaneed. Moodooyinka luqadaha sida GPT-3 waxaa lagu tababaray waxbarasho aan la ilaalin, taasoo u oggolaanaysa inay si fudud u cabbiraan. Taas bedelkeeda, moodooyinka sawirada sida hababka aqoonsiga shayga ayaa si toos ah wax uga baran kara xaqiiqada oo kuma tiirsana soo koobidda qoraalka. Tusaale ahaan, moodooyinka sawirku waxay aqoonsan karaan in laxdu ay caddahay marka la eego sawirka.

    Saamaynta qaska

    Habka dhawaaq-ururinta waa mid toos ah. Vokens waxa la abuuraa iyada oo loo qaybiyo sawirada u dhigma ama la xidhiidha calaamadaha luqadda. Dabadeed, algorithms (vokenizer) ayaa loo qaabeeyey in ay abuuraan cod-bixinno iyada oo loo marayo barasho aan la ilaalin (ma jiraan xaddidaadyo/sharciyo cad). Dareenka caadiga ah AI ee lagu tababaray dhawaaq-ururinta ayaa la xiriiri kara oo xallin kara mashaakilaadka si ka wanaagsan sababtoo ah waxay leeyihiin faham qoto dheer oo ku saabsan macnaha guud. Habkani waa mid gaar ah sababtoo ah kaliya maaha inuu saadaaliyo calaamadaha luqadda laakiin sidoo kale wuxuu saadaaliyaa calaamadaha sawirada, taas oo ah wax ay ku dhaqmaan qaababka BERT ee aan awoodin inay sameeyaan.

    Tusaale ahaan, kaaliyeyaasha robotic waxay awood u yeelan doonaan inay aqoonsadaan sawirada oo ay si fiican u maraan geeddi-socodka sababtoo ah waxay "arki karaan" waxa iyaga looga baahan yahay. Nidaamyada sirdoonka macmalka ah ee loo tababaray in ay qoraan nuxurka ayaa awood u yeelan doona in ay farsameeyaan maqaallo u dhawaqaya bini'aadamka, oo wata fikrado si fiican u qulqulaya, halkii ay ka ahaan lahaayeen jumlado kala duwan. Iyadoo la tixgalinayo baaxadda ballaaran ee codsiyada NLP, dhawaaq-qeybsigu wuxuu u horseedi karaa hawl-qabad ka wanaagsan chatbots, kaaliyeyaasha farsamada, baarista caafimaadka ee khadka tooska ah, turjumaannada dhijitaalka ah, iyo in ka badan.

    Intaa waxaa dheer, isku darka aragga iyo barashada luqadda ayaa caan ku ah codsiyada sawir-qaadista caafimaadka, gaar ahaan ogaanshaha sawirka caafimaadka tooska ah. Tusaale ahaan, cilmi-baarayaasha qaar ayaa tijaabinaya habkan sawirada shucaaca ee leh sharraxaadaha qoraalka ee la socda, halkaas oo qaybta semantic ay noqon karto waqti-qaadasho. Farsamada qaylo-dhaantu waxay wanaajin kartaa tusaalooyinkan waxayna wanaajin kartaa sawirka caafimaadka tooska ah iyadoo la adeegsanayo macluumaadka qoraalka.

    Codsiyada dhawaaqa

    Codsiyada qaarkood ee dhawaaq-qeybinta waxaa ka mid noqon kara:

    • Sheekooyin dareen leh oo ka baaraandegi kara sawir-qaadista, sawirrada, iyo waxa ku jira mareegaha. Taageerada macmiilka chatbots, gaar ahaan, waxa laga yaabaa inay awoodaan inay si sax ah ugu taliyaan badeecadaha iyo adeegyada.
    • Turjubaano dhijitaal ah oo farsamayn kara sawirada iyo fiidyowga oo bixiya tarjumaad sax ah oo tixgalinaysa xaaladda iyo dhaqanka.
    • Sawir-qaadayaasha bot-ka ee warbaahinta bulshada oo awood u leh inay sameeyaan falanqayn caadifadeed oo dhammaystiran iyagoo isku daraya sawirro, qoraallo, iyo faallooyin. Codsigan wuxuu faa'iido u yeelan karaa dhexdhexaadinta nuxurka u baahan falanqaynta sawirada waxyeellada leh.
    • Kordhinta fursadaha shaqo ee aragtida kombiyuutarka iyo injineerada barashada mashiinka NLP iyo saynisyahanada xogta.
    • Bilaabayaashu waxay ku dhisayaan nidaamyadan AI si ay uga ganacsadaan ama u bixiyaan xalal loo habeeyey ganacsiyada.

    Su'aalo aad ka faalooto

    • Sidee kale ayaad u malaynaysaa in cod-bixintu ay beddeli doonto sida aan ula falgalno robots?
    • Sidee bay dhawaaq-ururintu u beddeli kartaa sida aan u samayno ganacsiga oo aan ula falgalno agabkayaga (telefoonnada casriga ah iyo qalabka casriga ah)?

    Tixraacyada aragtida

    Xiriirinta caanka ah iyo kuwa hay'adaha ee soo socda ayaa loo tixraacay aragtidan: