Kuantumrun

KREDI I IMAZHIT:

iStock

Proceset e unifikuara të të mësuarit: Mësimi i vetë-mbikëqyrur më në fund mund të bëhet i qëndrueshëm

Studiuesit më në fund kanë zbuluar një mënyrë për të trajnuar algoritmet përmes një hyrjeje, pavarësisht nga lloji ose formati i të dhënave.

Author:
Emri i autorit
Parashikimi Kuantumrun
Shkurt 7, 2023

Rrjetat e thella nervore kanë qenë tradicionalisht të mira në identifikimin e objekteve në foto dhe video, si dhe në përpunimin e gjuhës natyrore. Megjithatë, shumica e kërkimeve rreth algoritmeve të vetë-mbikëqyrura janë përqendruar në modalitete individuale, të cilat mund të çojnë në paragjykim.

Konteksti i unifikuar i proceseve mësimore

Duke vetë-mbikëqyrur, kompjuterët mund të mësojnë rreth mjedisit të tyre duke i ekzaminuar ato dhe duke ndërtuar kuptimin e imazheve, regjistrimeve audio ose fjalëve të shkruara. Është më efikase të kesh makina që nuk kanë nevojë për udhëzime manuale për të dalluar fotografitë ose për të kuptuar gjuhën e folur. Shumica e kërkimeve mësimore të vetë-mbikëqyrura fokusohen në një fushë dhe jo në modalitete të shumta. Prandaj, studiuesit që fokusohen në një fushë shpesh kanë një strategji krejtësisht të ndryshme nga ata që fokusohen në një tjetër.

Për shembull, në përpunimin e të folurit, disa detyra mësimore të vetë-mbikëqyrura nuk kanë një fjalor të njësive të të folurit. Si rezultat, disa modele vijnë me mekanizma që mësojnë një inventar të njësive të të folurit. Mësimi i argumenteve, regresioni i hyrjes ose shtimi i të dhënave janë disa mënyra që studiuesit e vizionit kompjuterik janë përpjekur ta luftojnë këtë çështje në të kaluarën. Megjithatë, shpesh është e vështirë të thuhet nëse këto metoda do të jenë efektive jashtë kontekstit origjinal.

Sipas një studimi të Universitetit Cornell të vitit 2022, teoritë kryesore mbi biologjinë e të mësuarit sugjerojnë se njerëzit ka të ngjarë të përdorin procese të ngjashme për të kuptuar pamjet dhe gjuhën. Në mënyrë të ngjashme, arkitekturat e përgjithshme të rrjeteve nervore kanë tejkaluar homologët specifikë të modalitetit. Si i tillë, në vitin 2022, Meta prezantoi Data2vec, një sistem që përdor një algoritëm të vetëm për të trajnuar një rrjet nervor për të njohur imazhet, tekstin ose fjalimin.

Ndikim shkatërrues

Algoritmet i përpunojnë imazhet, tekstin dhe zërin në mënyra të ndryshme sepse parashikojnë njësi të dallueshme si pikselët, shenjat vizuale, fjalët ose inventarët e zërit. Krijimi i algoritmeve lidhet me një modalitet të caktuar, që do të thotë se ato në modalitete të ndryshme do të vazhdojnë të punojnë ndryshe nga njëri-tjetri. Data2vec lejon modelet të operojnë me lloje të ndryshme të hyrjes duke u fokusuar në përfaqësime, të tilla si shtresat e një rrjeti nervor. Me data2vec, nuk ka nevojë të parashikohen shenjat vizuale, frazat ose tingujt.

Data2vec tregon se një algoritëm vetë-mësues jo vetëm që mund të funksionojë mirë në shumë skenarë, por shpesh funksionon më mirë se metodat më tradicionale. Kjo veçori mund të çojë në përdorim më të gjerë të mësimit të vetë-mbikëqyrur dhe të na afrojë me makinat e AI që mund të mësojnë veten rreth temave komplekse si ngjarjet sportive ose mënyra të ndryshme të pjekjes së bukës duke përdorur filma, artikuj dhe regjistrime audio.

Në një punim të vitit 2022 të botuar në revistën Nature, studiuesit theksuan aplikime premtuese të mësimit të vetë-mbikëqyrur për zhvillimin e modeleve që përdorin grupe të dhënash multimodale. Studimi diskutoi gjithashtu disa sfida në mbledhjen e të dhënave të paanshme për trajnimin e tyre, të tilla si metodat e përdorura në mjekësi dhe kujdes shëndetësor. Me mësimin e vetë-mbikëqyrur, ekipi mund të mësonte makinat duke përdorur vetëm të dhëna të paetiketuara. Kjo arritje është një pikënisje e shkëlqyer për çdo detyrë brenda mjekësisë (dhe më gjerë) për të parashikuar informacione të fshehura që nuk mund të kategorizohen qartë. Në të ardhmen, algoritmet do të jenë në gjendje të njohin më mirë inputet e hapura dhe t'i lidhin ato me grupe të tjera të dhënash pa ndërhyrjen njerëzore.

Implikimet e proceseve të unifikuara të të mësuarit

Implikimet më të gjera të proceseve të unifikuara të të mësuarit mund të përfshijnë:

Chatbot që mund të bëjnë rekomandime dhe të identifikojnë produktet bazuar në pamjet e ekranit dhe regjistrimet zanore.
Asistentë dixhitalë që mund të përpunojnë njëkohësisht informacionin vizual dhe audio, duke çuar në shërbime dhe përgjigje më të sakta.
Personazhe dhe miq virtualë të krijuar në metavers që mund të mësojnë duke ndërvepruar me njerëzit dhe përfundimisht të angazhohen dhe të bisedojnë me njerëzit në mënyra që ndihen gjithnjë e më të gjalla.
Pajisjet inteligjente që mund të nisin vetë bazuar në sinjalet audio dhe vizuale.
Aftësitë e përmirësuara të automjeteve autonome që mund të identifikojnë me saktësi objektet në rrugë ose t'i përgjigjen në përputhje me rrethanat sirenave të policisë dhe ambulancës.
Teknologji më e mirë ndihmëse që mund të ndihmojë në drejtimin e njerëzve me dëmtime audio ose vizuale për të përmirësuar pavarësinë dhe lëvizshmërinë e tyre.

Pyetje për të komentuar

Si mundet ndryshe kjo teknologji të krijojë pajisje më intuitive dhe asistentë dixhitalë?
Cilat janë disa mënyra të tjera që AI multimodale mund t'ju ndihmojë në punë?

Shto tek lista