Nahiusa nga mga proseso sa pagkat-on: Ang pagkat-on nga nagdumala sa kaugalingon sa katapusan mahimong makanunayon

IMAHE CREDIT:
Kredito sa litrato
iStock

Nahiusa nga mga proseso sa pagkat-on: Ang pagkat-on nga nagdumala sa kaugalingon sa katapusan mahimong makanunayon

Nahiusa nga mga proseso sa pagkat-on: Ang pagkat-on nga nagdumala sa kaugalingon sa katapusan mahimong makanunayon

Subheading nga teksto
Ang mga tigdukiduki sa katapusan nakadiskobre og usa ka paagi sa pagbansay sa mga algorithm pinaagi sa usa ka input bisan unsa pa ang tipo sa datos o format.
    • Author:
    • Ngalan sa tagsulat
      Quantumrun Foresight
    • Pebrero 7, 2023

    Ang lawom nga neural net sa tradisyonal nga maayo sa pag-ila sa mga butang sa mga litrato ug video, ingon man pagproseso sa natural nga sinultihan. Bisan pa, kadaghanan sa panukiduki nga naglibot sa mga algorithm nga nagdumala sa kaugalingon nagpunting sa mga indibidwal nga modalidad, nga mahimong mosangput sa pagpihig.

    Nahiusa nga konteksto sa proseso sa pagkat-on

    Pinaagi sa pagdumala sa kaugalingon, ang mga kompyuter makakat-on bahin sa ilang palibot pinaagi sa pagsusi niini ug paghimo sa kahulogan sa mga hulagway, audio recording, o sinulat nga mga pulong. Mas episyente ang pagbaton ug mga makina nga wala magkinahanglan ug manwal nga instruksyon sa pag-ila sa mga hulagway o pagsabot sa sinultihan nga pinulongan. Kadaghanan sa self-supervised nga panukiduki sa pagkat-on nagpunting sa usa ka lugar kaysa daghang mga modalidad. Busa, ang mga tigdukiduki nga nagpunting sa usa ka lugar kasagaran adunay usa ka hingpit nga lahi nga estratehiya kaysa sa mga nagpunting sa lain.

    Pananglitan, sa pagproseso sa sinultihan, ang pipila nga mga buluhaton sa pagkat-on nga nagdumala sa kaugalingon wala’y bokabularyo sa mga yunit sa pagsulti. Ingon usa ka sangputanan, daghang mga modelo ang adunay mga mekanismo nga nakakat-on sa usa ka imbentaryo sa mga yunit sa pagsulti. Ang pagkat-on sa mga token, pag-regress sa input, o paghimo sa data augmentation mao ang pipila ka mga paagi nga ang computer vision researchers misulay sa pakigbatok niini nga isyu kaniadto. Bisan pa, kasagaran lisud ang pagsulti kung kini nga mga pamaagi epektibo sa gawas sa orihinal nga konteksto.

    Sumala sa usa ka 2022 nga pagtuon sa Cornell University, ang nag-unang mga teorya sa biology sa pagkat-on nagsugyot nga ang mga tawo lagmit mogamit sa parehas nga mga proseso aron masabtan ang mga biswal ug sinultian. Sa susama, ang kinatibuk-ang mga arkitektura sa neural network adunay labaw sa mga katugbang nga piho nga modality. Ingon niana, kaniadtong 2022, gipaila sa Meta ang Data2vec, usa ka sistema nga naggamit usa ka algorithm aron mabansay ang usa ka neural network aron mailhan ang mga imahe, teksto, o sinultihan. 

    Makasamok nga epekto

    Ang mga algorithm nagproseso sa mga imahe, teksto, ug tingog nga lahi tungod kay ilang gipaabut ang lahi nga mga yunit sama sa mga pixel, visual token, mga pulong, o mga imbentaryo sa tunog. Ang paghimo sa mga algorithm adunay kalabotan sa usa ka partikular nga modalidad, nagpasabut nga ang mga naa sa lainlaing mga modalidad magpadayon nga molihok nga lahi sa usag usa. Gitugotan sa Data2vec ang mga modelo nga molihok nga adunay lainlaing mga tipo sa input pinaagi sa pag-focus sa mga representasyon, sama sa mga layer sa usa ka neural network. Uban sa data2vec, dili kinahanglan nga matagna ang mga biswal nga token, hugpong sa mga pulong, o tunog.

    Gipakita sa Data2vec nga ang usa ka algorithm sa pagtudlo sa kaugalingon dili lamang molihok nga maayo sa daghang mga senaryo apan kanunay nga labi ka maayo kaysa labi ka tradisyonal nga mga pamaagi. Kini nga feature mahimong mosangpot sa mas lapad nga paggamit sa self-supervised nga pagkat-on ug makapaduol nato sa AI machines nga makatudlo sa ilang kaugalingon bahin sa komplikadong mga topiko sama sa sports event o lain-laing paagi sa pagluto og pan gamit ang mga salida, artikulo, ug audio recording.

    Sa usa ka 2022 nga papel nga gipatik sa Nature journal, gipasiugda sa mga tigdukiduki ang nagsaad nga mga aplikasyon sa pagkat-on nga nagdumala sa kaugalingon alang sa pagpalambo sa mga modelo nga naggamit mga multimodal nga mga datos. Gihisgotan usab sa pagtuon ang pipila ka mga hagit sa pagkolekta sa walay pagpihig nga datos alang sa ilang pagbansay, sama sa mga pamaagi nga gigamit sa medisina ug pag-atiman sa panglawas. Uban sa self-supervised nga pagkat-on, ang team makatudlo sa mga makina gamit lang ang walay label nga datos. Kini nga kahimoan usa ka maayo nga punto sa pagsugod alang sa bisan unsang buluhaton sa sulod sa medisina (ug sa unahan) aron matagna ang tinago nga kasayuran nga dili klaro nga pagkategorya. Sa umaabot, ang mga algorithm makahimo sa mas maayo nga pag-ila sa mga open-ended input ug i-relate kini sa ubang mga dataset nga walay interbensyon sa tawo.

    Mga implikasyon sa hiniusang proseso sa pagkat-on

    Ang mas lapad nga mga implikasyon sa hiniusang proseso sa pagkat-on mahimong maglakip sa: 

    • Mga chatbot nga makahimo og mga rekomendasyon ug makaila sa mga produkto base sa mga screenshot ug voice recording.
    • Ang mga digital nga katabang nga mahimong dungan nga magproseso sa biswal ug audio nga impormasyon, nga motultol sa mas tukma nga mga serbisyo ug mga tubag.
    • Ang mga virtual nga karakter ug mga higala nga gihimo sa metaverse nga makakat-on pinaagi sa pagpakig-uban sa mga tawo ug sa katapusan makig-uban ug makig-istorya sa mga tawo sa mga paagi nga gibati nga labi ka buhi. 
    • Mga smart appliances nga makasugod sa kaugalingon base sa audio ug visual cues.
    • Gipauswag ang mga kapabilidad sa awtonomous nga awto nga tukma nga makaila sa mga butang sa dalan o makatubag sumala sa mga sirena sa pulisya ug ambulansya.
    • Mas maayo nga teknolohiya sa pagtabang nga makatabang sa paggiya sa mga tawo nga adunay mga kakulangan sa audio o biswal aron mapauswag ang ilang kagawasan ug paglihok.

    Mga pangutana nga ikomento

    • Sa unsa pa nga paagi kini nga teknolohiya makahimo og mas intuitive nga mga himan ug digital nga mga katabang?
    • Unsa ang ubang mga paagi nga ang multimodal AI makatabang kanimo sa trabaho?