Vokenization: AI ማየት የሚችል ቋንቋ

የምስል ክሬዲት፡
የምስል ክሬዲት
iStock

Vokenization: AI ማየት የሚችል ቋንቋ

Vokenization: AI ማየት የሚችል ቋንቋ

ንዑስ ርዕስ ጽሑፍ
ምስሎች አሁን በአርቴፊሻል ኢንተለጀንስ (AI) ሲስተሞች ስልጠና ውስጥ እየተካተቱ በመሆናቸው፣ ሮቦቶች በቅርቡ ትዕዛዞችን "ማየት" ይችሉ ይሆናል።
    • ደራሲ:
    • የደራሲ ስም
      ኳንተምሩን አርቆ እይታ
    • , 9 2023 ይችላል

    የተፈጥሮ ቋንቋን ማቀናበር (NLP) የሰው ሰራሽ ኢንተለጀንስ (AI) ስርዓቶች ቃላትን በመረዳት እና አውድ ከስሜቱ ጋር በማዛመድ የሰውን ንግግር እንዲማሩ አስችሏል። ብቸኛው ጉዳቱ እነዚህ NLP ስርዓቶች በፅሁፍ ላይ የተመሰረቱ መሆናቸው ነው። ቮኬኔሽን ያን ሁሉ ሊለውጥ ነው።

    የድምፅ አወጣጥ አውድ

    ሁለት ጽሑፍን መሰረት ያደረጉ የማሽን መማሪያ (ML) ፕሮግራሞች ብዙውን ጊዜ AI የሰውን ቋንቋ እንዲሰራ እና እንዲረዳ ለማሰልጠን ያገለግላሉ፡- OpenAI's Generative Pre-Tined Transformer 3 (GPT-3) እና Google's BERT (Bidirectional Encoder Representations from Transformers)። በ AI ቃላት ውስጥ, በ NLP ስልጠና ውስጥ ጥቅም ላይ የሚውሉት ቃላት ቶከን ይባላሉ. የሰሜን ካሮላይና ዩኒቨርሲቲ ተመራማሪዎች በፅሁፍ ላይ የተመሰረቱ የሥልጠና መርሃ ግብሮች የተገደቡ ናቸው ምክንያቱም "ማየት" ስለማይችሉ የእይታ መረጃን እና ግንኙነትን መያዝ አይችሉም ማለት ነው. 

    ለምሳሌ, አንድ ሰው GPT-3 የበግ ቀለም ምን እንደሆነ ከጠየቀ, ስርዓቱ ብዙውን ጊዜ "ጥቁር" በግልጽ ነጭ ቢሆንም እንኳ ይመልሳል. ይህ ምላሽ ጽሑፍ ላይ የተመሰረተው ሥርዓት ትክክለኛውን ቀለም ከመለየት ይልቅ "ጥቁር በግ" ከሚለው ቃል ጋር ስለሚያገናኘው ነው. ምስሎችን ከቶከን (ቮከን) ጋር በማካተት የ AI ስርዓቶች ስለ ቃላት አጠቃላይ ግንዛቤ ሊኖራቸው ይችላል። ቮኬንዜሽን ቮከንን በራስ ቁጥጥር ከሚደረግባቸው የኤንኤልፒ ስርዓቶች ጋር ያዋህዳል፣ ይህም “የጋራ አእምሮን” እንዲያዳብሩ ያስችላቸዋል።

    የቋንቋ ሞዴሎችን እና የኮምፒዩተር እይታን ማዋሃድ አዲስ ጽንሰ-ሀሳብ አይደለም, እና በ AI ምርምር ውስጥ በፍጥነት እየሰፋ ያለ መስክ ነው. የእነዚህ ሁለት የ AI ዓይነቶች ጥምረት የየራሳቸውን ጥንካሬዎች ይጠቀማሉ. እንደ GPT-3 ያሉ የቋንቋ ሞዴሎች ቁጥጥር በሌለው ትምህርት የሰለጠኑ ናቸው፣ ይህም በቀላሉ እንዲመዘኑ ያስችላቸዋል። በአንጻሩ እንደ የነገር ማወቂያ ስርዓቶች ያሉ የምስል ሞዴሎች ከእውነታው በቀጥታ ሊማሩ ይችላሉ እና በጽሑፉ የቀረበው ረቂቅ ላይ አይመሰረቱም። ለምሳሌ, የምስል ሞዴሎች አንድ በግ ነጭ መሆኑን ስእል በመመልከት ሊገነዘቡ ይችላሉ.

    የሚረብሽ ተጽእኖ

    የድምፅ ማጉላት ሂደት በጣም ቀላል ነው። ቮከኖች የሚሠሩት ተጓዳኝ ወይም ተዛማጅ ምስሎችን ለቋንቋ ቶከኖች በመመደብ ነው። ከዚያም፣ ስልተ ቀመሮች (ቮኬናይዘር) ቁጥጥር በሌለው ትምህርት (ግልጽ መለኪያዎች/ህጎች የሉትም) ቮከኖችን ለማፍለቅ የተነደፉ ናቸው። በቮኬንዜሽን የሰለጠነ የጋራ አእምሮ AI መግባባት እና ችግሮችን በተሻለ ሁኔታ መፍታት ይችላል ምክንያቱም ስለ አውድ ጠለቅ ያለ ግንዛቤ ስላላቸው። ይህ አቀራረብ ልዩ ነው ምክንያቱም የቋንቋ ምልክቶችን ብቻ ሳይሆን የምስል ምልክቶችን ይተነብያል, ይህም ባህላዊ የ BERT ሞዴሎች ሊያደርጉት የማይችሉት ነገር ነው.

    ለምሳሌ, የሮቦት ረዳቶች ምስሎችን ማወቅ እና ሂደቶችን በተሻለ ሁኔታ ማሰስ ይችላሉ, ምክንያቱም ከእነሱ የሚፈለጉትን "ማየት" ይችላሉ. ይዘትን ለመጻፍ የሰለጠኑ አርቴፊሻል ኢንተለጀንስ ሥርዓቶች እርስ በርሳቸው ከተጣመሩ ዓረፍተ ነገሮች ይልቅ ሰብዓዊ የሚመስሉ ጽሑፎችን መሥራት ይችላሉ። የ NLP አፕሊኬሽኖችን ሰፊ ተደራሽነት ግምት ውስጥ በማስገባት ቮኬንዜሽን የተሻለ አፈጻጸም ያላቸውን ቻትቦቶች፣ ምናባዊ ረዳቶች፣ የመስመር ላይ የህክምና ምርመራዎችን፣ ዲጂታል ተርጓሚዎችን እና ሌሎችንም ሊያመጣ ይችላል።

    በተጨማሪም፣ የእይታ እና የቋንቋ ትምህርት ጥምረት በሕክምና ምስል አፕሊኬሽኖች በተለይም በራስ-ሰር ለሚደረግ የህክምና ምስል ምርመራ ተወዳጅነት እያገኘ ነው። ለምሳሌ፣ አንዳንድ ተመራማሪዎች የፍቺ ክፍፍል ጊዜ የሚወስድ በሚሆንበት በራዲዮግራፍ ምስሎች ላይ ከዚህ አቀራረብ ጋር በመሞከር ላይ ናቸው። የድምፅ አወጣጥ ቴክኒኩ እነዚህን ውክልናዎች ሊያሻሽል እና የጽሑፍ መረጃን በመጠቀም አውቶማቲክ የሕክምና ምስልን ማሻሻል ይችላል።

    ለድምጽ ማሰማት ማመልከቻዎች

    አንዳንድ የድምፅ ማሰማት ማመልከቻዎች የሚከተሉትን ሊያካትቱ ይችላሉ፡-

    • ቅጽበታዊ ገጽ እይታዎችን፣ ስዕሎችን እና የድር ጣቢያ ይዘቶችን ማካሄድ የሚችሉ የሚታወቁ ቻትቦቶች። የደንበኛ ድጋፍ ቻትቦቶች፣ በተለይም ምርቶችን እና አገልግሎቶችን በትክክል ሊመክሩ ይችላሉ።
    • ምስሎችን እና ቪዲዮዎችን የሚያስተናግዱ እና ባህላዊ እና ሁኔታዊ አውድ ያገናዘበ ትክክለኛ ትርጉም የሚያቀርቡ ዲጂታል ተርጓሚዎች።
    • የማህበራዊ ሚዲያ ቦቶች ስካነሮች ምስሎችን፣ መግለጫ ፅሁፎችን እና አስተያየቶችን በማዋሃድ የበለጠ አጠቃላይ የሆነ ስሜት ትንተና ማካሄድ ይችላሉ። ይህ መተግበሪያ ጎጂ ምስሎችን መተንተን በሚፈልግ የይዘት ልኬት ላይ ጠቃሚ ሊሆን ይችላል።
    • ለኮምፒዩተር እይታ እና ለኤንኤልፒ ማሽን መማሪያ መሐንዲሶች እና የውሂብ ሳይንቲስቶች የስራ እድሎችን ማሳደግ።
    • በእነዚህ AI ስርዓቶች ላይ የሚገነቡ ጀማሪዎች እነሱን ለንግድ ለማድረግ ወይም ለንግዶች ብጁ መፍትሄዎችን ለማቅረብ።

    አስተያየት ለመስጠት ጥያቄዎች

    • ሌላ እንዴት ድምጽ ማሰማት ከሮቦቶች ጋር እንደምንገናኝ ይለውጣል ብለው ያስባሉ?
    • ንግድን እንዴት እንደምንመራ እና ከመግብሮቻችን (ስማርት ፎኖች እና ስማርት እቃዎች) ጋር እንዴት መስተጋብር እንደምንፈጥር ቮኬኔሽን እንዴት ሊለውጠው ይችላል?

    የማስተዋል ማጣቀሻዎች

    ለዚህ ግንዛቤ የሚከተሉት ታዋቂ እና ተቋማዊ አገናኞች ተጠቅሰዋል።