פּראָבלעמאַטיק טריינינג דאַטן: ווען אַי איז געלערנט בייאַסט דאַטן

בילד קרעדיט:
בילד קרעדיט
iStock

פּראָבלעמאַטיק טריינינג דאַטן: ווען אַי איז געלערנט בייאַסט דאַטן

פּראָבלעמאַטיק טריינינג דאַטן: ווען אַי איז געלערנט בייאַסט דאַטן

סובהעדינג טעקסט
קינסטלעך סייכל סיסטעמען זענען מאל ינטראָודוסט מיט סאַבדזשעקטיוו דאַטן וואָס קענען ווירקן ווי עס אקטן און מאכט דיסיזשאַנז.
    • וועגן דעם מחבר
    • מחבר נאָמען
      קוואַנטומרון פאָרסייט
    • אקטאבער קסנומקס, קסנומקס

    ינסייט קיצער

    מיר זענען וואָס מיר לערנען און ינטעראַלייז; דעם דיקטום אויך אַפּלייז צו קינסטלעך סייכל (AI). מאַשין לערנען (ML) מאָדעלס פעד מיט דערענדיקט, בייאַסט און אַנעטיקאַל דאַטן וועט לעסאָף מאַכן פּראָבלעמאַטיק דיסיזשאַנז און פֿירלייגן. די שטאַרק אַלגערידאַמז קען זיין ימפּלאַמענאַד די מאָראַל און פּערסעפּשאַנז פון ניצערס אויב ריסערטשערז זענען נישט אָפּגעהיט.

    פּראָבלעמאַטיק טריינינג דאַטן קאָנטעקסט

    זינט די 2010 ס, פאָרשונג טימז האָבן שוין סקרוטאַנייזד פֿאַר ניצן טריינינג דאַטאַסעץ מיט ומפּאַסיק אינהאַלט אָדער אלנגעזאמלט אַנעטיקאַללי. צום ביישפּיל, אין 2016, מייקראָסאָפֿט MS-Seleb-1M דאַטאַבייס אַרייַנגערעכנט 10 מיליאָן בילדער פון 100,000 פאַרשידענע סאַלעבריטיז. אָבער, ביי ווייַטער דורכקוק, קאָרעספּאָנדענץ דיסקאַווערד אַז פילע פאָטאָס זענען פון פּראָסט מענטשן פּולד פון פאַרשידן וועבסיטעס אָן די באַזיצער ס צושטימען אָדער וויסן.

    טראָץ דעם רעאַליזיישאַן, די דאַטאַסעט איז געצויגן צו זיין יוטאַלייזד דורך הויפּט קאָמפּאַניעס אַזאַ ווי פאַסעבאָאָק און SenseTime, אַ כינעזיש פיישאַל דערקענונג פירמע מיט פֿאַרבינדונגען צו די שטאַט פּאָליצייַ. סימילאַרלי, אַ דאַטאַסעט מיט בילדער פון מענטשן גיין אויף די קאַמפּאַס פון Duke University (DukeMTMC) האט אויך נישט קלייַבן צושטימען. יווענטשאַוואַלי, ביידע דאַטאַסעץ זענען אַוועקגענומען. 

    צו הויכפּונקט די דאַמידזשינג יפעקץ פון פּראָבלעמאַטיק טריינינג דאַטן, ריסערטשערז אין די מאַססאַטשוסעטץ אינסטיטוט פון טעכנאָלאָגיע (MIT) באשאפן אַן אַי גערופן נאָרמאַן וואָס זיי געלערנט צו דורכפירן בילד קאַפּטיאָנינג פון אַ סוברעדדיט וואָס כיילייטיד גראַפיק גוואַלד. דער קאָלעקטיוו דעמאָלט געשטעלט נאָרמאַן קעגן אַ נעוראַל נעץ טריינד ניצן קאַנווענשאַנאַל דאַטן. די ריסערטשערז האָבן צוגעשטעלט ביידע סיסטעמען מיט Rorschach טינט בלאַץ און געבעטן די אַי צו באַשרייַבן וואָס זיי געזען. די רעזולטאַטן זענען סטאַנינג: ווו די נאָרמאַל נעוראַל נעץ געזען "אַ שוואַרץ און ווייַס פאָטאָ פון אַ בייסבאָל הענטשקע," נאָרמאַן באמערקט "אַ מענטש מערדערד דורך מאַשין ביקס אין ברייט טאָגליכט." דער עקספּערימענט דעמאַנסטרייטיד אַז אַי איז נישט אויטאָמאַטיש בייאַסט, אָבער די דאַטן אַרייַנשרייַב מעטהאָדס און די מאטיוון פון זייער קריייטערז קענען באטייטיק פּראַל די נאַטור פון אַן אַי.

    דיסראַפּטיוו פּראַל

    אין 2021, די פאָרשונג אָרגאַניזאַציע Allen Institute for AI באשאפן Ask Delphi, אַן ML ווייכווארג וואָס אַלגערידאַמיקלי דזשענערייץ ענטפֿערס פֿאַר ענטפֿערס צו קיין עטישע קשיא. די ריסערטשערז הינטער די פּרויעקט סטייטיד אַז אַי איז ביסלעכווייַז מער שטאַרק און באַקאַנט, אַזוי סייאַנטיס דאַרפֿן צו לערנען די ML ​​סיסטעמען עטיקס. די יינהאָרן ML מאָדעל איז דער יסוד פון דעלפי. עס איז געווען פארמולירט צו דורכפירן "סאַונד זינען" ריזאַנינג, אַזאַ ווי סעלינג די מערסט פּראַבאַבאַל סוף צו אַ טעקסט שטריקל. 

    דערצו, ריסערטשערז געניצט די 'קאָממאָנסענסע נאָרם באַנק.' דער באַנק באשטייט פון 1.7 מיליאָן ביישפילן פון עטישע אפשאצונגען פון מענטשן פֿון ערטער ווי Reddit. ווי אַ רעזולטאַט, דעלפי ס רעזולטאַט איז געווען אַ געמישט זעקל. דעלפי געענטפערט עטלעכע פראגעס גלייַך (למשל, יקוואַלאַטי צווישן מענטשן און פרויען), כאָטש, אין עטלעכע טעמעס, דעלפי איז געווען דאַונרייט אַפענסיוו (למשל, גענאָציד איז פּאַסיק ווי לאַנג ווי עס געמאכט מענטשן צופרידן).

    אָבער, די Delphi AI לערנען פון זיין יקספּיריאַנסיז און סימז צו דערהייַנטיקן זיין ענטפֿערס באזירט אויף באַמערקונגען. עטלעכע עקספּערץ זענען ומרויק דורך די פאָרשונג ס ציבור און אָפֿן נוצן, קאַנסידערינג די מאָדעל איז אין פּראָגרעס און איז פּראָנע צו יראַטיק ענטפֿערס. ווען Ask Delphi דעביוטעד, Mar Hicks, אַ פּראָפעסאָר פון געשיכטע אין יללינאָיס טעק ספּעשאַלייזד אין דזשענדער, אַרבעט און די געשיכטע פון ​​קאַמפּיוטינג, האט געזאגט אַז עס איז נעגלאַדזשאַנט פון ריסערטשערז צו פאַרבעטן מענטשן צו נוצן עס, קאַנסידערינג דעלפי גלייך צוגעשטעלט גאָר אַנעטיקאַל ענטפֿערס און עטלעכע. גאַנץ ומזין. 

    אין קסנומקס, רעסט פון וועלט געפירט אַ לערנען אויף פאָרורטייל אין אַי בילד גענעראַטאָרס. מיט Midjourney, ריסערטשערז דיסקאַווערד אַז די דזשענערייטאַד בילדער באַשטעטיקן יגזיסטינג סטעריאַטייפּס. אין אַדישאַן, ווען OpenAI געוויינט פילטערס צו די טריינינג דאַטן פֿאַר זיין DALL-E 2 בילד דור מאָדעל, עס אַנינטענשאַנאַלי געשטארקט בייאַסיז שייַכות צו דזשענדער.

    ימפּלאַקיישאַנז פון פּראָבלעמאַטיק טריינינג דאַטן

    ברייטער ימפּלאַקיישאַנז פון פּראָבלעמאַטיק טריינינג דאַטן קען אַרייַננעמען: 

    • ריינפאָרסט בייאַסיז אין פאָרשונג פּראַדזשעקס, באַדינונגס און פּראָגראַם אַנטוויקלונג. פּראָבלעמאַטיק טריינינג דאַטן איז דער הויפּט וועגן אויב געוויינט אין געזעץ ענפאָרסמאַנט און באַנקינג אינסטיטוציעס (למשל, אַדווערסלי טאַרגאַטינג מינאָריטעט גרופּעס).
    • געוואקסן ינוועסמאַנט און אַנטוויקלונג אין די גראָוט און סאָרטירונג פון טריינינג דאַטן. 
    • מער גאַווערמאַנץ ינקריסינג רעגיאַליישאַנז צו באַגרענעצן ווי קאָרפּעריישאַנז אַנטוויקלען, פאַרקויפן און נוצן טריינינג דאַטן פֿאַר פאַרשידן געשעפט ינישאַטיווז.
    • מער געשעפטן גרינדן עטיקס דיפּאַרטמאַנץ צו ענשור אַז פּראַדזשעקס פּאַוערד דורך אַי סיסטעמען נאָכגיין עטישע גיידליינז.
    • ימפּרוווד דורכקוק אויף די נוצן פון אַי אין כעלטקער לידינג צו שטרענגערע דאַטן גאַווערנאַנס, ינשורינג פּאַציענט פּריוואַטקייט און עטישע אַי אַפּלאַקיישאַן.
    • געוואקסן ציבור און פּריוואַט סעקטאָר מיטאַרבעט צו שטיצן אַי ליטעראַסי, יקוויפּ די ווערקפאָרס מיט סקילז פֿאַר אַ אַי-דאַמאַנייטאַד צוקונפֿט.
    • פאַרגרעסערן אין פאָדערונג פֿאַר אַי דורכזעיקייַט מכשירים, לידינג קאָמפּאַניעס צו פּרייאָראַטייז די פאַרלענגערונג פון אַי סיסטעמען פֿאַר קאַנסומער פארשטאנד און צוטרוי.

    פֿראגן צו באַטראַכטן

    • ווי קען אָרגאַנאַזיישאַנז ויסמיידן ניצן פּראָבלעמאַטיק טריינינג דאַטן?
    • וואָס זענען אנדערע פּאָטענציעל קאַנסאַקווענסאַז פון אַנעטיקאַל טריינינג דאַטן?