Синтетични данни: Създаване на точни AI системи с помощта на произведени модели

КРЕДИТ ЗА ИЗОБРАЖЕНИЕ:
Изображение на кредит
iStock

Синтетични данни: Създаване на точни AI системи с помощта на произведени модели

Синтетични данни: Създаване на точни AI системи с помощта на произведени модели

Подзаглавен текст
За създаване на точни модели на изкуствен интелект (AI), симулираните данни, създадени от алгоритъм, виждат повишена полезност.
    • Автор:
    • име Автор
      Quantumrun Foresight
    • Май 4, 2022

    Резюме на прозрението

    Синтетичните данни, мощен инструмент, който има приложения, вариращи от здравеопазване до търговия на дребно, променят начина, по който се разработват и внедряват системите с изкуствен интелект. Като позволяват създаването на разнообразни и сложни набори от данни, без да застрашават чувствителна информация, синтетичните данни повишават ефективността в индустриите, запазват поверителността и намаляват разходите. Въпреки това, той също така представлява предизвикателства, като потенциална злоупотреба при създаване на измамни медии, опасения за околната среда, свързани с потреблението на енергия, и промени в динамиката на пазара на труда, които трябва да бъдат внимателно управлявани.

    Контекст на синтетични данни

    От десетилетия синтетичните данни съществуват под различни форми. Може да се намери в компютърни игри като летателни симулатори и във физически симулации, които изобразяват всичко - от атоми до галактики. Сега синтетичните данни се прилагат в индустрии като здравеопазването за решаване на предизвикателствата на ИИ в реалния свят.

    Напредъкът на ИИ продължава да се сблъсква с няколко пречки при внедряването. Големите набори от данни, например, се изискват, за да доставят надеждни констатации, да не са пристрастни и да се придържат към все по-строги разпоредби за поверителност на данните. На фона на тези предизвикателства анотираните данни, създадени чрез компютъризирани симулации или програми, се появиха като алтернатива на истинските данни. Тези създадени от изкуствен интелект данни, известни като синтетични данни, са от решаващо значение за разрешаване на опасенията за поверителността и изкореняване на предразсъдъците, тъй като могат да осигурят разнообразие от данни, което отразява действителния свят.

    Практикуващите здравни специалисти използват синтетични данни, като пример, в рамките на сектора на медицинските изображения, за да обучат AI системи, като същевременно запазват поверителността на пациентите. Фирмата за виртуални грижи, Curai, например, използва 400,000 3 синтетични медицински случая, за да обучи алгоритъм за диагностика. Освен това търговци на дребно като Caper използват 2021D симулации, за да създадат синтетичен набор от хиляда снимки от едва пет снимки на продукта. Според проучване на Gartner, публикувано през юни 2030 г., фокусирано върху синтетични данни, повечето от данните, използвани в разработването на AI, ще бъдат изкуствено произведени чрез законодателство, статистически стандарти, симулации или други средства до XNUMX г.

    Разрушително въздействие

    Синтетичните данни помагат за опазването на поверителността и предотвратяването на нарушения на данните. Например болница или корпорация може да предложи на разработчика висококачествени синтетични медицински данни за обучение на базирана на AI система за диагностика на рак – данни, които са толкова сложни, колкото данните от реалния свят, които тази система трябва да интерпретира. По този начин разработчиците разполагат с качествени набори от данни, които да използват при проектирането и компилирането на системата, а болничната мрежа не е изложена на риск от застрашаване на чувствителни медицински данни на пациенти. 

    Синтетичните данни могат допълнително да позволят на купувачите на тестови данни да получат достъп до информация на по-ниска цена от традиционните услуги. Според Пол Уолборски, който е съосновател на AI Reverie, един от първите специализирани бизнеси за синтетични данни, едно изображение, което струва $6 от услуга за етикетиране, може да бъде изкуствено генерирано за шест цента. Обратно, синтетичните данни ще проправят пътя за разширени данни, което води до добавяне на нови данни към съществуващ набор от данни от реалния свят. Разработчиците могат да завъртят или осветят старо изображение, за да направят ново. 

    И накрая, предвид опасенията за поверителността и правителствените ограничения, личната информация, съществуваща в база данни, става все по-законодателна и сложна, което затруднява използването на информация от реалния свят за създаване на нови програми и платформи. Синтетичните данни могат да предоставят на разработчиците заобиколно решение за замяна на силно чувствителни данни.

    Последици от синтетичните данни 

    По-широките последици от синтетичните данни могат да включват:

    • Ускореното развитие на нови AI системи, както по мащаб, така и по разнообразие, които подобряват процесите в множество индустрии и области на дисциплина, което води до повишена ефективност в сектори като здравеопазване, транспорт и финанси.
    • Позволява на организациите да споделят информация по-открито, а екипите да си сътрудничат и да работят по-ефективно, което води до по-сплотена работна среда и способността да се справят с лекота по сложни проекти.
    • Разработчиците и професионалистите в областта на данните могат да изпращат по имейл или да пренасят големи синтетични набори от данни на своите лаптопи, сигурни, че критичните данни не са застрашени, което води до по-гъвкави и сигурни условия на работа.
    • Намалената честота на пробиви в киберсигурността на базите данни, тъй като автентичните данни вече няма да се нуждаят от достъп или споделяне толкова често, което води до по-сигурна цифрова среда както за бизнеса, така и за физическите лица.
    • Правителствата получават повече свобода да прилагат по-стриктно законодателство за управление на данни, без да се притесняват от възпрепятстване на индустриалното развитие на AI системи, което води до по-регулирана и прозрачна среда за използване на данни.
    • Потенциал синтетичните данни да бъдат използвани неетично за създаване на дълбоки фалшиви или други манипулативни медии, което води до дезинформация и ерозия на доверието в цифровото съдържание.
    • Промяна в динамиката на пазара на труда, с повишена зависимост от синтетични данни, потенциално намаляваща необходимостта от роли за събиране на данни, което води до изместване на работни места в определени сектори.
    • Потенциалното въздействие върху околната среда на увеличените изчислителни ресурси, необходими за генериране и управление на синтетични данни, което води до по-високо потребление на енергия и свързаните с това опасения за околната среда.

    Въпроси за разглеждане

    • Кои други индустрии могат да се възползват от синтетичните данни?
    • Какви разпоредби трябва да въведе правителството относно това как се създават, използват и внедряват синтетичните данни? 

    Препратки към Insight

    Следните популярни и институционални връзки бяха посочени за тази информация: