Синтетические данные: создание точных систем искусственного интеллекта с использованием промышленных моделей

ИЗОБРАЖЕНИЕ КРЕДИТ:
Кредит изображения
Istock

Синтетические данные: создание точных систем искусственного интеллекта с использованием промышленных моделей

Синтетические данные: создание точных систем искусственного интеллекта с использованием промышленных моделей

Текст подзаголовка
Для создания точных моделей искусственного интеллекта (ИИ) смоделированные данные, созданные алгоритмом, становятся все более полезными.
    • Автор:
    • Имя автора
      Квантумран Форсайт
    • 4 мая 2022

    Сводка статистики

    Синтетические данные — мощный инструмент, который находит применение в самых разных сферах — от здравоохранения до розничной торговли — меняют способы разработки и внедрения систем искусственного интеллекта. Позволяя создавать разнообразные и сложные наборы данных, не ставя под угрозу конфиденциальную информацию, синтетические данные повышают эффективность во всех отраслях, сохраняя конфиденциальность и сокращая затраты. Однако это также создает проблемы, такие как потенциальное злоупотребление при создании вводящих в заблуждение средств массовой информации, экологические проблемы, связанные с потреблением энергии, а также изменения в динамике рынка труда, которыми необходимо тщательно управлять.

    Синтетический контекст данных

    На протяжении десятилетий синтетические данные существовали в разных формах. Его можно найти в компьютерных играх, таких как авиасимуляторы, и в физических симуляциях, изображающих все — от атомов до галактик. Теперь синтетические данные применяются в таких отраслях, как здравоохранение, для решения реальных задач искусственного интеллекта.

    Развитие ИИ по-прежнему сталкивается с рядом препятствий на пути реализации. Например, большие наборы данных необходимы для получения достоверных результатов, отсутствия предвзятости и соблюдения все более строгих правил конфиденциальности данных. На фоне этих проблем аннотированные данные, созданные с помощью компьютерного моделирования или программ, стали альтернативой подлинным данным. Эти данные, созданные ИИ, известные как синтетические данные, имеют решающее значение для решения проблем конфиденциальности и искоренения предрассудков, поскольку они могут обеспечить разнообразие данных, отражающее реальный мир.

    Практикующие врачи используют синтетические данные, например, в секторе медицинских изображений для обучения систем искусственного интеллекта, сохраняя при этом конфиденциальность пациентов. Например, компания по виртуальной медицинской помощи Curai использовала 400,000 3 синтетических медицинских случаев для обучения алгоритму диагностики. Кроме того, розничные продавцы, такие как Caper, используют 2021D-моделирование для создания синтетического набора данных из тысячи фотографий всего из пяти снимков продукта. Согласно исследованию Gartner, опубликованному в июне 2030 года и посвященному синтетическим данным, к XNUMX году большая часть данных, используемых при разработке ИИ, будет искусственно создана с помощью законодательства, статистических стандартов, моделирования или других средств.

    Разрушительное воздействие

    Синтетические данные помогают сохранить конфиденциальность и предотвратить утечку данных. Например, больница или корпорация могут предложить разработчику высококачественные синтетические медицинские данные для обучения системы диагностики рака на основе искусственного интеллекта — данные, которые столь же сложны, как и реальные данные, которые эта система должна интерпретировать. Таким образом, у разработчиков есть качественные наборы данных, которые они могут использовать при проектировании и компиляции системы, а больничная сеть не подвергается риску поставить под угрозу конфиденциальные медицинские данные пациентов. 

    Синтетические данные могут также позволить покупателям данных тестирования получить доступ к информации по более низкой цене, чем традиционные услуги. По словам Пола Валборски, соучредителя AI Reverie, одного из первых предприятий, специализирующихся на синтетических данных, одно изображение, стоимость которого составляет 6 долларов, можно искусственно создать за шесть центов. И наоборот, синтетические данные откроют путь для дополненных данных, что влечет за собой добавление новых данных к существующему набору реальных данных. Разработчики могли вращать или осветлять старое изображение, чтобы создать новое. 

    Наконец, учитывая проблемы конфиденциальности и правительственные ограничения, личная информация, существующая в базе данных, становится все более законодательно закрепленной и сложной, что затрудняет использование реальной информации для создания новых программ и платформ. Синтетические данные могут предоставить разработчикам обходное решение для замены высококонфиденциальных данных.

    Последствия синтетических данных 

    Более широкие последствия синтетических данных могут включать:

    • Ускоренная разработка новых систем искусственного интеллекта, как по масштабу, так и по разнообразию, которые улучшают процессы во многих отраслях и областях дисциплин, что приводит к повышению эффективности в таких секторах, как здравоохранение, транспорт и финансы.
    • Позволяя организациям более открыто обмениваться информацией, а командам — сотрудничать и работать более эффективно, что приводит к более сплоченной рабочей среде и способности с легкостью решать сложные проекты.
    • Разработчики и специалисты по обработке данных могут отправлять по электронной почте или хранить большие наборы синтетических данных на своих ноутбуках, зная, что критически важные данные не подвергаются опасности, что приводит к более гибким и безопасным условиям работы.
    • Снижение частоты нарушений кибербезопасности баз данных, поскольку к подлинным данным больше не нужно будет получать доступ или делиться ими так часто, что приведет к более безопасной цифровой среде как для бизнеса, так и для частных лиц.
    • Правительства получают больше свободы в применении более строгого законодательства по управлению данными, не беспокоясь о том, что будут препятствовать отраслевому развитию систем искусственного интеллекта, что приводит к более регулируемому и прозрачному использованию данных.
    • Возможность неэтичного использования синтетических данных при создании дипфейков или других манипулятивных средств массовой информации, что приведет к дезинформации и подрыву доверия к цифровому контенту.
    • Изменение динамики рынка труда с увеличением использования синтетических данных потенциально снижает потребность в сборе данных, что приводит к сокращению рабочих мест в определенных секторах.
    • Потенциальное воздействие на окружающую среду увеличения вычислительных ресурсов, необходимых для создания синтетических данных и управления ими, приводит к более высокому потреблению энергии и связанным с этим экологическим проблемам.

    Вопросы для рассмотрения

    • Какие еще отрасли могут извлечь выгоду из синтетических данных?
    • Какие правила должно ввести правительство в отношении того, как создаются, используются и развертываются синтетические данные? 

    Ссылки на статистику

    Для этого понимания использовались следующие популярные и институциональные ссылки: