Синтетические данные: создание точных систем искусственного интеллекта с использованием промышленных моделей
Синтетические данные: создание точных систем искусственного интеллекта с использованием промышленных моделей
Синтетические данные: создание точных систем искусственного интеллекта с использованием промышленных моделей
- Автор:
- 4 мая 2022
Сводка статистики
Синтетические данные — мощный инструмент, который находит применение в самых разных сферах — от здравоохранения до розничной торговли — меняют способы разработки и внедрения систем искусственного интеллекта. Позволяя создавать разнообразные и сложные наборы данных, не ставя под угрозу конфиденциальную информацию, синтетические данные повышают эффективность во всех отраслях, сохраняя конфиденциальность и сокращая затраты. Однако это также создает проблемы, такие как потенциальное злоупотребление при создании вводящих в заблуждение средств массовой информации, экологические проблемы, связанные с потреблением энергии, а также изменения в динамике рынка труда, которыми необходимо тщательно управлять.
Синтетический контекст данных
На протяжении десятилетий синтетические данные существовали в разных формах. Его можно найти в компьютерных играх, таких как авиасимуляторы, и в физических симуляциях, изображающих все — от атомов до галактик. Теперь синтетические данные применяются в таких отраслях, как здравоохранение, для решения реальных задач искусственного интеллекта.
Развитие ИИ по-прежнему сталкивается с рядом препятствий на пути реализации. Например, большие наборы данных необходимы для получения достоверных результатов, отсутствия предвзятости и соблюдения все более строгих правил конфиденциальности данных. На фоне этих проблем аннотированные данные, созданные с помощью компьютерного моделирования или программ, стали альтернативой подлинным данным. Эти данные, созданные ИИ, известные как синтетические данные, имеют решающее значение для решения проблем конфиденциальности и искоренения предрассудков, поскольку они могут обеспечить разнообразие данных, отражающее реальный мир.
Практикующие врачи используют синтетические данные, например, в секторе медицинских изображений для обучения систем искусственного интеллекта, сохраняя при этом конфиденциальность пациентов. Например, компания по виртуальной медицинской помощи Curai использовала 400,000 3 синтетических медицинских случаев для обучения алгоритму диагностики. Кроме того, розничные продавцы, такие как Caper, используют 2021D-моделирование для создания синтетического набора данных из тысячи фотографий всего из пяти снимков продукта. Согласно исследованию Gartner, опубликованному в июне 2030 года и посвященному синтетическим данным, к XNUMX году большая часть данных, используемых при разработке ИИ, будет искусственно создана с помощью законодательства, статистических стандартов, моделирования или других средств.
Разрушительное воздействие
Синтетические данные помогают сохранить конфиденциальность и предотвратить утечку данных. Например, больница или корпорация могут предложить разработчику высококачественные синтетические медицинские данные для обучения системы диагностики рака на основе искусственного интеллекта — данные, которые столь же сложны, как и реальные данные, которые эта система должна интерпретировать. Таким образом, у разработчиков есть качественные наборы данных, которые они могут использовать при проектировании и компиляции системы, а больничная сеть не подвергается риску поставить под угрозу конфиденциальные медицинские данные пациентов.
Синтетические данные могут также позволить покупателям данных тестирования получить доступ к информации по более низкой цене, чем традиционные услуги. По словам Пола Валборски, соучредителя AI Reverie, одного из первых предприятий, специализирующихся на синтетических данных, одно изображение, стоимость которого составляет 6 долларов, можно искусственно создать за шесть центов. И наоборот, синтетические данные откроют путь для дополненных данных, что влечет за собой добавление новых данных к существующему набору реальных данных. Разработчики могли вращать или осветлять старое изображение, чтобы создать новое.
Наконец, учитывая проблемы конфиденциальности и правительственные ограничения, личная информация, существующая в базе данных, становится все более законодательно закрепленной и сложной, что затрудняет использование реальной информации для создания новых программ и платформ. Синтетические данные могут предоставить разработчикам обходное решение для замены высококонфиденциальных данных.
Последствия синтетических данных
Более широкие последствия синтетических данных могут включать:
- Ускоренная разработка новых систем искусственного интеллекта, как по масштабу, так и по разнообразию, которые улучшают процессы во многих отраслях и областях дисциплин, что приводит к повышению эффективности в таких секторах, как здравоохранение, транспорт и финансы.
- Позволяя организациям более открыто обмениваться информацией, а командам — сотрудничать и работать более эффективно, что приводит к более сплоченной рабочей среде и способности с легкостью решать сложные проекты.
- Разработчики и специалисты по обработке данных могут отправлять по электронной почте или хранить большие наборы синтетических данных на своих ноутбуках, зная, что критически важные данные не подвергаются опасности, что приводит к более гибким и безопасным условиям работы.
- Снижение частоты нарушений кибербезопасности баз данных, поскольку к подлинным данным больше не нужно будет получать доступ или делиться ими так часто, что приведет к более безопасной цифровой среде как для бизнеса, так и для частных лиц.
- Правительства получают больше свободы в применении более строгого законодательства по управлению данными, не беспокоясь о том, что будут препятствовать отраслевому развитию систем искусственного интеллекта, что приводит к более регулируемому и прозрачному использованию данных.
- Возможность неэтичного использования синтетических данных при создании дипфейков или других манипулятивных средств массовой информации, что приведет к дезинформации и подрыву доверия к цифровому контенту.
- Изменение динамики рынка труда с увеличением использования синтетических данных потенциально снижает потребность в сборе данных, что приводит к сокращению рабочих мест в определенных секторах.
- Потенциальное воздействие на окружающую среду увеличения вычислительных ресурсов, необходимых для создания синтетических данных и управления ими, приводит к более высокому потреблению энергии и связанным с этим экологическим проблемам.
Вопросы для рассмотрения
- Какие еще отрасли могут извлечь выгоду из синтетических данных?
- Какие правила должно ввести правительство в отношении того, как создаются, используются и развертываются синтетические данные?
Ссылки на статистику
Для этого понимания использовались следующие популярные и институциональные ссылки: