Dados sintéticos: criando sistemas de IA precisos usando modelos fabricados

CRÉDITO DE IMAGEM:
Crédito da imagem
iStock

Dados sintéticos: criando sistemas de IA precisos usando modelos fabricados

Dados sintéticos: criando sistemas de IA precisos usando modelos fabricados

Texto do subtítulo
Para criar modelos precisos de inteligência artificial (IA), os dados simulados criados por um algoritmo estão tendo maior utilidade.
    • Autor:
    • Nome do autor
      Previsão Quantumrun
    • 4 de maio de 2022

    Resumo do insight

    Os dados sintéticos, uma ferramenta poderosa que tem aplicações que vão desde cuidados de saúde até ao retalho, estão a remodelar a forma como os sistemas de IA são desenvolvidos e implementados. Ao permitir a criação de conjuntos de dados diversos e complexos sem pôr em risco informações sensíveis, os dados sintéticos estão a aumentar a eficiência em todos os setores, preservando a privacidade e reduzindo custos. No entanto, também apresenta desafios, como a potencial utilização indevida na criação de meios de comunicação enganosos, preocupações ambientais relacionadas com o consumo de energia e mudanças na dinâmica do mercado de trabalho que necessitam de ser cuidadosamente geridas.

    Contexto de dados sintéticos

    Por décadas, os dados sintéticos existiram em diferentes formas. Pode ser encontrado em jogos de computador como simuladores de voo e em simulações de física que retratam tudo, desde átomos a galáxias. Agora, dados sintéticos estão sendo aplicados em setores como saúde para resolver desafios de IA do mundo real.

    O avanço da IA ​​continua esbarrando em vários obstáculos de implementação. Grandes conjuntos de dados, por exemplo, são necessários para fornecer descobertas confiáveis, ser livres de preconceitos e aderir a regulamentações de privacidade de dados cada vez mais rígidas. Em meio a esses desafios, os dados anotados criados por simulações ou programas computadorizados surgiram como uma alternativa aos dados genuínos. Esses dados criados por IA, conhecidos como dados sintéticos, são essenciais para resolver as preocupações com a privacidade e erradicar o preconceito, pois podem garantir a diversidade de dados que reflete o mundo real.

    Os profissionais de saúde utilizam dados sintéticos, por exemplo, no setor de imagens médicas para treinar sistemas de IA, mantendo ao mesmo tempo a confidencialidade dos pacientes. A empresa de atendimento virtual Curai, por exemplo, usou 400,000 mil casos médicos sintéticos para treinar um algoritmo de diagnóstico. Além disso, retalhistas como a Caper utilizam simulações 3D para criar um conjunto de dados sintético de mil fotografias a partir de apenas cinco fotografias de produtos. De acordo com um estudo da Gartner divulgado em junho de 2021 focado em dados sintéticos, a maioria dos dados utilizados no desenvolvimento de IA serão fabricados artificialmente por legislação, padrões estatísticos, simulações ou outros meios até 2030.

    Impacto disruptivo

    Os dados sintéticos ajudam na preservação da privacidade e na prevenção de violações de dados. Por exemplo, um hospital ou corporação pode oferecer a um desenvolvedor dados médicos sintéticos de alta qualidade para treinar um sistema de diagnóstico de câncer baseado em IA – dados que são tão complexos quanto os dados do mundo real que esse sistema deve interpretar. Dessa forma, os desenvolvedores têm conjuntos de dados de qualidade para usar ao projetar e compilar o sistema, e a rede do hospital não corre o risco de colocar em risco dados médicos confidenciais dos pacientes. 

    Os dados sintéticos podem ainda permitir que os compradores de dados de teste acessem informações a um preço mais baixo do que os serviços tradicionais. De acordo com Paul Walborsky, cofundador da AI Reverie, uma das primeiras empresas dedicadas a dados sintéticos, uma única imagem que custa US$ 6 de um serviço de rotulagem pode ser gerada artificialmente por seis centavos. Por outro lado, os dados sintéticos abrirão o caminho para dados aumentados, o que implica adicionar novos dados a um conjunto de dados do mundo real existente. Os desenvolvedores podem girar ou iluminar uma imagem antiga para criar uma nova. 

    Por fim, dadas as preocupações com a privacidade e as restrições governamentais, as informações pessoais existentes em um banco de dados estão se tornando cada vez mais legisladas e complexas, dificultando o uso de informações do mundo real para criar novos programas e plataformas. Os dados sintéticos podem fornecer aos desenvolvedores uma solução alternativa para substituir dados altamente confidenciais.

    Implicações de dados sintéticos 

    Implicações mais amplas dos dados sintéticos podem incluir:

    • O desenvolvimento acelerado de novos sistemas de IA, tanto em escala como em diversidade, que melhoram processos em inúmeras indústrias e campos de disciplina, levando a uma maior eficiência em setores como saúde, transportes e finanças.
    • Permitir que as organizações partilhem informações de forma mais aberta e que as equipas colaborem e operem de forma mais eficiente, levando a um ambiente de trabalho mais coeso e à capacidade de lidar com projetos complexos com facilidade.
    • Desenvolvedores e profissionais de dados podem enviar e-mails ou transportar grandes conjuntos de dados sintéticos em seus laptops, sabendo que os dados críticos não estão em perigo, levando a condições de trabalho mais flexíveis e seguras.
    • A frequência reduzida de violações da segurança cibernética de bancos de dados, uma vez que os dados autênticos não precisarão mais ser acessados ​​ou compartilhados com tanta frequência, levando a um ambiente digital mais seguro para empresas e indivíduos.
    • Os governos ganham mais liberdade para implementar legislação de gestão de dados mais rigorosa sem se preocuparem em impedir o desenvolvimento de sistemas de IA pela indústria, levando a um cenário de utilização de dados mais regulamentado e transparente.
    • O potencial de dados sintéticos serem usados ​​de forma antiética na criação de deepfakes ou outros meios de comunicação manipulativos, levando à desinformação e à erosão da confiança no conteúdo digital.
    • Uma mudança na dinâmica do mercado de trabalho, com uma maior dependência de dados sintéticos, reduzindo potencialmente a necessidade de funções de recolha de dados, levando à deslocação de empregos em determinados setores.
    • O potencial impacto ambiental do aumento dos recursos computacionais necessários para gerar e gerenciar dados sintéticos, levando a um maior consumo de energia e preocupações ambientais associadas.

    Questões a considerar

    • Que outras indústrias poderiam se beneficiar de dados sintéticos?
    • Quais regulamentos o governo deve implementar sobre como os dados sintéticos são criados, usados ​​e implantados? 

    Referências de insights

    Os seguintes links populares e institucionais foram referenciados para esta percepção: