Datos sintéticos: creación de sistemas de IA precisos utilizando modelos fabricados

CREDITO DE IMAGEN:
Crédito de la imagen
iStock

Datos sintéticos: creación de sistemas de IA precisos utilizando modelos fabricados

Datos sintéticos: creación de sistemas de IA precisos utilizando modelos fabricados

Subtítulo de texto
Para crear modelos precisos de inteligencia artificial (IA), los datos simulados creados por un algoritmo están teniendo una mayor utilidad.
    • Escrito por:
    • Nombre del autor
      Previsión Quantumrun
    • 4 de mayo de 2022

    Resumen de información

    Los datos sintéticos, una herramienta poderosa que tiene aplicaciones que van desde la atención médica hasta el comercio minorista, están remodelando la forma en que se desarrollan e implementan los sistemas de inteligencia artificial. Al permitir la creación de conjuntos de datos diversos y complejos sin poner en peligro la información confidencial, los datos sintéticos mejoran la eficiencia en todas las industrias, preservan la privacidad y reducen los costos. Sin embargo, también presenta desafíos, como un posible uso indebido en la creación de medios engañosos, preocupaciones ambientales relacionadas con el consumo de energía y cambios en la dinámica del mercado laboral que deben gestionarse cuidadosamente.

    Contexto de datos sintéticos

    Durante décadas, los datos sintéticos han existido en diferentes formas. Se puede encontrar en juegos de computadora como simuladores de vuelo y en simulaciones de física que representan todo, desde átomos hasta galaxias. Ahora, los datos sintéticos se están aplicando en industrias como la atención médica para resolver los desafíos de la IA del mundo real.

    El avance de la IA continúa tropezando con varios obstáculos de implementación. Se requieren grandes conjuntos de datos, por ejemplo, para brindar hallazgos confiables, estar libres de sesgos y cumplir con regulaciones de privacidad de datos cada vez más estrictas. En medio de estos desafíos, los datos anotados creados por simulaciones o programas computarizados han surgido como una alternativa a los datos genuinos. Estos datos creados por IA, conocidos como datos sintéticos, son fundamentales para resolver los problemas de privacidad y erradicar los prejuicios, ya que pueden garantizar una diversidad de datos que refleje el mundo real.

    Los profesionales de la salud utilizan datos sintéticos, por ejemplo, dentro del sector de las imágenes médicas para entrenar sistemas de inteligencia artificial manteniendo al mismo tiempo la confidencialidad del paciente. La empresa de atención virtual Curai, por ejemplo, utilizó 400,000 casos médicos sintéticos para entrenar un algoritmo de diagnóstico. Además, minoristas como Caper utilizan simulaciones 3D para crear un conjunto de datos sintéticos de mil fotografías a partir de tan solo cinco tomas de productos. Según un estudio de Gartner publicado en junio de 2021 centrado en datos sintéticos, la mayoría de los datos utilizados en el desarrollo de la IA serán fabricados artificialmente mediante legislación, estándares estadísticos, simulaciones u otros medios para 2030.

    Impacto disruptivo

    Los datos sintéticos ayudan en la preservación de la privacidad y la prevención de violaciones de datos. Por ejemplo, un hospital o una corporación pueden ofrecer a un desarrollador datos médicos sintéticos de alta calidad para entrenar un sistema de diagnóstico de cáncer basado en IA, datos que son tan complejos como los datos del mundo real que este sistema debe interpretar. De esta manera, los desarrolladores tienen conjuntos de datos de calidad para usar al diseñar y compilar el sistema, y ​​la red del hospital no corre el riesgo de poner en peligro los datos médicos confidenciales de los pacientes. 

    Los datos sintéticos pueden permitir además que los compradores de datos de prueba accedan a la información a un precio más bajo que los servicios tradicionales. Según Paul Walborsky, cofundador de AI Reverie, una de las primeras empresas dedicadas a los datos sintéticos, una sola imagen que cuesta $6 de un servicio de etiquetado puede generarse artificialmente por seis centavos. Por el contrario, los datos sintéticos allanarán el camino para los datos aumentados, lo que implica agregar nuevos datos a un conjunto de datos del mundo real existente. Los desarrolladores podían rotar o aumentar el brillo de una imagen antigua para crear una nueva. 

    Por último, dadas las preocupaciones sobre la privacidad y las restricciones gubernamentales, la información personal existente en una base de datos se está volviendo cada vez más legislada y compleja, lo que dificulta que la información del mundo real se use para crear nuevos programas y plataformas. Los datos sintéticos podrían proporcionar a los desarrolladores una solución alternativa para reemplazar los datos altamente confidenciales.

    Implicaciones de los datos sintéticos 

    Las implicaciones más amplias de los datos sintéticos pueden incluir:

    • El desarrollo acelerado de nuevos sistemas de IA, tanto en escala como en diversidad, que mejoran los procesos en numerosas industrias y campos de disciplina, lo que conduce a una mayor eficiencia en sectores como la atención médica, el transporte y las finanzas.
    • Permitir que las organizaciones compartan información de manera más abierta y que los equipos colaboren y operen de manera más eficiente, lo que genera un entorno de trabajo más cohesivo y la capacidad de abordar proyectos complejos con facilidad.
    • Los desarrolladores y profesionales de datos pueden enviar correos electrónicos o transportar grandes conjuntos de datos sintéticos en sus computadoras portátiles, con la seguridad de saber que los datos críticos no están en peligro, lo que genera condiciones de trabajo más flexibles y seguras.
    • La reducción de la frecuencia de las violaciones de la ciberseguridad de las bases de datos, ya que ya no será necesario acceder ni compartir los datos auténticos con tanta frecuencia, lo que conducirá a un entorno digital más seguro tanto para las empresas como para los individuos.
    • Los gobiernos obtienen más libertad para implementar una legislación de gestión de datos más estricta sin preocuparse por impedir el desarrollo industrial de sistemas de inteligencia artificial, lo que lleva a un panorama de uso de datos más regulado y transparente.
    • La posibilidad de que los datos sintéticos se utilicen de forma poco ética para crear deepfakes u otros medios manipuladores, lo que genera desinformación y erosión de la confianza en el contenido digital.
    • Un cambio en la dinámica del mercado laboral, con una mayor dependencia de datos sintéticos que potencialmente reduce la necesidad de funciones de recopilación de datos, lo que lleva al desplazamiento de empleos en ciertos sectores.
    • El impacto ambiental potencial del aumento de los recursos computacionales necesarios para generar y gestionar datos sintéticos, lo que lleva a un mayor consumo de energía y preocupaciones ambientales asociadas.

    Preguntas a considerar

    • ¿Qué otras industrias podrían beneficiarse de los datos sintéticos?
    • ¿Qué regulaciones debería implementar el gobierno con respecto a cómo se crean, usan e implementan los datos sintéticos? 

    Referencias de información

    Se hizo referencia a los siguientes enlaces populares e institucionales para esta perspectiva: