Hero imageMobile Hero image
  • Facebook
  • LinkedIn

October 15, 2024

Entrenar modelos de IA como las GANs (Redes Generativas Antagónicas), LLMs (Modelos de Lenguaje Extenso) y SLMs (Modelos de Lenguaje Reducido) requiere grandes cantidades de datos de alta calidad. Sin embargo, obtener datos del mundo real en cantidad suficiente es difícil o incluso imposible debido a preocupaciones de privacidad, regulaciones o disponibilidad limitada. Esto plantea una pregunta importante: ¿puede la información sintética sustituir a los datos sensibles en el entrenamiento de IA?

Uno de los retos actuales al entrenar modelos generativos de IA es obtener datos que sean diversos, bien etiquetados, de alta calidad y que minimicen los sesgos. Esto es especialmente difícil en el caso de datos sensibles, como los relacionados con la salud o las finanzas, sujetos a regulaciones como el RGPD. Si la IA necesita especializarse en tareas concretas, adquirir suficientes datos relevantes se convierte en un desafío aún mayor. En este contexto, los datos sintéticos, si se generan y utilizan adecuadamente, pueden ofrecer una solución viable.

Técnicas para generar datos sintéticos

Una técnica para generar datos sintéticos es mediante sistemas basados en reglas, donde expertos en el dominio crean rutas deterministas. Por ejemplo, en el ámbito de la salud, los expertos podrían utilizar patrones conocidos de síntomas de pacientes para generar registros sintéticos. Estos sistemas pueden complementarse con conjuntos de datos de alta calidad existentes, si están disponibles. Aunque este es un proceso riguroso, puede aportar un gran valor y, si se mantiene continuamente, proporcionar datos sintéticos relevantes y actualizados.

Otra técnica es la Modelización Basada en Agentes, que simula agentes autónomos con comportamientos definidos por expertos en el dominio. Por ejemplo, en finanzas, los agentes podrían simular transacciones de usuarios e interacciones dentro de un sistema bancario. Esta técnica es útil para la simulación continua de interacciones activas con un sistema.

¿Y qué pasa con la anonimización de los datos sensibles?

Aunque los datos sintéticos ofrecen una alternativa, la anonimización de datos sensibles es otra opción que a menudo se considera. Generar datos sintéticos a partir de datos reales es posible, pero presenta inconvenientes. En primer lugar, se requiere consentimiento para anonimizar los datos. Además, existe el riesgo de reidentificación, donde los datos anonimizados podrían rastrearse hasta individuos al combinarse con otros conjuntos de datos.

Anonimizar datos sensibles garantizando calidad, utilidad y precisión es un proceso complejo y costoso. Las organizaciones deben sopesar el esfuerzo requerido frente a los beneficios de generar otros tipos de datos sintéticos para reducir el riesgo de exposición de datos sensibles.

Las técnicas de aumento de datos, como añadir ruido o transformar datos, también pueden ayudar a enmascarar los datos reales y aumentar el tamaño de los conjuntos de datos si es necesario.

¿Podrían los modelos generativos de IA entrenados con datos sintéticos colapsar?

Existe el riesgo potencial de que los modelos generativos de IA entrenados principalmente con datos sintéticos experimenten un “colapso”. Esto significa que la salida del modelo podría perder diversidad, no captar casos extremos y perder precisión con el tiempo. Esto puede ocurrir si el modelo no logra capturar completamente la complejidad de los escenarios previstos. Para evitarlo, es esencial refinar continuamente los datos sintéticos con la ayuda de expertos en el dominio y monitorizar el rendimiento del modelo para detectar sesgos o fallos. Esto ayuda a garantizar que el modelo siga siendo preciso y robusto en una amplia variedad de situaciones.

La mejor opción: una solución híbrida

Aunque los datos sintéticos representan una alternativa prometedora al uso de información sensible en el entrenamiento de IA, no están exentos de desafíos. Pueden ayudar a abordar problemas como la escasez de datos, la privacidad y el cumplimiento de normativas como el RGPD, pero deben generarse y refinarse cuidadosamente para evitar sesgos y garantizar precisión. Dado los riesgos asociados al uso de datos sintéticos, una solución híbrida que combine datos sintéticos y del mundo real es, a menudo, la opción más fiable para las organizaciones en la actualidad.

Pasos prácticos para organizaciones que consideren usar datos sintéticos

Para las organizaciones que busquen implementar datos sintéticos, se recomienda realizar pruebas piloto para validar su eficacia. Combinar datos sintéticos con datos reales anonimizados puede mejorar aún más el rendimiento de los modelos al tiempo que mitiga riesgos. Mantener un ciclo de retroalimentación continua con expertos en el dominio también puede ayudar a preservar la relevancia y calidad de los datos sintéticos a lo largo del tiempo.

Lars Snellingen

Lars Snellingen

Managing Consultant