Soluciones innovadoras que aceleran el crecimiento de tu negocio.
Explora nuestros conocimientos y recursos exclusivos.
Descubre las oportunidades que impulsarán tu carrera profesional.
Descubre más sobre Sogeti.
Empieza a escribir palabras clave para buscar en el sitio. Pulse Intro para enviar.
IA Generativa
Cloud
Pruebas
Inteligencia artificial
Seguridad
October 15, 2024
Uno de los retos actuales al entrenar modelos generativos de IA es obtener datos que sean diversos, bien etiquetados, de alta calidad y que minimicen los sesgos. Esto es especialmente difícil en el caso de datos sensibles, como los relacionados con la salud o las finanzas, sujetos a regulaciones como el RGPD. Si la IA necesita especializarse en tareas concretas, adquirir suficientes datos relevantes se convierte en un desafío aún mayor. En este contexto, los datos sintéticos, si se generan y utilizan adecuadamente, pueden ofrecer una solución viable.
Una técnica para generar datos sintéticos es mediante sistemas basados en reglas, donde expertos en el dominio crean rutas deterministas. Por ejemplo, en el ámbito de la salud, los expertos podrían utilizar patrones conocidos de síntomas de pacientes para generar registros sintéticos. Estos sistemas pueden complementarse con conjuntos de datos de alta calidad existentes, si están disponibles. Aunque este es un proceso riguroso, puede aportar un gran valor y, si se mantiene continuamente, proporcionar datos sintéticos relevantes y actualizados.
Otra técnica es la Modelización Basada en Agentes, que simula agentes autónomos con comportamientos definidos por expertos en el dominio. Por ejemplo, en finanzas, los agentes podrían simular transacciones de usuarios e interacciones dentro de un sistema bancario. Esta técnica es útil para la simulación continua de interacciones activas con un sistema.
Aunque los datos sintéticos ofrecen una alternativa, la anonimización de datos sensibles es otra opción que a menudo se considera. Generar datos sintéticos a partir de datos reales es posible, pero presenta inconvenientes. En primer lugar, se requiere consentimiento para anonimizar los datos. Además, existe el riesgo de reidentificación, donde los datos anonimizados podrían rastrearse hasta individuos al combinarse con otros conjuntos de datos.
Anonimizar datos sensibles garantizando calidad, utilidad y precisión es un proceso complejo y costoso. Las organizaciones deben sopesar el esfuerzo requerido frente a los beneficios de generar otros tipos de datos sintéticos para reducir el riesgo de exposición de datos sensibles.
Las técnicas de aumento de datos, como añadir ruido o transformar datos, también pueden ayudar a enmascarar los datos reales y aumentar el tamaño de los conjuntos de datos si es necesario.
Existe el riesgo potencial de que los modelos generativos de IA entrenados principalmente con datos sintéticos experimenten un “colapso”. Esto significa que la salida del modelo podría perder diversidad, no captar casos extremos y perder precisión con el tiempo. Esto puede ocurrir si el modelo no logra capturar completamente la complejidad de los escenarios previstos. Para evitarlo, es esencial refinar continuamente los datos sintéticos con la ayuda de expertos en el dominio y monitorizar el rendimiento del modelo para detectar sesgos o fallos. Esto ayuda a garantizar que el modelo siga siendo preciso y robusto en una amplia variedad de situaciones.
Aunque los datos sintéticos representan una alternativa prometedora al uso de información sensible en el entrenamiento de IA, no están exentos de desafíos. Pueden ayudar a abordar problemas como la escasez de datos, la privacidad y el cumplimiento de normativas como el RGPD, pero deben generarse y refinarse cuidadosamente para evitar sesgos y garantizar precisión. Dado los riesgos asociados al uso de datos sintéticos, una solución híbrida que combine datos sintéticos y del mundo real es, a menudo, la opción más fiable para las organizaciones en la actualidad.
Para las organizaciones que busquen implementar datos sintéticos, se recomienda realizar pruebas piloto para validar su eficacia. Combinar datos sintéticos con datos reales anonimizados puede mejorar aún más el rendimiento de los modelos al tiempo que mitiga riesgos. Mantener un ciclo de retroalimentación continua con expertos en el dominio también puede ayudar a preservar la relevancia y calidad de los datos sintéticos a lo largo del tiempo.
Managing Consultant
Las cookies nos ayudan a mejorar el rendimiento del sitio, a presentarle publicidad relevante y a permitirle compartir contenido en redes sociales.
Puede aceptar todas las cookies o elegir gestionarlas de forma individual. Puede cambiar su configuración en cualquier momento haciendo clic en Configuración de Cookies, disponible en el pie de página de cada página.
Para obtener más información sobre las cookies, visite nuestra política de cookies.