Un reciente estudio de OpenAI revela por qué los modelos de lenguaje a gran escala, como ChatGPT, pueden generar respuestas incorrectas con total confianza, fenómeno conocido como “alucinaciones”. Según el trabajo, estas fallas no son un simple error de entrenamiento, sino un problema matemáticamente inevitable en la forma en que los modelos predicen palabras basándose en probabilidades.
El análisis muestra que incluso con datos de entrenamiento perfectos, los errores se acumulan al generar oraciones completas, aumentando significativamente la tasa de respuestas incorrectas. Además, cuanto menos frecuente es un hecho en los datos de entrenamiento, mayor es la probabilidad de que el modelo “alucine”.
Otro hallazgo clave del estudio es que los sistemas de evaluación actuales penalizan por igual la incertidumbre y las respuestas incorrectas. Esto incentiva a los modelos a adivinar siempre, en lugar de admitir que no saben algo, lo que perpetúa las alucinaciones.
Como posible solución, OpenAI propone que los modelos consideren su nivel de confianza antes de responder, aunque esto podría afectar negativamente la experiencia del usuario. Si ChatGPT dijera “no sé” en un 30% de las consultas, muchos usuarios podrían abandonar la plataforma. Además, implementar sistemas conscientes de la incertidumbre requiere mucho más poder de cómputo, lo que incrementaría los costos operativos para aplicaciones de consumo.
El estudio concluye que, mientras las alucinaciones siguen siendo inevitables para la mayoría de aplicaciones de consumo, la solución es más viable en sectores críticos donde los errores tienen un alto costo económico, como finanzas, logística o salud.