Alucinación de IA: por qué los modelos suenan correctos y se equivocan

Respuesta en 60 segundos

La alucinación de IA es cuando un modelo de lenguaje produce contenido gramaticalmente perfecto, de tono seguro y factualmente erróneo — citas inventadas, sentencias inexistentes, medicamentos ficticios, estadísticas fabricadas, citas apócrifas. El modelo no miente. Hace exactamente aquello para lo que fue entrenado: generar el texto que suena más plausible. La plausibilidad y la verdad coinciden la mayor parte del tiempo. Cuando divergen, obtiene una alucinación.

Una alucinación es peligrosa precisamente porque nada en la salida del modelo señala que este párrafo es erróneo mientras los demás son correctos. El tono es uniforme. Detectar una alucinación no es, por tanto, cuestión de leer con más atención. Requiere una verificación externa — un segundo razonador independiente que produzca la misma respuesta por un camino distinto. Cuando los caminos coinciden, la probabilidad de alucinación conjunta cae bruscamente. Cuando divergen, tiene una señal de que vale la pena comprobar antes de actuar.

Una definición formal

En la literatura técnica, una alucinación de IA es una salida infundada — no respaldada por los datos de entrenamiento, no derivable de la entrada, y no anclada en el mundo real — producida sin embargo con la misma fluidez y seguridad que una salida bien fundamentada.

Esto se distingue de tres modos de fallo que a veces se agrupan bajo la misma palabra.

Un error ocurre cuando un modelo responde a una pregunta claramente planteada con una respuesta incorrecta derivada de una mala lectura de la entrada. El modelo entendió los datos; solo calculó mal. Los errores son recuperables relanzando con un prompt más claro.

Una laguna de conocimiento es cuando el modelo honestamente no sabe — por ejemplo, cuando se le pregunta sobre un evento posterior a su fecha de corte de entrenamiento. La respuesta bien calibrada es «no lo sé»; la mal calibrada es adivinar. Adivinar bajo una laguna de conocimiento puede parecerse a una alucinación pero es estructuralmente distinto: se ha pedido al modelo que invente.

Un desacuerdo con el usuario ocurre cuando el modelo produce una respuesta verdadera que al usuario no le gusta y este la etiqueta como «errónea». Esto no es alucinación en ningún sentido técnico.

La alucinación propiamente dicha es el caso en que el modelo no tiene fundamento epistémico real para lo que dice, y sin embargo lo dice con la misma autoridad que todo lo demás. La salida es internamente coherente, gramaticalmente impecable, y no presenta marca de superficie de carecer de fundamento. Esa es la propiedad definitoria.

El término mismo se toma de la percepción humana — una alucinación es algo que el perceptor experimenta vívidamente y que no tiene realidad correspondiente. La analogía es imperfecta (los modelos no «perciben») pero la intuición se transfiere: el usuario lee algo que parece real y no lo es.

Por qué los modelos de lenguaje alucinan

Para entender cómo detectar las alucinaciones hay que entender por qué ocurren. El mecanismo no es un bug. Es el modelo haciendo exactamente aquello para lo que su entrenamiento lo optimizó.

Un modelo de lenguaje grande moderno se entrena sobre un corpus enorme de texto con un objetivo principal: predecir la siguiente palabra dado todo lo anterior. Ese objetivo premia la plausibilidad — salidas que se ajustan a los patrones de los datos de entrenamiento. No premia directamente la verdad. El proceso de entrenamiento no tiene un oráculo que pueda decirle al modelo «esta frase es verdadera» y «esta es falsa» a escala. Lo que tiene es «este patrón de frase es común en el corpus».

Para la mayoría de preguntas, plausibilidad y verdad coinciden. El corpus de entrenamiento es vasto, la respuesta está bien documentada, el modelo interpola correctamente. Es por eso que los modelos de lenguaje son tan útiles tanto tiempo. El modo de fallo interesante ocurre cuando plausibilidad y verdad divergen.

Esta divergencia es más acusada bajo cuatro condiciones.

La primera es la especificidad que supera los datos. Pídale a un modelo una cita de caso específica, una interacción farmacológica específica, una fecha histórica específica — y el modelo echará mano de una respuesta de aspecto plausible incluso cuando el conocimiento subyacente sea fino. El corpus de entrenamiento contiene millones de frases con forma de cita; producir una es fácil. Producir una cita real y verificable requiere un tipo distinto de anclaje que el modelo no siempre tiene.

La segunda es la larga cola del conocimiento. Los temas comunes están muy representados en los datos y se responden bien. Los temas raros están escasamente representados y se responden con una confianza superficial que disfraza una comprensión pobre. Lenguas minoritarias, regulaciones de nicho, desarrollos recientes, contextos culturales minoritarios — todos se sitúan más adentro en esta cola y todos atraen mayores tasas de alucinación.

La tercera es la presión por ser útil. Los modelos suelen entrenarse con una señal de recompensa que penaliza respuestas como «no lo sé» y premia respuestas comprometidas y sustantivas. Esto es mayormente deseable — querrá un modelo que se esfuerce. Pero inclina la balanza hacia la especulación cuando la incertidumbre honesta sería la salida correcta.

La cuarta es el planteamiento del prompt que presupone que la respuesta existe. Si pregunta «¿cuál es el nombre del tribunal que dictó X?», el modelo trata la existencia de tal tribunal como dada por la pregunta y produce un nombre plausible. El modelo coopera con el supuesto incrustado en el prompt, incluso cuando el supuesto es falso.

El punto no es que los modelos actuales estén mal entrenados. El punto es que la arquitectura y el objetivo de los modelos de lenguaje hacen que una tasa de alucinación distinta de cero sea inherente, no incidental. Ningún fine-tuning la elimina. Puede reducirse; no puede desactivarse por argumento.

Por qué un solo modelo no puede detectar sus propias alucinaciones de forma fiable

El impulso natural es pedirle al modelo que se verifique a sí mismo. Es atractivo y no funciona.

Cuando un modelo de lenguaje produce una afirmación alucinada, la misma superficie estadística que produjo la afirmación tenderá a producir una autoconfirmación segura cuando se le pregunte «¿estás seguro?». El modelo no tiene mecanismo interno para distinguir una afirmación bien fundamentada de una de apariencia plausible. La señal de certeza es coherente entre los dos tipos de salida.

Pedir al mismo modelo que se «verifique» es, por tanto, en gran medida teatral. Obtendrá una reformulación pulida de la respuesta original con frases añadidas como «según mis datos de entrenamiento» o «según fuentes establecidas» — frases que el modelo ha aprendido a asociar con respuestas creíbles, independientemente de la solidez real de la afirmación original.

Algunas técnicas específicas mejoran modestamente la autoverificación:

La coherencia consigo mismo invoca el modelo varias veces con muestreo y observa el acuerdo entre las muestras. Atrapa algunas alucinaciones porque la respuesta errónea pero plausible varía más entre muestras que la correcta. Pero comparte los puntos ciegos del modelo: un tema en el que cada muestra es uniformemente errónea parecerá un acuerdo consistente.

El razonamiento paso a paso pide al modelo que razone por etapas. Mejora el rendimiento en problemas lógicos pero no aborda la alucinación factual, porque las etapas mismas pueden ser alucinadas junto con la conclusión.

La generación aumentada por recuperación (RAG) ancla el modelo en documentos externos. Es genuinamente eficaz cuando la recuperación encuentra los documentos correctos y el modelo es honesto sobre lo que dicen. Es mucho menos eficaz cuando la recuperación falla (el modelo retrocede a la plausibilidad de los datos de entrenamiento) o cuando el modelo cita selectivamente de forma engañosa los documentos recuperados.

Ninguna de estas técnicas resuelve el problema de fondo: la noción de confianza de un modelo de lenguaje está calibrada respecto a la fluidez, no respecto a la verdad externa. La arquitectura no puede, por sí sola, realizar la verificación externa.

Por eso la resistencia a la alucinación es fundamentalmente un problema de sistemas, no un problema de modelo. La solución viene de fuera del modelo — de la comparación con otros modelos, con fuentes autorizadas, o con un experto humano.

Cómo el consenso multi-modelo detecta las alucinaciones

Si un solo modelo no puede detectar fiablemente sus propias alucinaciones, la pregunta pasa a ser: ¿qué sí puede?

El consenso multi-modelo es la respuesta práctica más escalable. El principio es simple y la implementación más exigente.

El principio: modelos distintos producidos por organizaciones distintas con datos de entrenamiento distintos alucinarán de forma distinta. Una alucinación es, por definición, una salida que el modelo inventó a partir de la plausibilidad. La superficie de plausibilidad difiere entre modelos porque sus superficies de entrenamiento difieren. La probabilidad de que dos modelos genuinamente independientes inventen la misma afirmación falsa-pero-plausible a la vez es mucho menor que la probabilidad de que cualquiera de ellos la invente por sí solo.

Esa es exactamente la estructura que hace eficaz el consenso frente a la alucinación. Cuando cinco o seis modelos independientes convergen en la misma afirmación específica — mismo nombre de medicamento, misma sentencia, misma estadística — la probabilidad de que los cinco hayan alucinado independientemente de la misma manera cae bruscamente. Cuando divergen — el modelo A dice X, el B dice Y, el C dice que no existe — usted tiene una señal de que la afirmación original merecía más comprobación antes de actuar.

La implementación debe cuidar tres trampas que destruyen la eficacia.

Trampa uno: falsa independencia. Dos modelos de la misma familia o entrenados con corpus muy solapados compartirán sus alucinaciones. Su acuerdo no es evidencia; es error correlacionado. Un consenso significativo usa modelos de linajes auténticamente distintos.

Trampa dos: comparación de superficie. Si el sistema de consenso solo compara la superficie léxica de las respuestas, se le escapará el acuerdo semántico (misma afirmación, palabras distintas) y sobrecontará el acuerdo léxico (mismas palabras, significados distintos). La comparación debe darse al nivel de las afirmaciones extraídas de cada respuesta.

Trampa tres: desacuerdo oculto. Un sistema de consenso que resume ocultando el desacuerdo se sabotea a sí mismo. El desacuerdo es la señal que el usuario necesita ver. Una salida de consenso bien diseñada lo preserva.

Cuando se evitan las tres trampas, un consenso multi-modelo captura una parte significativa de las alucinaciones de un solo modelo — no detectándolas aisladamente, sino haciéndolas emerger como puntos de desacuerdo que el usuario puede investigar más.

Esta es la razón estructural por la que «preguntar a varias IA y comparar» es más que un eslogan. Es la única forma práctica de que un sistema externo marque la frontera entre lo que los modelos saben colectivamente y lo que uno de ellos está inventando ahora mismo.

Cuándo importa más la alucinación

La alucinación no es uniformemente peligrosa. El coste depende de lo que el usuario haga con la respuesta errónea.

En uso de bajo impacto — redactar un mensaje informal, hacer brainstorming, resumir un documento largo para uso personal — un detalle alucinado es sobre todo una pequeña molestia. El usuario es el único afectado y las consecuencias de un error no detectado están acotadas.

En uso de alto impacto, la alucinación se acumula.

Para preguntas de salud, una interacción farmacológica alucinada, una asociación síntoma-enfermedad fabricada o una dosis inventada pueden llevar a una mala decisión de autocuidado o a una mala pregunta llevada al clínico. La alucinación en este dominio ha provocado históricamente daños documentados.

Para preguntas legales, la forma de alucinación más documentada implica citas de casos fabricadas: tribunales que existen, jueces que existen, pero casos que no. Un usuario que se apoye en estas para una presentación o un argumento contractual puede afrontar consecuencias profesionales directas.

Para preguntas financieras, la alucinación tiende a tomar la forma de estadísticas inventadas — rendimientos históricos inventados, cifras de rentabilidad ficticias, referencias regulatorias fabricadas. Son particularmente peligrosas porque el formato parece dato y autoritario.

Para trabajo de investigación y académico, la alucinación aparece con más frecuencia como referencias inventadas — títulos de artículos inexistentes, autores que nunca co-firmaron, revistas que nunca publicaron el artículo. La salida es estructuralmente idéntica a una lista real de citas, y solo la verificación contra la literatura real revela qué entradas son ficticias.

Para periodismo y búsqueda de información, la alucinación puede producir citas fabricadas atribuidas a personas reales, cronologías de eventos inventadas y atribuciones erróneas confiadas. El daño de publicar cualquiera de estas es reputacional y a veces legal.

El hilo común es que la alucinación es más costosa precisamente donde el usuario está menos equipado para verificar la salida de forma independiente. Un especialista puede detectar una interacción farmacológica alucinada; un profano no. Un abogado en activo puede detectar una cita falsa; el público general no. La asimetría entre la salida segura del modelo y la capacidad del lector para comprobarla es el riesgo central.

Cómo reducir el riesgo de alucinación en la práctica

Más allá de usar un consenso multi-modelo, el usuario puede adoptar varias prácticas que reducen la probabilidad de actuar sobre una alucinación.

Pida las fuentes, siempre que la respuesta importe. Un modelo que no puede o no quiere nombrar una fuente para una afirmación específica es, sobre esa afirmación, menos fiable. Si se dan fuentes, compruebe al menos una antes de confiar en la cadena.

Trate los números específicos como el contenido de mayor riesgo. Fechas, porcentajes, números de artículo, dosis de medicamentos, nombres de casos — cualquier cosa con textura de autoridad — es la superficie más común de alucinación. Trate los específicos con más escepticismo que el encuadre general.

Vuelva a preguntar con un encuadre distinto. Si un modelo dio una afirmación segura, pregunte lo mismo invirtiendo el supuesto. Las respuestas alucinadas suelen contradecir silenciosamente su propia versión anterior sobre el mismo tema.

Use un consenso multi-modelo para decisiones que no desharía. Es la práctica de mayor impacto. Cualquier cosa con consecuencias de salud, legales, financieras o reputacionales merece la segunda opinión que aporta la comparación de razonadores independientes.

Lleve la salida de IA a un experto humano para la última milla. Especialmente en dominios regulados. La IA hace el trabajo preparatorio — completo, amplio, rápido. El humano hace la certificación — estrecha, profunda, responsable.

Ideas equivocadas habituales

«Los modelos modernos ya no alucinan.» Alucinan menos que hace dos años en preguntas comunes. Siguen alucinando en preguntas de cola larga, en afirmaciones factuales muy específicas y bajo encuadres de prompt que presuponen que la respuesta existe. La tasa ha bajado; no es cero.

«Si el modelo incluye una cita, la cita es real.» No necesariamente. Las citas alucinadas son uno de los modos de fallo más comunes y mejor documentados. Un modelo producirá un nombre de revista plausible, una lista de autores plausible y un año plausible. Solo la verificación contra la revista real prueba la cita.

«El modelo me avisará cuando esté inseguro.» Los modelos avisan de forma desigual. Algunos se han entrenado para marcar la incertidumbre; muchos producen respuestas de tono seguro con independencia de la confianza real. La ausencia de matiz en la salida es evidencia débil de que la salida está fundamentada.

«La alucinación solo afecta a los datos. El razonamiento está bien.» El razonamiento también puede ser alucinado — un modelo puede producir una cadena de pasos de inferencia de aspecto plausible que llevan a una conclusión errónea. Detectar la alucinación a nivel de razonamiento es más difícil, no más fácil, que detectarla a nivel factual, porque la superficie parece más competente.

«Un modelo más grande alucina menos.» Los modelos más grandes alucinan menos por intento en promedio. No alucinan cero, y en los temas de cola larga donde la alucinación más importa, la mejora de los modelos grandes ha sido históricamente menor que la mejora en temas comunes.

Conceptos relacionados

El consenso de IA es la práctica más amplia de la que la resistencia a la alucinación es una aplicación. La verificación multi-modelo es la ingeniería de ejecutar varios modelos independientes para capturar alucinaciones como desacuerdos. El fact-checking de IA es el uso específico del consenso para verificar afirmaciones individuales. La puntuación de acuerdo de IA es la lectura cuantitativa de la parte de la salida común libre de alucinaciones. La confianza en la IA es el encuadre orientado al usuario de por qué importa la resistencia a la alucinación en el momento de decidir.

Preguntas frecuentes

¿Por qué se usa el término «alucinación» para esto? La analogía es con la percepción humana de algo vívido sin correspondencia real. Una salida de modelo fluida y segura sin fundamento epistémico subyacente tiene la misma forma. El término es imperfecto pero ha cuajado porque captura la viveza de la respuesta errónea.

¿Puede eliminarse del todo la alucinación? No. El mecanismo que hace útiles a los modelos de lenguaje — generar texto plausible a partir de patrones aprendidos — es el mismo mecanismo que produce las alucinaciones en la cola larga. La tasa puede reducirse mediante mejor entrenamiento, anclaje por recuperación y verificación externa. No llega a cero.

¿Cómo de común es la alucinación en los modelos actuales? Las tasas varían según el modelo, el tema y el encuadre. En preguntas comunes, los modelos frontera modernos alucinan una pequeña fracción del tiempo. En consultas factuales específicas — citas, estadísticas, eventos recientes — las tasas suben. En temas de cola larga las tasas pueden ser altas incluso en los mejores modelos. No hay una sola cifra que capture todo el panorama.

¿Es suficiente el consenso? Para la mayoría de decisiones, sí. Captura la mayor parte de las alucinaciones de un solo modelo haciéndolas emerger como desacuerdos. Para decisiones de peso profesional — médicas, legales, financieras — el consenso es el punto de partida y un experto humano es el de llegada.

¿Cómo sé si una respuesta concreta se ha alucinado? La prueba única más fiable: pida la fuente y verifíquela directamente. Si el modelo no puede producir una fuente, trate la afirmación como no verificada. Si la fuente que produce no existe, la afirmación tiene alto riesgo de haber sido alucinada.