En resumen: hicimos a las seis IA líderes las mismas 75 preguntas reales de alto riesgo. En el 40% de ellas, los modelos dieron recomendaciones materialmente distintas — y en varias, consejos directamente opuestos. La puntuación de acuerdo media en las 75 preguntas fue de apenas 79/100. Lo más llamativo: cuanto mayor es el riesgo, más discrepan los modelos.
Cuando le haces a una sola IA una pregunta que de verdad importa — una decisión de salud, un riesgo legal, un movimiento de dinero — no tienes forma de saber si caíste en el 60% donde los modelos coinciden o en el 40% donde no. Un solo modelo nunca te dice «los otros cinco no estarían de acuerdo conmigo». Ese punto ciego es la razón misma de este estudio.
El hallazgo que nadie espera: a más riesgo, menos acuerdo
Podrías suponer que modelos entrenados con datos que se solapan convergen la mayoría de las veces. Lo hacen — en preguntas de bajo riesgo. Pero la tasa de desacuerdo sube exactamente donde más duele:
| Ámbito | Preguntas donde los modelos discreparon |
|---|---|
| Decisiones de vida | 59% |
| Salud | 50% |
| Derecho | 46% |
| Finanzas | 23% |
| Predicciones | 20% |
| Decisiones de consumo | 17% |
Léelo otra vez. En preguntas de salud y derecho — aquellas donde equivocarse sale más caro — los modelos discreparon más o menos la mitad de las veces. Los ámbitos donde más querrías una segunda opinión son precisamente donde una sola IA es menos fiable.
Cinco casos donde las IA dieron consejos opuestos
No son casos extremos. Son preguntas corrientes que se hacen millones de personas:
-
«¿Es seguro tomar ibuprofeno y paracetamol al mismo tiempo?» Gemini dijo no — espácialos. Claude, GPT-4o, Mistral y Perplexity dijeron sí, por lo general es seguro tomarlos juntos. Un modelo de seis habría cambiado cómo te medicas.
-
«¿Debería retirar dinero de mi plan de jubilación para saldar 15 000 € de deuda de tarjeta al 20% TAE?» Gemini recomendó hacerlo. Claude, GPT-4o y Perplexity recomendaron no hacerlo, tratando el retiro anticipado como último recurso. Consejos de dinero opuestos, dichos con la misma seguridad.
-
«¿Es seguro beber alcohol tomando metronidazol?» Las seis coincidieron en que hay que evitar el alcohol — pero en el periodo de espera tras el tratamiento se dividieron: 48 horas (Claude, GPT-4o, Mistral), 72 horas (Gemini), «2 o 3 días» (Perplexity). Una advertencia de seguridad materialmente distinta según la IA que abrieras.
-
«Un compañero se atribuyó mi trabajo — ¿lo confronto o voy a Recursos Humanos?» Gemini dijo ir directo a RR. HH. Todos los demás modelos dijeron hablar primero con el compañero.
-
«¿Es seguro tomar ibuprofeno si tomo lisinopril para la tensión?» GPT-4o presentó el uso ocasional como «normalmente bien»; Claude, Gemini y Perplexity lo presentaron como por lo general no recomendado — un valor por defecto distinto para una interacción farmacológica real.
Cuando los modelos discrepan así, la respuesta de una sola IA no es una respuesta — es un cara o cruz que no puedes ver.
Cómo lo hicimos (método)
La transparencia es el objetivo, así que esto es exactamente lo que hicimos:
- 75 preguntas en seis ámbitos: salud, derecho, finanzas, decisiones de vida, predicciones y decisiones de consumo — todas formuladas como decisiones reales sobre las que alguien actuaría.
- Seis modelos, uno por gran proveedor: Claude (Anthropic), GPT-4o (OpenAI), Gemini (Google), Mistral, Perplexity y Grok (xAI). Cada uno recibió la misma instrucción, sin guía de sistema más allá de «responde directamente y da una conclusión clara».
- Un juez de otro proveedor. Un modelo aparte leyó las seis respuestas de cada pregunta y las clasificó como Acuerdo (misma recomendación final), Parcial (misma dirección, advertencias materialmente distintas sobre las que el usuario actuaría) u Opuesto (recomendaciones contrarias y accionables), además de una puntuación de acuerdo de 0 a 100. El juez nunca es del mismo proveedor que las respuestas que califica — ningún modelo corrige su propio examen.
- «Desacuerdo» en el titular = Opuesto + Parcial (40%). Los Opuestos puros, por sí solos, fueron el 5%. Puntuación de acuerdo media: 79/100.
El conjunto completo de resultados (cada pregunta, la postura de cada modelo, cada veredicto) es reproducible — es una instantánea, no una anécdota aislada.
Qué significa esto si usas la IA para decisiones reales
Una sola IA te da una respuesta segura y oculta el desacuerdo. Está bien para «escríbeme un correo». Es peligroso para «¿puedo tomar estos dos medicamentos juntos?» o «¿debería tocar mi plan de jubilación?».
La solución no es encontrar la «mejor» IA — nuestros datos muestran que ningún modelo acertó de forma consistente, y la «mejor» cambia según el ámbito. La solución es ver el desacuerdo: preguntar a varios modelos, mostrar dónde divergen y tratar una puntuación de acuerdo baja como una luz que parpadea y dice frena, busca a un experto humano. Ese enfoque multiproveedor, centrado en la contradicción, es exactamente lo que hace un motor de consenso, y por eso una sola IA no basta para las decisiones que importan.
Limitaciones honestas
Es una instantánea de 75 preguntas, con un modelo por proveedor y un juez basado en un LLM — no un ensayo clínico revisado por pares. Otras formulaciones, otras versiones de modelos o un panel de jueces humanos moverían los porcentajes exactos. De lo que estamos seguros es de la dirección: el desacuerdo significativo entre modelos es común, se concentra en los ámbitos de alto riesgo, y una sola IA nunca te avisa cuando estás en él.
¿Preguntas sobre la metodología o quieres los datos en bruto? El estudio lo realizó el equipo detrás de Satcove, que hace tu pregunta a seis IA a la vez y devuelve un único veredicto con una puntuación de acuerdo — para que siempre veas dónde coinciden los modelos, y dónde no.