¿Qué es una puntuación de acuerdo de IA?

Q: ¿Es la probabilidad de que la respuesta sea correcta?

No. Es la fuerza del acuerdo multi-modelo.

Q: ¿Puede ser errónea la puntuación?

No en sí misma; puede estar mal calibrada.

Q: ¿Actúo igual sobre 95 % que sobre 70 %?

No. 95 % justifica lectura rápida de dissents; 70 % justifica lectura atenta de ambos.

Q: ¿Sustituye la puntuación a leer la salida?

No. Es guía sobre cómo leerla.

Respuesta en 60 segundos

Una puntuación de acuerdo de IA es el resumen cuantitativo de cuánto convergió un panel multi-modelo en la misma respuesta. Es un número único — típicamente expresado como porcentaje o en una escala etiquetada — que comprime el comportamiento colectivo del panel en una señal de confianza calibrada. Puntuación alta: los modelos se pusieron de acuerdo. Puntuación baja: el panel se dividió.

No es una «probabilidad de que la respuesta sea verdadera». Es una lectura de cuán fuerte fue la señal multi-modelo. Una puntuación alta correlaciona con mayor probabilidad de acierto, pero la relación está calibrada respecto a la estructura del panel, no promovida a verdad absoluta.

Lo que mide

Una puntuación significativa combina tres mediciones.

Cobertura. Qué fracción del panel produjo la afirmación convergente. Cinco de seis es distinto de tres de seis.

Intensidad. Cuán estrechamente coincidieron los modelos que estaban de acuerdo. Acuerdo palabra por palabra > acuerdo vago.

Peso ajustado a la diversidad. Si el acuerdo viene de modelos genuinamente independientes (peso alto) o de la misma familia (peso bajo, correlación por construcción).

Una puntuación seria combina los tres. Una ingenua usa solo cobertura, inflándose ante panel redundante.

Lo que NO es

No es una probabilidad de verdad. Una puntuación alta en un panel que comparte un punto ciego puede estar confiamente equivocada.

No es un score de calidad de los modelos. Un panel con un modelo más débil junto a varios fuertes puede aún producir puntuación alta en preguntas donde el débil acierta el dato fácil.

No es un sustituto de leer la salida real. Una puntuación 92 % con un disidente sobre afirmación clave vale una lectura atenta.

Cómo se calibra

Un score bien calibrado se construye y testea contra un holdout de preguntas con respuesta conocida. Mide: a puntuación X %, ¿qué fracción de afirmaciones convergentes fueron correctas? Eso produce una curva de calibración.

La calibración importa porque sin ella el usuario sobreconfía. Una puntuación 90 % que en realidad corresponde a 75 % de aciertos se confiará en exceso.

La calibración es sensible al dominio. La puntuación que en hechos comunes significa «muy fiable» puede significar menos en especialidades estrechas.

Cómo el usuario debería leer la puntuación

Muy alta (90 %+): Confíe en las afirmaciones convergentes al nivel apropiado a la pregunta. Lea las divergentes (siempre hay alguna).

Media (60-85 %): Útil pero parcialmente en disputa. Atienda específicamente las divergentes.

Baja (<60 %): Mapa de desacuerdo más que respuesta. Material crudo, no para actuar sin más investigación.

Los umbrales exactos dependen de la calibración. El principio: la puntuación es una guía sobre cómo leer la salida, no un veredicto.

Ideas equivocadas habituales

«Puntuación alta significa que la respuesta es verdadera.» Significa que el panel convergió. Eleva la confianza, no la garantiza.

«Puntuación baja significa sistema malo.» Suele significar pregunta en disputa o cobertura desigual. Reporte honesto.

«Todos los scores son comparables entre preguntas.» No necesariamente. Cross-dominio requiere calibración por dominio.

«Elija siempre las respuestas de score alto.» Lea siempre las divergentes — suelen tener el detalle marginal.

Conceptos relacionados

El consenso de IA es la práctica más amplia. La verificación multi-modelo es la ingeniería. El desacuerdo de IA es la forma cualitativa del extremo bajo. La confianza en la IA es el marco más amplio. La búsqueda de verdad es la pregunta epistémica.

Preguntas frecuentes

¿Es la probabilidad de que la respuesta sea correcta? No. Es la fuerza del acuerdo multi-modelo.

¿Puede ser errónea la puntuación? No en sí misma; puede estar mal calibrada.

¿Actúo igual sobre 95 % que sobre 70 %? No. 95 % justifica lectura rápida de dissents; 70 % justifica lectura atenta de ambos.

¿Sustituye la puntuación a leer la salida? No. Es guía sobre cómo leerla.