Qu'est-ce qu'un score d'accord IA ?

Réponse en 60 secondes

Un score d'accord IA est le résumé quantitatif de à quel point un panel multi-modèles a convergé sur la même réponse. C'est un chiffre unique — typiquement exprimé en pourcentage ou sur une échelle étiquetée — qui compresse le comportement collectif du panel en un signal de confiance calibrée. Score élevé : les modèles se sont accordés ; l'utilisateur a une bonne raison de faire confiance aux affirmations convergentes. Score bas : les modèles se sont divisés ; l'utilisateur a une information explicite que le sujet est contesté ou sous-étayé.

Le score n'est pas une « probabilité que la réponse soit vraie ». C'est une lecture de à quel point le signal multi-modèles était fort. Un score élevé corrèle avec une probabilité plus élevée de justesse, mais la relation est calibrée par rapport à la structure du panel, pas promue en vérité absolue. La valeur du score est exactement d'être honnête sur cette distinction.

Ce que le score mesure

Un score d'accord significatif combine trois mesures.

Couverture. Quelle fraction du panel a produit l'affirmation convergente. Cinq modèles sur six d'accord, c'est différent de trois sur six. La couverture est la dimension la plus simple et la plus facile à communiquer.

Intensité. À quel point les modèles d'accord se sont étroitement correspondus. Deux modèles qui s'accordent mot pour mot sur un fait spécifique fournissent une preuve plus forte que deux modèles concordant vaguement sur une direction générale. L'intensité capture la rigueur sémantique de l'accord.

Poids ajusté à la diversité. Si l'accord vient de modèles authentiquement indépendants (poids élevé) ou de modèles au sein de la même famille (poids plus faible, parce que leur accord est corrélé par construction). Deux variantes de Claude d'accord, ce n'est pas équivalent à un Claude et un Gemini d'accord.

Un score sérieux combine ces trois dimensions en un seul chiffre. Un score naïf n'utilise que la couverture et traite tous les modèles également, ce qui gonfle le score chaque fois que le panel est intérieurement redondant. La différence se montre dans la calibration : les scores bien calibrés prédisent les taux de justesse réels ; les scores naïfs surévaluent confiamment.

Ce que le score n'est pas

Le score d'accord n'est pas une probabilité que la réponse soit vraie. C'est une lecture de la force du signal multi-modèles. La distinction compte parce qu'un score élevé à travers un panel qui partage un angle mort de données d'entraînement peut être confiamment faux — la convergence est élevée, la vérité est basse. Le score fait ce qu'il est honnête sur : il mesure l'accord, pas la vérité.

Le score n'est pas non plus un score qualité agrégé des modèles. Un panel qui inclut un modèle plus faible aux côtés de plusieurs forts peut tout de même produire un score d'accord élevé sur des questions où le modèle plus faible obtient la même affirmation facile correctement. Le score lit la situation, pas les participants.

Enfin, le score n'est pas un substitut à la lecture de la sortie réelle. Un score de 92 % avec un modèle dissident sur une affirmation clé vaut une lecture attentive de ce qu'a dit ce modèle isolé. Le score pointe au bon endroit ; l'utilisateur fait la lecture.

Comment le score est calibré

Un score d'accord bien calibré est construit et testé contre un échantillon de questions à réponses correctes connues. Le système mesure : à un score X %, quelle fraction des affirmations convergentes du panel étaient effectivement correctes en rétrospective ? Cela produit une courbe de calibration qui lie les scores aux taux de justesse dans le monde réel.

La calibration compte parce que les scores non calibrés invitent à une sur-confiance. Un score de 90 % qui correspond en réalité à un taux de justesse de 75 % sera trop crédité ; un score de 90 % qui correspond à 92 % peut être pris au pied de la lettre. Les systèmes honnêtes calibrent explicitement et recalibrent à mesure que le panel évolue.

La calibration est aussi sensible au domaine. Le score qui signifie « très fiable » sur des affirmations factuelles à propos de sujets largement documentés peut signifier moins sur des questions dans des spécialités étroites. Les systèmes sérieux calibrent par domaine là où les données le permettent, et autrement communiquent la limite honnêtement.

Comment un utilisateur devrait lire le score

Un utilisateur rencontrant un score d'accord devrait le traiter comme une entrée parmi plusieurs.

Aux scores très élevés (typiquement 90 %+), les affirmations convergentes peuvent être créditées au niveau approprié à la question sous-jacente. Lisez les affirmations divergentes (il y en aura quelques-unes même à des scores élevés) — elles contiennent souvent les détails les plus utiles à la décision.

Aux scores moyens (60-85 %), le panel a produit un signal utile mais le sujet est partiellement contesté. Les affirmations convergentes sont probablement fiables ; les affirmations divergentes méritent une attention directe. C'est la fourchette où l'utilisateur fait le plus de lecture.

Aux scores bas (sous 60 %), le panel n'a pas convergé de manière significative. La sortie est plus une cartographie du désaccord qu'une réponse. L'utilisateur devrait la traiter comme matière première — utile pour comprendre la question, pas pour la résoudre sans investigation supplémentaire.

Les seuils exacts dépendent de la calibration du système. Le principe général est que le score est un guide sur comment lire la sortie, pas un verdict qui contourne sa lecture.

Idées reçues courantes

« Un score élevé veut dire que la réponse est vraie. » Cela veut dire que le panel a convergé. La convergence élève la confiance dans la justesse ; elle ne la garantit pas.

« Un score bas veut dire que le système est mauvais. » Cela veut généralement dire que la question sous-jacente est contestée, le sujet est étroit, ou le panel a une couverture inégale. Le score bas est un rapport honnête.

« Tous les scores sont comparables entre questions. » Pas nécessairement. Un score sur une question factuelle peut être comparé à d'autres scores sur des questions factuelles. La comparaison inter-domaines exige une calibration par domaine.

« L'utilisateur devrait toujours choisir les réponses à haut score. » L'utilisateur devrait toujours lire les affirmations divergentes même quand le score est élevé — elles contiennent souvent l'information marginale que la convergence a manquée.

Concepts apparentés

Le consensus IA est la pratique plus large dont le score se lit. La vérification multi-modèles est l'ingénierie qui produit le score. Le désaccord IA est la forme qualitative de l'extrémité basse du score. La confiance IA est le cadrage plus large auquel le score contribue. La recherche de vérité IA est la question épistémique que le score aide à répondre.

Questions fréquentes

Le score est-il la probabilité que la réponse soit correcte ? Non. C'est la force du signal d'accord multi-modèles. La calibration le lie aux taux de justesse, mais ce n'est pas une probabilité directe de vérité.

Le score peut-il être faux ? Le score est une mesure ; il ne peut pas être « faux » isolément. Il peut être mal calibré — un système qui rapporte 90 % de confiance sur des sorties correctes à 75 % du temps est mal calibré et devrait être corrigé.

Devrais-je agir sur un score de 95 % de la même façon que sur un score de 70 % ? Non. Un score de 95 % justifie de lire les dissidences rapidement et d'agir sur la convergence. Un score de 70 % justifie de lire à la fois la convergence et les dissidences attentivement avant d'agir.

Le score remplace-t-il la lecture de la sortie ? Non. C'est un guide sur comment la lire, pas un substitut à la lecture.