O que é um score de concordância de IA?

Resposta em 60 segundos

Um score de concordância de IA é o resumo quantitativo de quanto um painel multi-modelo convergiu na mesma resposta. É um único número — tipicamente expresso como porcentagem ou em uma escala rotulada — que comprime o comportamento coletivo do painel em um sinal de confiança calibrada. Score alto: os modelos concordaram; o usuário tem razão forte para confiar nas afirmações convergentes. Score baixo: os modelos se dividiram; o usuário tem informação explícita de que o tópico é contestado ou pouco apoiado.

O score não é uma "probabilidade de a resposta ser verdadeira". É uma leitura de quão forte foi o sinal multi-modelo. Um score alto correlaciona com uma probabilidade maior de correção, mas a relação é calibrada contra a estrutura do painel, não promovida a verdade absoluta. O valor do score está exatamente em ser honesto sobre essa distinção.

O que o score mede

Um score de concordância significativo combina três medições.

Cobertura. Que fração do painel produziu a afirmação convergente. Cinco em seis modelos concordando é diferente de três em seis. A cobertura é a dimensão mais simples e a mais fácil de comunicar.

Intensidade. Quão estreitamente os modelos concordantes se alinharam entre si. Dois modelos concordando palavra por palavra em um fato específico fornecem evidência mais forte do que dois modelos concordando frouxamente em uma direção geral. A intensidade captura a estreiteza semântica da concordância.

Peso ajustado por diversidade. Se a concordância vem de modelos genuinamente independentes (peso alto) ou de modelos dentro da mesma família (peso menor, porque a concordância deles é correlacionada por construção). Duas variantes de Claude concordando não equivalem a um Claude e um Gemini concordando.

Um score sério combina essas três dimensões em um número. Um score ingênuo usa apenas a cobertura e trata cada modelo igualmente, o que infla o score sempre que o painel é internamente redundante. A diferença aparece na calibragem: scores bem calibrados preveem taxas reais de correção; scores ingênuos arredondam para cima com excesso de confiança.

O que o score não é

O score de concordância não é uma probabilidade de a resposta ser verdadeira. É uma leitura da força do sinal multi-modelo. A distinção importa porque um score alto em um painel que compartilha um ponto cego dos dados de treinamento pode estar confiantemente errado — a convergência é alta, a verdade é baixa. O score faz aquilo sobre o qual é honesto: mede concordância, não verdade.

O score também não é um score agregado de qualidade dos modelos. Um painel que inclui um modelo mais fraco ao lado de vários fortes ainda pode produzir um score de concordância alto em perguntas em que o modelo mais fraco acerta a mesma afirmação fácil. O score lê a situação, não os participantes.

Por fim, o score não é substituto para ler a saída real. Um score de 92% com um modelo discordando em uma afirmação-chave merece uma leitura cuidadosa do que esse modelo disse. O score aponta o lugar certo; o usuário faz a leitura.

Como o score é calibrado

Um score de concordância bem calibrado é construído e testado contra um conjunto de teste com respostas corretas conhecidas. O sistema mede: no score X%, que fração das afirmações convergentes do painel foi de fato correta em retrospectiva? Isso produz uma curva de calibragem que liga scores a taxas reais de correção.

A calibragem importa porque scores não calibrados convidam à excessiva confiança. Um score de 90% que corresponde, na verdade, a 75% de correção será mais confiado do que merece; um score de 90% que corresponde a 92% pode ser confiado pelo valor de face. Sistemas honestos calibram explicitamente e recalibram conforme o painel evolui.

A calibragem também é sensível ao domínio. O score que significa "muito confiável" em afirmações factuais sobre tópicos amplamente documentados pode significar menos em perguntas de especialidades restritas. Sistemas sérios calibram por domínio onde os dados sustentam, e do contrário comunicam o limite honestamente.

Como o usuário deve ler o score

Um usuário que encontra um score de concordância deve tratá-lo como uma entrada entre várias.

Em scores muito altos (tipicamente 90% +), as afirmações convergentes podem ser confiadas no nível apropriado à pergunta subjacente. Leia as afirmações divergentes (haverá algumas mesmo em scores altos) — frequentemente contêm o detalhe mais útil para a decisão.

Em scores médios (60–85%), o painel produziu sinal útil, mas o tópico é parcialmente contestado. As afirmações convergentes são provavelmente confiáveis; as divergentes merecem atenção direta. É a faixa em que o usuário lê mais.

Em scores baixos (abaixo de 60%), o painel não convergiu de forma significativa. A saída é mais um mapa de discordância do que uma resposta. O usuário deve tratá-la como matéria-prima — útil para entender a pergunta, não para resolvê-la sem investigação adicional.

Os limiares exatos dependem da calibragem do sistema. O princípio geral é que o score é um guia de como ler a saída, não um veredicto que dispensa lê-la.

Exemplos práticos

Um usuário pergunta sobre um fato histórico bem documentado. O painel produz um score de 96%. As afirmações convergentes incluem datas, nomes e contexto básico. O usuário lê a resposta com confiança — e percebe que um modelo adicionou um detalhe específico que os outros omitiram (uma fonte específica). O score alto tornou a leitura eficiente.

Um usuário pergunta sobre uma regulação recente. O painel produz um score de 71%. As afirmações convergentes cobrem o quadro geral da regulação; as divergentes cobrem sua aplicação específica a casos comuns. O usuário lê com cuidado e leva as questões em aberto a um profissional. O score lhe disse onde focar.

Um usuário pergunta sobre um tópico que o painel conhece mal. O painel produz um score de 48%. As afirmações divergentes se espalham por vários enquadramentos. O usuário trata a saída como introdução à paisagem contestada do tópico, não como resposta sobre a qual agir. O score baixo cumpriu seu papel — impediu o usuário de confiar excessivamente em evidência coletiva fraca.

Equívocos comuns

"Um score alto significa que a resposta é verdadeira." Significa que o painel convergiu. A convergência eleva a confiança na correção; não a garante.

"Um score baixo significa que o sistema é ruim." Em geral significa que a pergunta subjacente é contestada, o tópico é restrito ou o painel tem cobertura desigual. O score baixo é relato honesto.

"Todos os scores são comparáveis entre perguntas." Não necessariamente. Um score em uma pergunta factual pode ser comparado com outros scores em perguntas factuais. Comparação entre domínios requer calibragem por domínio.

"O usuário deve sempre escolher as respostas de score alto." O usuário deve sempre ler as afirmações divergentes mesmo quando o score é alto — frequentemente contêm a informação marginal que a convergência perdeu.

Conceitos relacionados

Consenso de IA é a prática mais ampla da qual o score é a leitura. Verificação multi-modelo é a engenharia que produz o score. Discordância de IA é a forma qualitativa da extremidade inferior do score. Confiança em IA é o enquadramento mais amplo para o qual o score contribui. Busca pela verdade por IA é a questão epistêmica que o score ajuda a responder.

Perguntas frequentes

O score é a probabilidade de a resposta estar correta? Não. É a força do sinal de concordância multi-modelo. A calibragem o liga a taxas de correção, mas não é uma probabilidade direta de verdade.

O score pode estar errado? O score é uma medição; não pode estar "errado" isoladamente. Pode estar mal calibrado — um sistema que relata 90% de confiança em saídas que são corretas 75% das vezes está mal calibrado e deve ser corrigido.

Devo agir em um score de 95% do mesmo jeito que em um de 70%? Não. Um score de 95% justifica ler os dissensos rapidamente e agir sobre a convergência. Um score de 70% justifica ler tanto a convergência quanto os dissensos com cuidado antes de agir.

O score substitui a leitura da saída? Não. É um guia de como lê-la, não um substituto.