AI合意スコアとは何か

60秒で分かる答え

AI合意スコアは、マルチモデルパネルが同じ回答にどれだけ収束したかの定量的な要約です。それは単一の数字 — 通常はパーセンテージまたはラベル付きスケールで表現される — であり、パネルの集合的な振る舞いをキャリブレーションされた信頼シグナルに圧縮します。高いスコア: モデルが合意した、ユーザーは収束する主張を信頼する強い理由を持つ。低いスコア: モデルが分かれた、ユーザーはトピックが争われているまたは裏付け不足であるという明示的な情報を持つ。

スコアは「回答が真実である確率」ではありません。マルチモデルシグナルがどれだけ強かったかの読み取りです。高いスコアは正しさの可能性が高いことと相関しますが、関係はパネルの構造に対してキャリブレーションされており、絶対的真実に格上げされてはいません。スコアの価値は、まさにその区別について正直であることにあります。

スコアが測定するもの

意味のある合意スコアは3つの測定を組み合わせます。

カバレッジ。 パネルのどの割合が収束する主張を生成したか。6つのうち5つのモデルが合意することは、6つのうち3つとは異なります。カバレッジは最も単純な次元であり、コミュニケートするのが最も簡単です。

強度。 合意するモデルが互いにどれだけ密接に一致したか。具体的な事実について単語ごとに合意する2つのモデルは、一般的な方向にゆるく一致する2つのモデルよりも強い証拠を提供します。強度は合意の意味的な密度を捕らえます。

多様性調整された重み。 合意が真に独立したモデル(高い重み)から来るか、同じファミリー内のモデル(構築によって合意が相関するため、低い重み)から来るか。合意する2つのClaudeのバリアントは、合意するClaudeとGeminiと同等ではありません。

真剣なスコアはこれら3つの次元を1つの数字に組み合わせます。素朴なスコアはカバレッジだけを使用し、すべてのモデルを等しく扱います。これはパネルが内部的に冗長であるたびにスコアを膨らませます。違いはキャリブレーションに現れます。よくキャリブレーションされたスコアは実際の正しさ率を予測します。素朴なスコアは過信気味に切り上げます。

スコアが何でないか

合意スコアは回答が真実である確率ではありません。マルチモデルシグナルの強さの読み取りです。区別は重要です。訓練データの盲点を共有するパネル全体での高いスコアは自信を持って間違っていることがあるからです。収束は高く、真実は低いです。スコアは正直であることを行います。合意を測定し、真実ではありません。

スコアはまた、モデルの集約品質スコアでもありません。いくつかの強いモデルの隣に弱いモデルを含むパネルは、弱いモデルが同じ簡単な主張を正しく得る質問について、依然として高い合意スコアを生成できます。スコアは状況を読みます。参加者ではありません。

最後に、スコアは実際の出力を読むことの代わりではありません。1つのモデルが重要な主張で異論を唱える92%のスコアは、その1つのモデルが何を言ったかを注意深く読む価値があります。スコアは正しい場所を指します。ユーザーが読みを行います。

スコアがどうキャリブレーションされるか

よくキャリブレーションされた合意スコアは、既知の正解を持つ質問のホールドアウトに対して構築およびテストされます。システムは測定します: スコアX%で、パネルの収束する主張のどの割合が実際に振り返って正しかったか? これはスコアを実世界の正しさ率に結びつけるキャリブレーション曲線を生み出します。

キャリブレーションは重要です。キャリブレーションされていないスコアは過度の信頼を招くからです。実際には75%の正しさに対応する90%のスコアは、それが値する以上に信頼されます。92%の正しさに対応する90%のスコアは額面通りに信頼できます。正直なシステムは明示的にキャリブレーションし、パネルが進化するにつれて再キャリブレーションします。

キャリブレーションはまたドメインに敏感です。広く文書化されたトピックについての事実の主張で「非常に信頼できる」を意味するスコアは、狭い専門分野の質問でははるかに少ない意味を持つことがあります。真剣なシステムは、データがサポートするところでドメインごとにキャリブレーションし、それ以外では限界を正直にコミュニケートします。

ユーザーがスコアをどう読むべきか

合意スコアに出会うユーザーは、それを多くの中の1つの入力として扱うべきです。

非常に高いスコア(通常90%以上)では、 収束する主張は根底にある質問に適切なレベルで信頼できます。分岐する主張を読んでください(高いスコアでもいくつかあるでしょう) — それらはしばしば最も意思決定に有用な詳細を含みます。

中程度のスコア(60〜85%)では、 パネルは有用なシグナルを生成しましたが、トピックは部分的に争われています。収束する主張はおそらく信頼できます。分岐するものは直接的な注意に値します。これはユーザーが最も読む範囲です。

低いスコア(60%未満)では、 パネルは意味のある形で収束しませんでした。出力は回答というよりも不一致の地図です。ユーザーはそれを生の材料として扱うべきです — 質問を理解するのに有用で、さらなる調査なしに解決するためではありません。

正確なしきい値はシステムのキャリブレーションに依存します。一般原則は、スコアが出力をどう読むかへのガイドであり、読むことを迂回する判決ではないということです。

実用的な例

ユーザーがよく文書化された歴史的事実について尋ねます。パネルは96%のスコアを生成します。収束する主張には日付、名前、基本的な文脈が含まれます。ユーザーは自信を持って回答を読み — そして、1つのモデルが他のモデルが省略した具体的な詳細(具体的な情報源)を追加したことに気付きます。高いスコアは読みを効率的にしました。

ユーザーが最近の規制について尋ねます。パネルは71%のスコアを生成します。収束する主張は規制の一般的な枠組みをカバーします。分岐する主張は一般的なケースへのその具体的な適用をカバーします。ユーザーは注意深く読み、開かれた質問を専門家に持っていきます。スコアはどこに焦点を当てるべきかをユーザーに告げました。

ユーザーがパネルがよく知らないトピックについて尋ねます。パネルは48%のスコアを生成します。分岐する主張は複数の枠組みにわたって広がります。ユーザーは出力をトピックの争われた風景への紹介として扱い、行動するための回答ではありません。低いスコアはその仕事をしました — 弱い集合的証拠への過剰依存からユーザーを守りました。

よくある誤解

「高いスコアは回答が真実であることを意味する。」 それはパネルが収束したことを意味します。収束は正しさへの信頼を高めます。それを保証しません。

「低いスコアはシステムが悪いことを意味する。」 通常、根底にある質問が争われている、トピックが狭い、またはパネルが不均一なカバレッジを持っていることを意味します。低いスコアは正直な報告です。

「すべてのスコアは質問間で比較可能だ。」 必ずしもそうではありません。事実の質問のスコアは他の事実の質問のスコアと比較できます。ドメイン横断の比較にはドメインごとのキャリブレーションが必要です。

「ユーザーは常に高スコアの回答を選ぶべきだ。」 スコアが高いときでも、ユーザーは常に分岐する主張を読むべきです — それらはしばしば収束が見逃した限界情報を含みます。

よくある質問

スコアは回答が正しい確率ですか? いいえ。マルチモデル合意シグナルの強さです。キャリブレーションはそれを正しさ率に結びつけますが、直接的な真実確率ではありません。

スコアは間違っていることがありますか? スコアは測定です。孤立して「間違って」いることはできません。誤ってキャリブレーションされていることはあります — 75%の時間正しい出力で90%の信頼を報告するシステムは誤ってキャリブレーションされており、修正されるべきです。

95%のスコアで70%のスコアと同じように行動すべきですか? いいえ。95%のスコアは異論を素早く読み、収束に基づいて行動することを正当化します。70%のスコアは行動する前に収束と異論の両方を注意深く読むことを正当化します。

スコアは出力を読むことの代わりですか? いいえ。それはどう読むかへのガイドであり、読むことの代わりではありません。