AI野球予想の精度はどこまで信用できる？的中率・Brier score・キャリブレーションの読み方

Q: Brier scoreとは何ですか？数値の目安は？

Brier scoreは確率予測の精度を測る指標で、(予測確率−結果)の二乗の平均です。0に近いほど高精度、0.25が「常に50%と予測する無情報モデル」の基準線。スポーツの二値予測では一般に0.20前後なら良好な水準とされます。

Q: キャリブレーション(較正)とは何ですか？

「70%と予測した試合が実際にほぼ70%の頻度で起きるか」という確率の正直さのことです。キャリブレーション曲線(信頼性図)で予測確率帯ごとの実現率をプロットし、対角線に近いほど較正が良いと判断します。

Q: なぜサンプル数が重要なのですか？

試合数が少ないと、たまたま当たった「運」と本当の「実力」を区別できないからです。一般に確率予測の評価には数百〜千試合規模の検証が望まれます。10戦9勝のような小さな実績は誇張に注意が必要です。

Q: 過去の的中率が高ければ未来も当たりますか？

必ずしもそうではありません。過去データに合わせ込みすぎた過学習(オーバーフィット)モデルは、未知の試合では精度が落ちます。学習に使っていない未来データ(アウトオブサンプル)での検証実績があるかを確認しましょう。

📅 公開: 2026-06-23🔄 更新: 2026-06-23✍️ WINSportsAI 編集部⏱️ 読了約11分

「AI予想の的中率80%！」——こうした宣伝文句を見たとき、それが本当に優れたモデルなのか、それとも数字のマジックなのかを見抜けますか？結論から言うと、的中率だけでAI予想の精度を判断するのは危険です。本記事では、確率予測の質を正しく測るための統計指標——Brier score、ログ損失、キャリブレーション(較正)曲線——の読み方を、専門用語をかみ砕いて解説します。これは「絶対に当たる予想」を約束する記事ではなく、予測の良し悪しを自分で評価できる目を養うための教育コンテンツです。

// TL;DR (この記事の結論)

①的中率は「本命ばかり選ぶ」だけで高く見えるので単独では当てにならない ②確率予測の質はBrier score(0.25が基準線・低いほど良い)とログ損失で測る ③キャリブレーション曲線で「70%予測が実際70%当たるか」を検証 ④サンプル数が小さい実績(10戦9勝など)は運と実力を区別できないので過信しない

「的中率○○%」の落とし穴

的中率(正解率)は直感的でわかりやすい指標ですが、決定的な弱点があります。それは「予測がどれだけ難しい試合だったか」を一切考慮しないという点です。たとえばプロ野球で、リーグ首位と最下位が対戦する試合を「首位勝利」と予測して当てても、それは誰でも当てられる予測であり、モデルの実力を示すものではありません。

極端な例として、すべての試合で「オッズが低い本命側が勝つ」とだけ予測するモデルを考えてみましょう。野球では本命の勝率が一般に5〜6割程度あるため、このモデルの的中率は55%前後になります。しかし本命にはオッズが付いておらず、的中率が高くても払い戻しは賭け金を下回り、収支はマイナスになり得ます。的中率と収益性はまったく別物なのです。

✅ ポイント: 的中率が高い=良いモデル、ではない。本命連打でも的中率は上がる。本当に評価すべきは「確率をどれだけ正確に出せているか」。

Brier scoreで確率の質を測る

そこで使われるのがBrier score(ブライアスコア)です。これは確率予測の精度を測る代表的な指標で、計算式は次の通りシンプルです。

Brier = (1/N) × Σ (予測確率 − 実際の結果)²

実際の結果: 起きたら 1、起きなかったら 0
値の範囲: 0(完璧) 〜 1(最悪)

たとえば「A勝利の確率70%」と予測してAが実際に勝った場合、誤差は (0.7 − 1)² = 0.09。負けた場合は (0.7 − 0)² = 0.49 になります。これを全試合で平均したものがBrier scoreです。0に近いほど高精度で、何の情報もなく常に50%と予測した場合のスコアは0.25。つまり0.25が「無情報モデルの基準線」であり、これを下回って初めて「予測に価値がある」と言えます。スポーツの二値予測では、一般に0.20前後なら良好な水準とされます。

✅ 目安: Brier 0.25=コイン投げと同等 / 0.20前後=良好 / 0.18以下=かなり優秀。WINSportsAIのモデルは実測Brierを公開しており、これがモデルの自信の根拠です。

ログ損失(対数損失)とは

Brier scoreと並んでよく使われるのがログ損失(log loss / 対数損失)です。これは「自信満々で外した予測」をBrierよりも強く罰する性質を持ちます。式は次の通りです。

LogLoss = −(1/N) × Σ [ y·ln(p) + (1−y)·ln(1−p) ]

p: 予測確率 / y: 実際の結果(0 or 1)

たとえば「99%勝つ」と断言した試合を外すと、ログ損失は急激に大きくなります。これは現実の意思決定に即した性質です——「ほぼ確実」と言いながら外すのは、控えめに「6割」と言って外すよりずっと罪が重いからです。誠実なAIは、わからない試合では無理に極端な確率を出さず、50%付近に寄せることでログ損失を抑えます。逆に、やたらと「90%」「95%」を連発するモデルは、外したときのダメージが大きく、長期では信頼性が低いことが多いです。

キャリブレーション曲線の読み方

精度評価で最も実用的なのがキャリブレーション(較正)の概念です。これは一言でいえば「確率の正直さ」。AIが「70%」と言った試合を100個集めたとき、実際に約70個で予測通りの結果になっていれば、そのAIは「較正が取れている」と言えます。

これを可視化したものがキャリブレーション曲線(信頼性図)です。横軸に予測確率、縦軸に実際の実現率をとり、確率帯ごとに点をプロットします。理想的には全ての点が対角線(y=x)に乗ります。

予測確率帯	その帯の試合数(例)	実際の勝率	判定
50〜60%	120	56%	✅ 較正良好
60〜70%	90	64%	✅ 較正良好
70〜80%	60	73%	✅ 較正良好
80〜90%	30	71%	⚠️ 自信過剰の傾向

※上の数値はキャリブレーション曲線の読み方を示すための例です。もし「80〜90%」と言った試合が実際は71%しか当たっていないなら、そのモデルは高確率帯で自信過剰(過大評価)になっています。較正が崩れているモデルが出す「85%」は、額面通り受け取ってはいけません。逆に較正の取れたモデルなら、出てくる確率をそのまま期待値計算に使えます。

✅ ポイント: 較正されていない確率は期待値(EV)計算の土台にできない。EVの考え方は期待値とKelly基準の記事で詳しく解説しています。

サンプル数と運・実力の分離

「直近10戦9勝!」という実績を見たら、まずサンプル数の小ささを疑うべきです。コインを10回投げて表が8回出ることは珍しくありません。同様に、運だけで10戦9勝することは十分起こり得ます。これでは運と実力を区別できません。

統計的に「このモデルは偶然ではなく実力で勝っている」と言うには、一般に数百〜千試合規模の検証が望まれます。試合数が増えるほど、運の振れ幅は平均に収束し、本当の実力が浮かび上がります。短期の連勝・連敗に一喜一憂せず、長期の累積で評価する姿勢が重要です。

過学習を見抜く — アウトオブサンプル検証

もう一つの落とし穴が過学習(オーバーフィット)です。これは、モデルが過去データの「たまたまのパターン」まで覚え込んでしまい、未知の試合では精度が落ちる現象です。過去データに対しては的中率95%でも、未来の試合では50%しか当たらない——such なモデルは珍しくありません。

これを防ぐ唯一の方法がアウトオブサンプル検証(学習に使っていないデータでの検証)です。モデルを作るのに使った試合とは別の期間・別の試合で精度を測り、そこでも性能が維持されているかを確認します。信頼できるAI予想サービスは、「予測を事後改変せず、リアルタイムで公開・記録している」はずです。WINSportsAIが結果ログ(track-record)を公開しているのは、まさにこのアウトオブサンプル検証を誰でも検証できるようにするためです。

良いAI予想を見分けるチェックリスト

チェック項目	良い兆候	危険な兆候
指標の公開	Brier/ログ損失を公開	的中率しか言わない
サンプル数	数百〜千試合の実績	「直近◯戦」だけ強調
較正	確率帯ごとの実現率を開示	「90%必勝」を連発
記録方法	事前公開・改変なし	後出し・都合の良い抜粋
表現	確率と期待値で語る	「絶対」「確実に当たる」

✅ 結論: 「絶対当たる」と言うサービスほど信用できない。誠実なAIは確率と期待値で語り、外れる可能性を前提に分散投資(Kelly)を勧めます。

🔥 検証可能なAI予想を毎朝配信

事前公開・後付け改変なしのNPB試合別AI予想を毎朝配信中。確率とEVベースの誠実な予想を、ご自身の目で精度検証できます。

SPORTS×AI コミュ参加 →

よくある質問 (FAQ)

AI野球予想の精度は的中率だけで判断していいですか？

いいえ。的中率は「人気側ばかり予想する」だけでも高く見えてしまうため、確率予測の質を測るBrier scoreやログ損失と併用すべきです。的中率が高くても収益はマイナスになり得ます。

Brier scoreとは何ですか？数値の目安は？

(予測確率−結果)の二乗の平均で、0に近いほど高精度。常に50%と予測する無情報モデルが0.25なので、これが基準線です。スポーツの二値予測では一般に0.20前後なら良好な水準とされます。

キャリブレーション(較正)とは何ですか？

「70%と予測した試合が実際にほぼ70%の頻度で起きるか」という確率の正直さのことです。キャリブレーション曲線で予測確率帯ごとの実現率をプロットし、対角線に近いほど較正が良いと判断します。

なぜサンプル数が重要なのですか？

試合数が少ないと、運と実力を区別できないからです。一般に確率予測の評価には数百〜千試合規模の検証が望まれます。10戦9勝のような小さな実績は過信に注意が必要です。

過去の的中率が高ければ未来も当たりますか？

必ずしもそうではありません。過去データに合わせ込みすぎた過学習モデルは未知の試合で精度が落ちます。学習に使っていない未来データでの検証実績があるかを確認しましょう。

🤖

WINSportsAI 編集部 NPB+格闘技AI予想プラットフォーム。Brier score実測モデルで毎日全試合の確率予測を公開。全予想はtrack-recordで後付け編集なしで検証可能。

※本記事はスポーツ統計・予測評価の教育を目的とした解説であり、収益や的中を保証するものではありません。無料の朝予想はTelegramコミュニティで配信しています。