的中率(正解率)は直感的でわかりやすい指標ですが、決定的な弱点があります。それは「予測がどれだけ難しい試合だったか」を一切考慮しないという点です。たとえばプロ野球で、リーグ首位と最下位が対戦する試合を「首位勝利」と予測して当てても、それは誰でも当てられる予測であり、モデルの実力を示すものではありません。
極端な例として、すべての試合で「オッズが低い本命側が勝つ」とだけ予測するモデルを考えてみましょう。野球では本命の勝率が一般に5〜6割程度あるため、このモデルの的中率は55%前後になります。しかし本命にはオッズが付いておらず、的中率が高くても払い戻しは賭け金を下回り、収支はマイナスになり得ます。的中率と収益性はまったく別物なのです。
そこで使われるのがBrier score(ブライアスコア)です。これは確率予測の精度を測る代表的な指標で、計算式は次の通りシンプルです。
たとえば「A勝利の確率70%」と予測してAが実際に勝った場合、誤差は (0.7 − 1)² = 0.09。負けた場合は (0.7 − 0)² = 0.49 になります。これを全試合で平均したものがBrier scoreです。0に近いほど高精度で、何の情報もなく常に50%と予測した場合のスコアは0.25。つまり0.25が「無情報モデルの基準線」であり、これを下回って初めて「予測に価値がある」と言えます。スポーツの二値予測では、一般に0.20前後なら良好な水準とされます。
Brier scoreと並んでよく使われるのがログ損失(log loss / 対数損失)です。これは「自信満々で外した予測」をBrierよりも強く罰する性質を持ちます。式は次の通りです。
たとえば「99%勝つ」と断言した試合を外すと、ログ損失は急激に大きくなります。これは現実の意思決定に即した性質です——「ほぼ確実」と言いながら外すのは、控えめに「6割」と言って外すよりずっと罪が重いからです。誠実なAIは、わからない試合では無理に極端な確率を出さず、50%付近に寄せることでログ損失を抑えます。逆に、やたらと「90%」「95%」を連発するモデルは、外したときのダメージが大きく、長期では信頼性が低いことが多いです。
精度評価で最も実用的なのがキャリブレーション(較正)の概念です。これは一言でいえば「確率の正直さ」。AIが「70%」と言った試合を100個集めたとき、実際に約70個で予測通りの結果になっていれば、そのAIは「較正が取れている」と言えます。
これを可視化したものがキャリブレーション曲線(信頼性図)です。横軸に予測確率、縦軸に実際の実現率をとり、確率帯ごとに点をプロットします。理想的には全ての点が対角線(y=x)に乗ります。
| 予測確率帯 | その帯の試合数(例) | 実際の勝率 | 判定 |
|---|---|---|---|
| 50〜60% | 120 | 56% | ✅ 較正良好 |
| 60〜70% | 90 | 64% | ✅ 較正良好 |
| 70〜80% | 60 | 73% | ✅ 較正良好 |
| 80〜90% | 30 | 71% | ⚠️ 自信過剰の傾向 |
※上の数値はキャリブレーション曲線の読み方を示すための例です。もし「80〜90%」と言った試合が実際は71%しか当たっていないなら、そのモデルは高確率帯で自信過剰(過大評価)になっています。較正が崩れているモデルが出す「85%」は、額面通り受け取ってはいけません。逆に較正の取れたモデルなら、出てくる確率をそのまま期待値計算に使えます。
「直近10戦9勝!」という実績を見たら、まずサンプル数の小ささを疑うべきです。コインを10回投げて表が8回出ることは珍しくありません。同様に、運だけで10戦9勝することは十分起こり得ます。これでは運と実力を区別できません。
統計的に「このモデルは偶然ではなく実力で勝っている」と言うには、一般に数百〜千試合規模の検証が望まれます。試合数が増えるほど、運の振れ幅は平均に収束し、本当の実力が浮かび上がります。短期の連勝・連敗に一喜一憂せず、長期の累積で評価する姿勢が重要です。
もう一つの落とし穴が過学習(オーバーフィット)です。これは、モデルが過去データの「たまたまのパターン」まで覚え込んでしまい、未知の試合では精度が落ちる現象です。過去データに対しては的中率95%でも、未来の試合では50%しか当たらない——such なモデルは珍しくありません。
これを防ぐ唯一の方法がアウトオブサンプル検証(学習に使っていないデータでの検証)です。モデルを作るのに使った試合とは別の期間・別の試合で精度を測り、そこでも性能が維持されているかを確認します。信頼できるAI予想サービスは、「予測を事後改変せず、リアルタイムで公開・記録している」はずです。WINSportsAIが結果ログ(track-record)を公開しているのは、まさにこのアウトオブサンプル検証を誰でも検証できるようにするためです。
| チェック項目 | 良い兆候 | 危険な兆候 |
|---|---|---|
| 指標の公開 | Brier/ログ損失を公開 | 的中率しか言わない |
| サンプル数 | 数百〜千試合の実績 | 「直近◯戦」だけ強調 |
| 較正 | 確率帯ごとの実現率を開示 | 「90%必勝」を連発 |
| 記録方法 | 事前公開・改変なし | 後出し・都合の良い抜粋 |
| 表現 | 確率と期待値で語る | 「絶対」「確実に当たる」 |
いいえ。的中率は「人気側ばかり予想する」だけでも高く見えてしまうため、確率予測の質を測るBrier scoreやログ損失と併用すべきです。的中率が高くても収益はマイナスになり得ます。
(予測確率−結果)の二乗の平均で、0に近いほど高精度。常に50%と予測する無情報モデルが0.25なので、これが基準線です。スポーツの二値予測では一般に0.20前後なら良好な水準とされます。
「70%と予測した試合が実際にほぼ70%の頻度で起きるか」という確率の正直さのことです。キャリブレーション曲線で予測確率帯ごとの実現率をプロットし、対角線に近いほど較正が良いと判断します。
試合数が少ないと、運と実力を区別できないからです。一般に確率予測の評価には数百〜千試合規模の検証が望まれます。10戦9勝のような小さな実績は過信に注意が必要です。
必ずしもそうではありません。過去データに合わせ込みすぎた過学習モデルは未知の試合で精度が落ちます。学習に使っていない未来データでの検証実績があるかを確認しましょう。
※本記事はスポーツ統計・予測評価の教育を目的とした解説であり、収益や的中を保証するものではありません。無料の朝予想はTelegramコミュニティで配信しています。