AI総合研究所

SHARE

X(twiiter)にポストFacebookに投稿はてなブックマークに登録URLをコピー

機械学習における評価指標とは?その一覧や選び方を解説

この記事のポイント

  • Accuracyだけに頼るのは危険。クラス不均衡データでは精度99%でも実務で使えないモデルになり得る
  • 評価指標選びの第一歩は「FPとFNのどちらがビジネスコストに直結するか」を特定すること。医療ならRecall、スパム検出ならPrecisionを優先すべき
  • クロスバリデーションは必須。単一テストデータの評価はデータの偏りに左右されるため、K分割交差検証で安定的に測定すべき
  • データリークはスケーリングをデータ分割前に行うだけで発生する。scikit-learnのPipelineを使えば自動的に防止できる
  • LLM評価ではMMLUが飽和傾向にあり、SWE-benchやGPQAなど実務寄りのベンチマークを複数組み合わせて判断すべき
坂本 将磨

監修者プロフィール

坂本 将磨

XでフォローフォローするMicrosoftMVP

Microsoft MVP・AIパートナー。LinkX Japan株式会社 代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会 優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。

機械学習モデルの性能を正しく評価するには、タスクの種類や目的に応じた評価指標の選択が不可欠です。
精度(Accuracy)だけに頼ると、クラス不均衡のデータセットでモデルの実力を見誤るリスクがあります。適合率、再現率、F1スコア、ROC-AUCなど、目的に応じた最適な指標を組み合わせることが重要です。
本記事では、分類・回帰・クラスタリングの各モデルで使われる主要評価指標に加え、2026年に注目されるLLMベンチマーク(MMLU、HumanEval、SWE-bench、GPQA)までを体系的に解説します。

機械学習の評価指標とは(2026年最新)

機械学習の評価指標(evaluation metrics)とは、モデルの性能を定量的に測定するための基準です。モデルがどれほど正確に予測や分類を行っているかを数値で判断し、改善点を明確にするために使用されます。評価指標は、モデルの種類(分類、回帰、クラスタリングなど)や特定のタスクの目標に応じて適切なものを選択する必要があります。

2026年現在、従来の機械学習モデルに加えて、大規模言語モデル(LLM)の評価が重要なテーマとなっています。MMLUやHumanEvalといったLLMベンチマークが業界標準として定着し、モデル選定の判断材料として広く活用されています。

以下の表で、機械学習の主要評価指標をモデル種別ごとに分類しました。この一覧を参考に、自社のタスクに適した指標を特定してください。

モデル種別 主要指標 主な用途
分類モデル Accuracy、Precision、Recall、F1スコア、ROC-AUC スパム検出、医療診断、不正検知
回帰モデル MAE、MSE、RMSE、R²(決定係数) 価格予測、需要予測、気温予測
クラスタリングモデル シルエット係数、相互情報量、ARI 顧客セグメンテーション、画像分類
生成モデル(NLP) BLEU、ROUGE、BERTScore 機械翻訳、文書要約、文章生成
LLMベンチマーク MMLU、HumanEval、SWE-bench、GPQA 汎用AI性能評価、コーディング能力

分類モデルでは5つの指標を組み合わせて使うのが一般的ですが、すべてのタスクで全指標を計算する必要はありません。重要なのは、ビジネス上の目的に合致した指標を優先的に選ぶことです。たとえば、医療診断のように見逃しが致命的なタスクでは再現率(Recall)が最重要となり、スパムフィルターのように誤検出を減らしたいタスクでは適合率(Precision)が優先されます。評価指標の選択を誤ると、精度99%のモデルが実務ではまったく使えないという事態も起こり得ます。

分類モデルの評価指標

分類モデルの評価指標は、モデルが各クラスをどれだけ正確に予測できるかを測定します。ディープラーニングを含む分類タスクでは、精度(Accuracy)だけでなく複数の指標を組み合わせることが標準的な手法です。

以下の表で、分類モデルの主要5指標を比較しました。各指標の特性と、どのような状況で有効かを確認してください。

指標 定義 値の範囲 有効な場面 注意点
Accuracy(精度) 全予測中の正解割合 0〜1 クラス分布が均等な場合 不均衡データでは過大評価される
Precision(適合率) 正と予測した中の実際の正の割合 0〜1 誤検出を減らしたい場合 見逃しの多さを反映しない
Recall(再現率) 実際の正の中で正と予測した割合 0〜1 見逃しを防ぎたい場合 誤検出の多さを反映しない
F1スコア PrecisionとRecallの調和平均 0〜1 不均衡データの総合評価 クラス分布が均等なら不要
ROC-AUC ROC曲線下の面積 0〜1 閾値に依存しない評価 多クラス分類では解釈が複雑

この比較から分かるのは、Accuracyが万能ではないという点です。たとえば、99%がクラスAで1%がクラスBのデータセットでは、常にクラスAを予測するだけで99%のAccuracyを達成できますが、クラスBを一切識別できないモデルは実務では役に立ちません。不均衡データでは、F1スコアやROC-AUCを優先すべきです。

scikit-learnでは、classification_reportを使うことでAccuracy、Precision、Recall、F1スコアを一括で計算できます。ROC-AUCはroc_auc_score関数で算出可能です。

混同行列と各指標の関係

混同行列(Confusion Matrix)は、分類モデルの予測結果を4つのカテゴリに分類した表です。混同行列を理解することで、各評価指標がモデルのどの側面を測定しているかが明確になります。

混同行列は、真陽性(TP:正しく正と予測)、偽陽性(FP:誤って正と予測)、真陰性(TN:正しく負と予測)、偽陰性(FN:誤って負と予測)の4要素で構成されます。Precisionは「TP / (TP + FP)」で計算され、モデルが正と予測したものの信頼度を示します。Recallは「TP / (TP + FN)」で計算され、実際に正であるデータをどれだけ拾えたかを示します。

実務では、この4要素のどれを重視するかがビジネス要件によって異なります。医療診断では、重大な病気を見逃す偽陰性(FN)が最も深刻なため、Recallを最大化することが優先されます。一方、不良品検出では、正常品を不良と誤判定する偽陽性(FP)が廃棄コストの増加につながるため、Precisionを重視します。不正検知のようにFPとFNの両方を抑えたい場合は、F1スコアが最も適切な指標です。

ROC曲線は、閾値を変化させたときのTPR(真陽性率)とFPR(偽陽性率)の関係をグラフ化したもので、AUCはその曲線下の面積を表します。AUCが1に近いほど判別能力が高く、0.5はランダム予測と同等です。ROC-AUCの利点は、閾値の設定に依存しないためモデル同士の公平な比較ができる点にあります。

回帰モデルとクラスタリングモデルの評価指標

回帰モデルの評価指標は、予測値と実測値のズレの大きさを測定します。分類モデルとは異なり、連続値の予測精度を評価するため、誤差の計算方法が指標ごとに異なります。以下の表で、回帰モデルの主要4指標を比較しました。

指標 定義 値の範囲 有効な場面 外れ値への感度
MAE(平均絶対誤差) 予測誤差の絶対値の平均 0以上 全般的な誤差評価 低い
MSE(平均二乗誤差) 予測誤差の二乗の平均 0以上 大きな誤差を重視する場合 高い
RMSE(二乗平均平方根誤差) MSEの平方根 0以上 元のスケールで誤差を把握 高い
R²(決定係数) モデルが分散をどれだけ説明するか 0〜1(通常) モデル全体の適合度 中程度

MAEとMSEの最大の違いは、外れ値への感度です。MSEは誤差を二乗するため、大きな予測ミスに対して重いペナルティを課します。株価予測のように大きな外れ値を特に避けたい場合はMSEが適切ですが、家賃予測のように外れ値の影響を平均的に扱いたい場合はMAEが適しています。RMSEはMSEの平方根を取ることで、元のデータと同じ単位で誤差を解釈できる利点があります。

R²(決定係数)は、モデルがデータの変動をどれだけ説明できるかを0〜1の範囲で示します。R²が0.8であれば、データの変動の80%をモデルが説明できていることを意味します。ただし、R²は特徴量の数が増えると自動的に上昇する傾向があるため、特徴量が多いモデルでは調整済みR²(Adjusted R²)を使用する方が適切です。

回帰・クラスタリングモデルの指標使い分け

クラスタリングモデルの評価は、分類や回帰とは性質が異なります。正解ラベルが存在しない教師なし学習であるため、モデルの出力品質を直接測定する指標が必要です。

クラスタリングで最も広く使われるのがシルエット係数です。シルエット係数は、各データポイントが自分のクラスタにどれだけ適切に属しているかを-1から1の範囲で評価します。1に近いほど良好なクラスタリングを示し、0に近い場合はクラスタ間の境界が曖昧であることを意味します。顧客セグメンテーションの最適クラスタ数を決定する際に、シルエット係数を基準にするのが一般的な手法です。

正解ラベルが利用可能な場合は、相互情報量(Mutual Information)や調整ランダムインデックス(ARI)が有効です。相互情報量はクラスタリング結果と正解ラベルの情報共有度を測定し、ARIはランダムな一致の影響を除去した上で一致度を評価します。ARIは-1から1の範囲で、1に近いほど正解ラベルとの一致度が高いことを示します。

自然言語処理の分野では、テキスト生成モデルの評価にBLEU(機械翻訳の品質)、ROUGE(文書要約の品質)、BERTScore(BERTの埋め込みを用いた意味的類似度)が標準的に使われています。これらの指標は、生成されたテキストが参照テキストとどれだけ類似しているかを測定するものであり、人間の判断との相関が高い評価を実現します。

評価指標の選び方と実務上の注意点

評価指標は単独で使うのではなく、複数を組み合わせてモデルの性能を多角的に評価することが原則です。以下の表で、代表的なタスクと推奨される指標の組み合わせをまとめました。

タスク 最優先指標 補助指標 理由
医療診断 Recall F1、ROC-AUC 病気の見逃し(FN)が最も深刻
スパム検出 Precision F1、Accuracy 正常メールの誤削除(FP)を防ぐ
不正検知 F1スコア Recall、ROC-AUC FPとFNの両方を抑える必要
需要予測 MAE RMSE、R² 外れ値の影響を抑えつつ全体精度を評価
信用スコアリング ROC-AUC Precision、Recall 閾値に依存しない判別能力の評価
顧客セグメンテーション シルエット係数 ARI(ラベルありの場合) クラスタの品質と分離度を測定

実務で選ぶ際のポイントは、ビジネス上のコストに直結する誤りがどちらか(FPかFN)を最初に特定することです。どちらのコストも同程度であればF1スコアを、判断が難しい場合はROC-AUCを選択するのが安全な方針です。

評価指標の分散や標準偏差も考慮する必要があります。データサイエンスの実務では、単一のテストデータでの評価結果はデータの偏りに左右されるため、クロスバリデーションによる複数回の評価が不可欠です。

クロスバリデーションとデータリークの防止

クロスバリデーション(交差検証)は、データを複数の分割に分け、各分割で学習と評価を繰り返すことで、モデルの性能を安定的に測定する手法です。scikit-learnのcross_validate関数を使えば、K分割交差検証を簡単に実装できます。

最も一般的なのはK分割交差検証(K-Fold CV)で、データをK個に分割し、K回の学習・評価を行って結果を平均します。分類タスクでは、クラスの比率を維持するStratifiedKFoldの使用が推奨されます。時系列データでは、未来のデータが学習に含まれないようTimeSeriesSplitを使用する必要があります。

データリーク(Data Leakage)は、評価指標を誤って高く見積もる最大の原因です。データリークとは、テストデータの情報が学習プロセスに漏れてしまう問題を指します。代表的な例として、特徴量のスケーリングをデータ分割前に行うケースがあります。データ全体の平均や標準偏差を使ってスケーリングすると、テストデータの統計情報が学習データに混入し、評価指標が実際の性能よりも高くなります。scikit-learnのPipelineを使えば、データ分割後にスケーリングが適用されるため、リークを自動的に防止できます。

もう1つの注意点は、ハイパーパラメータチューニングにテストデータを使わないことです。GridSearchCVやRandomizedSearchCVを使う場合、内部でさらに交差検証を行い、最終評価には未使用のテストデータを確保する「ネステッドクロスバリデーション」が理想的です。

LLM時代の評価指標とベンチマーク

生成AIの急速な発展に伴い、従来の機械学習評価指標だけではモデルの性能を十分に測定できなくなっています。ChatGPTをはじめとする大規模言語モデルの評価には、知識、推論、コーディング、安全性など多面的なベンチマークが必要です。

以下の表で、2026年現在の主要LLMベンチマークを整理しました。各ベンチマークが何を測定し、どのように使い分けるかを確認してください。

ベンチマーク 評価対象 問題数 測定方法 2026年の状況
MMLU 57科目の学術知識 16,000問以上 多肢選択 フロンティアモデルが88%超で飽和傾向
HumanEval Pythonコーディング 164問 テスト通過率 GPT-4以降のモデルで90%超が一般的
SWE-bench 実世界のバグ修正 2,294問 GitHub PR再現 実務コーディング能力の標準指標
GPQA 大学院レベルの科学 448問 専門家作成の多肢選択 Nature掲載、最難関ベンチマーク
MATH 数学的推論 12,500問 段階的解法 高度な推論能力の測定に使用
HLE 人類知識の最前線 2,500問 マルチモーダル 2026年新設、最も困難な評価基準
Chatbot Arena 人間の選好度 継続的 対戦形式(Eloレーティング) 人間評価の代表的プラットフォーム

MMLUはフロンティアモデルで88%を超えており、モデル間の差を測定する指標としての有効性が低下しています。GPT-5はMMLUで90%以上を達成しており、ハルシネーション(事実誤認)を45〜80%削減する成果を上げています。

TransformerベースのLLMの評価では、単一のベンチマークスコアだけでなく、複数のベンチマークを横断的に比較することが重要です。ClaudeはSWE-bench Multilingualで77.8%を達成し、DeepSeek R1はMATHベンチマークで高い推論精度を示しています。

2026年の評価手法と最新ベンチマーク

2026年のLLM評価における最大のトレンドは、「トレーサビリティ」(追跡可能性)の重視です。評価スコアを、プロンプトのバージョン、モデルのバージョン、データセットのバージョンに紐づけて管理することで、再現性のある評価を実現する仕組みが普及しています。OpenAI Evals、DeepEval、W&B Weave、MLflowなどの評価フレームワークがこの要件に対応しています。

Humanity's Last Exam(HLE)は、2026年に新設された最も困難なベンチマークです。数学、人文科学、自然科学を含む2,500問のマルチモーダル問題で構成されており、現時点でフロンティアモデルでも正答率が低い水準にとどまっています。MMLUが飽和した現在、HLEはモデル間の差を測定する新たな基準として注目されています。

RAG(検索拡張生成)の評価には、RAGASフレームワークが標準的に使われています。RAGASは、回答の忠実性(Faithfulness)、回答の関連性(Answer Relevancy)、コンテキストの精度(Context Precision)、コンテキストの再現率(Context Recall)の4指標でRAGパイプラインの品質を評価します。ChatGPTをプログラミングで活用する際のコード品質評価には、HumanEvalやLiveCodeBenchが業界標準として定着しています。LiveCodeBench v6では、2026年2月時点でQwen3.5-plusが83.6%でリードしています。

AI駆動開発

医療業界のためのAI活用プロンプト集

医療業界プロンプト集

業務効率化を実現するプロンプトテンプレート

生成AIを活用する方のためのヘルスケア業界特化プロンプト集です。ヘルスケア業界での生成AI活用は患者さんにも影響するので運用方法には注意が必要です。最終チェックは人間が行うことで業務効率を改善しながらも良いケアの提供サポートになるでしょう。どうぞご活用ください。

まとめ

本記事では、機械学習の評価指標を分類・回帰・クラスタリング・LLMベンチマークの4カテゴリに分けて体系的に解説しました。

評価指標の選択は、モデルの性能を正確に把握するための最も重要なステップです。精度(Accuracy)だけに頼ると、クラス不均衡データでモデルの実力を見誤り、本番環境で想定外の障害が発生するリスクがあります。ビジネス上のコストに直結する誤り(FPかFN)を最初に特定し、それに対応する指標を優先的に選択することが成功の鍵です。

AIモデルの評価スキルを高めるためには、以下の手順で実践に移すことをおすすめします。

  1. scikit-learnのclassification_reportとcross_validate関数を使い、手元のデータセットで主要指標を一括算出する
  2. 混同行列を可視化し、FPとFNのどちらがビジネスコストに直結するかを特定する
  3. LLMを業務に導入している場合は、RAGAS等の評価フレームワークでRAGパイプラインの品質を定期的にモニタリングする
監修者
坂本 将磨

坂本 将磨

Microsoft MVP・AIパートナー。LinkX Japan株式会社 代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会 優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。

関連記事

AI導入の最初の窓口

お悩み・課題に合わせて活用方法をご案内いたします
お気軽にお問合せください

AI総合研究所 Bottom banner

ご相談
お問い合わせは
こちら!