2026-03-17

機械学習における評価指標とは？その一覧や選び方を解説

この記事のポイント

Accuracyだけに頼るのは危険。クラス不均衡データでは精度99%でも実務で使えないモデルになり得る
評価指標選びの第一歩は「FPとFNのどちらがビジネスコストに直結するか」を特定すること。医療ならRecall、スパム検出ならPrecisionを優先すべき
クロスバリデーションは必須。単一テストデータの評価はデータの偏りに左右されるため、K分割交差検証で安定的に測定すべき
データリークはスケーリングをデータ分割前に行うだけで発生する。scikit-learnのPipelineを使えば自動的に防止できる
LLM評価ではMMLUが飽和傾向にあり、SWE-benchやGPQAなど実務寄りのベンチマークを複数組み合わせて判断すべき

監修者プロフィール

坂本将磨

フォローする

Microsoft MVP・AIパートナー。LinkX Japan株式会社代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。

機械学習モデルの性能を正しく評価するには、タスクの種類や目的に応じた評価指標の選択が不可欠です。
精度（Accuracy）だけに頼ると、クラス不均衡のデータセットでモデルの実力を見誤るリスクがあります。適合率、再現率、F1スコア、ROC-AUCなど、目的に応じた最適な指標を組み合わせることが重要です。
本記事では、分類・回帰・クラスタリングの各モデルで使われる主要評価指標に加え、2026年に注目されるLLMベンチマーク（MMLU、HumanEval、SWE-bench、GPQA）までを体系的に解説します。

機械学習の評価指標とは（2026年最新）

分類モデルの評価指標

混同行列と各指標の関係

回帰モデルとクラスタリングモデルの評価指標

機械学習の評価指標の理解でAI導入の判断力を磨く

まとめ

 機械学習の評価指標とは（2026年最新）機械学習の評価指標（evaluation metrics）とは、モデルの性能を定量的に測定するための基準です。モデルがどれほど正確に予測や分類を行っているかを数値で判断し、改善点を明確にするために使用されます。評価指標は、モデルの種類（分類、回帰、クラスタリングなど）や特定のタスクの目標に応じて適切なものを選択する必要があります。
2026年現在、従来の機械学習モデルに加えて、大規模言語モデル（LLM）の評価が重要なテーマとなっています。MMLUやHumanEvalといったLLMベンチマークが業界標準として定着し、モデル選定の判断材料として広く活用されています。
以下の表で、機械学習の主要評価指標をモデル種別ごとに分類しました。この一覧を参考に、自社のタスクに適した指標を特定してください。


モデル種別
主要指標
主な用途


分類モデル
Accuracy、Precision、Recall、F1スコア、ROC-AUC
スパム検出、医療診断、不正検知

回帰モデル
MAE、MSE、RMSE、R²（決定係数）
価格予測、需要予測、気温予測

クラスタリングモデル
シルエット係数、相互情報量、ARI
顧客セグメンテーション、画像分類

生成モデル（NLP）
BLEU、ROUGE、BERTScore
機械翻訳、文書要約、文章生成

LLMベンチマーク
MMLU、HumanEval、SWE-bench、GPQA
汎用AI性能評価、コーディング能力

分類モデルでは5つの指標を組み合わせて使うのが一般的ですが、すべてのタスクで全指標を計算する必要はありません。重要なのは、ビジネス上の目的に合致した指標を優先的に選ぶことです。たとえば、医療診断のように見逃しが致命的なタスクでは再現率（Recall）が最重要となり、スパムフィルターのように誤検出を減らしたいタスクでは適合率（Precision）が優先されます。評価指標の選択を誤ると、精度99%のモデルが実務ではまったく使えないという事態も起こり得ます。
 分類モデルの評価指標分類モデルの評価指標は、モデルが各クラスをどれだけ正確に予測できるかを測定します。ディープラーニングを含む分類タスクでは、精度（Accuracy）だけでなく複数の指標を組み合わせることが標準的な手法です。
以下の表で、分類モデルの主要5指標を比較しました。各指標の特性と、どのような状況で有効かを確認してください。


指標
定義
値の範囲
有効な場面
注意点


Accuracy（精度）
全予測中の正解割合
0〜1
クラス分布が均等な場合
不均衡データでは過大評価される

Precision（適合率）
正と予測した中の実際の正の割合
0〜1
誤検出を減らしたい場合
見逃しの多さを反映しない

Recall（再現率）
実際の正の中で正と予測した割合
0〜1
見逃しを防ぎたい場合
誤検出の多さを反映しない

F1スコア
PrecisionとRecallの調和平均
0〜1
不均衡データの総合評価
クラス分布が均等なら不要

ROC-AUC
ROC曲線下の面積
0〜1
閾値に依存しない評価
多クラス分類では解釈が複雑

この比較から分かるのは、Accuracyが万能ではないという点です。たとえば、99%がクラスAで1%がクラスBのデータセットでは、常にクラスAを予測するだけで99%のAccuracyを達成できますが、クラスBを一切識別できないモデルは実務では役に立ちません。不均衡データでは、F1スコアやROC-AUCを優先すべきです。
scikit-learnでは、classification_reportを使うことでAccuracy、Precision、Recall、F1スコアを一括で計算できます。ROC-AUCはroc_auc_score関数で算出可能です。
 混同行列と各指標の関係混同行列（Confusion Matrix）は、分類モデルの予測結果を4つのカテゴリに分類した表です。混同行列を理解することで、各評価指標がモデルのどの側面を測定しているかが明確になります。
混同行列は、真陽性（TP：正しく正と予測）、偽陽性（FP：誤って正と予測）、真陰性（TN：正しく負と予測）、偽陰性（FN：誤って負と予測）の4要素で構成されます。Precisionは「TP / (TP + FP)」で計算され、モデルが正と予測したものの信頼度を示します。Recallは「TP / (TP + FN)」で計算され、実際に正であるデータをどれだけ拾えたかを示します。
実務では、この4要素のどれを重視するかがビジネス要件によって異なります。医療診断では、重大な病気を見逃す偽陰性（FN）が最も深刻なため、Recallを最大化することが優先されます。一方、不良品検出では、正常品を不良と誤判定する偽陽性（FP）が廃棄コストの増加につながるため、Precisionを重視します。不正検知のようにFPとFNの両方を抑えたい場合は、F1スコアが最も適切な指標です。
ROC曲線は、閾値を変化させたときのTPR（真陽性率）とFPR（偽陽性率）の関係をグラフ化したもので、AUCはその曲線下の面積を表します。AUCが1に近いほど判別能力が高く、0.5はランダム予測と同等です。ROC-AUCの利点は、閾値の設定に依存しないためモデル同士の公平な比較ができる点にあります。
 回帰モデルとクラスタリングモデルの評価指標回帰モデルの評価指標は、予測値と実測値のズレの大きさを測定します。分類モデルとは異なり、連続値の予測精度を評価するため、誤差の計算方法が指標ごとに異なります。以下の表で、回帰モデルの主要4指標を比較しました。


指標
定義
値の範囲
有効な場面
外れ値への感度


MAE（平均絶対誤差）
予測誤差の絶対値の平均
0以上
全般的な誤差評価
低い

MSE（平均二乗誤差）
予測誤差の二乗の平均
0以上
大きな誤差を重視する場合
高い

RMSE（二乗平均平方根誤差）
MSEの平方根
0以上
元のスケールで誤差を把握
高い

R²（決定係数）
モデルが分散をどれだけ説明するか
0〜1（通常）
モデル全体の適合度
中程度

MAEとMSEの最大の違いは、外れ値への感度です。MSEは誤差を二乗するため、大きな予測ミスに対して重いペナルティを課します。株価予測のように大きな外れ値を特に避けたい場合はMSEが適切ですが、家賃予測のように外れ値の影響を平均的に扱いたい場合はMAEが適しています。RMSEはMSEの平方根を取ることで、元のデータと同じ単位で誤差を解釈できる利点があります。
R²（決定係数）は、モデルがデータの変動をどれだけ説明できるかを0〜1の範囲で示します。R²が0.8であれば、データの変動の80%をモデルが説明できていることを意味します。ただし、R²は特徴量の数が増えると自動的に上昇する傾向があるため、特徴量が多いモデルでは調整済みR²（Adjusted R²）を使用する方が適切です。
 回帰・クラスタリングモデルの指標使い分けクラスタリングモデルの評価は、分類や回帰とは性質が異なります。正解ラベルが存在しない教師なし学習であるため、モデルの出力品質を直接測定する指標が必要です。
クラスタリングで最も広く使われるのがシルエット係数です。シルエット係数は、各データポイントが自分のクラスタにどれだけ適切に属しているかを-1から1の範囲で評価します。1に近いほど良好なクラスタリングを示し、0に近い場合はクラスタ間の境界が曖昧であることを意味します。顧客セグメンテーションの最適クラスタ数を決定する際に、シルエット係数を基準にするのが一般的な手法です。
正解ラベルが利用可能な場合は、相互情報量（Mutual Information）や調整ランダムインデックス（ARI）が有効です。相互情報量はクラスタリング結果と正解ラベルの情報共有度を測定し、ARIはランダムな一致の影響を除去した上で一致度を評価します。ARIは-1から1の範囲で、1に近いほど正解ラベルとの一致度が高いことを示します。
自然言語処理の分野では、テキスト生成モデルの評価にBLEU（機械翻訳の品質）、ROUGE（文書要約の品質）、BERTScore（BERTの埋め込みを用いた意味的類似度）が標準的に使われています。これらの指標は、生成されたテキストが参照テキストとどれだけ類似しているかを測定するものであり、人間の判断との相関が高い評価を実現します。
 評価指標の選び方と実務上の注意点評価指標は単独で使うのではなく、複数を組み合わせてモデルの性能を多角的に評価することが原則です。以下の表で、代表的なタスクと推奨される指標の組み合わせをまとめました。


タスク
最優先指標
補助指標
理由


医療診断
Recall
F1、ROC-AUC
病気の見逃し（FN）が最も深刻

スパム検出
Precision
F1、Accuracy
正常メールの誤削除（FP）を防ぐ

不正検知
F1スコア
Recall、ROC-AUC
FPとFNの両方を抑える必要

需要予測
MAE
RMSE、R²
外れ値の影響を抑えつつ全体精度を評価

信用スコアリング
ROC-AUC
Precision、Recall
閾値に依存しない判別能力の評価

顧客セグメンテーション
シルエット係数
ARI（ラベルありの場合）
クラスタの品質と分離度を測定

実務で選ぶ際のポイントは、ビジネス上のコストに直結する誤りがどちらか（FPかFN）を最初に特定することです。どちらのコストも同程度であればF1スコアを、判断が難しい場合はROC-AUCを選択するのが安全な方針です。
評価指標の分散や標準偏差も考慮する必要があります。データサイエンスの実務では、単一のテストデータでの評価結果はデータの偏りに左右されるため、クロスバリデーションによる複数回の評価が不可欠です。
 クロスバリデーションとデータリークの防止クロスバリデーション（交差検証）は、データを複数の分割に分け、各分割で学習と評価を繰り返すことで、モデルの性能を安定的に測定する手法です。scikit-learnのcross_validate関数を使えば、K分割交差検証を簡単に実装できます。
最も一般的なのはK分割交差検証（K-Fold CV）で、データをK個に分割し、K回の学習・評価を行って結果を平均します。分類タスクでは、クラスの比率を維持するStratifiedKFoldの使用が推奨されます。時系列データでは、未来のデータが学習に含まれないようTimeSeriesSplitを使用する必要があります。
データリーク（Data Leakage）は、評価指標を誤って高く見積もる最大の原因です。データリークとは、テストデータの情報が学習プロセスに漏れてしまう問題を指します。代表的な例として、特徴量のスケーリングをデータ分割前に行うケースがあります。データ全体の平均や標準偏差を使ってスケーリングすると、テストデータの統計情報が学習データに混入し、評価指標が実際の性能よりも高くなります。scikit-learnのPipelineを使えば、データ分割後にスケーリングが適用されるため、リークを自動的に防止できます。
もう1つの注意点は、ハイパーパラメータチューニングにテストデータを使わないことです。GridSearchCVやRandomizedSearchCVを使う場合、内部でさらに交差検証を行い、最終評価には未使用のテストデータを確保する「ネステッドクロスバリデーション」が理想的です。
 LLM時代の評価指標とベンチマーク生成AIの急速な発展に伴い、従来の機械学習評価指標だけではモデルの性能を十分に測定できなくなっています。ChatGPTをはじめとする大規模言語モデルの評価には、知識、推論、コーディング、安全性など多面的なベンチマークが必要です。
以下の表で、2026年現在の主要LLMベンチマークを整理しました。各ベンチマークが何を測定し、どのように使い分けるかを確認してください。


ベンチマーク
評価対象
問題数
測定方法
2026年の状況


MMLU
57科目の学術知識
16,000問以上
多肢選択
フロンティアモデルが88%超で飽和傾向

HumanEval
Pythonコーディング
164問
テスト通過率
GPT-4以降のモデルで90%超が一般的

SWE-bench
実世界のバグ修正
2,294問
GitHub PR再現
実務コーディング能力の標準指標

GPQA
大学院レベルの科学
448問
専門家作成の多肢選択
Nature掲載、最難関ベンチマーク

MATH
数学的推論
12,500問
段階的解法
高度な推論能力の測定に使用

HLE
人類知識の最前線
2,500問
マルチモーダル
2026年新設、最も困難な評価基準

Chatbot Arena
人間の選好度
継続的
対戦形式（Eloレーティング）
人間評価の代表的プラットフォーム

MMLUはフロンティアモデルで88%を超えており、モデル間の差を測定する指標としての有効性が低下しています。GPT-5はMMLUで90%以上を達成しており、ハルシネーション（事実誤認）を45〜80%削減する成果を上げています。
TransformerベースのLLMの評価では、単一のベンチマークスコアだけでなく、複数のベンチマークを横断的に比較することが重要です。ClaudeはSWE-bench Multilingualで77.8%を達成し、DeepSeek R1はMATHベンチマークで高い推論精度を示しています。
 2026年の評価手法と最新ベンチマーク2026年のLLM評価における最大のトレンドは、「トレーサビリティ」（追跡可能性）の重視です。評価スコアを、プロンプトのバージョン、モデルのバージョン、データセットのバージョンに紐づけて管理することで、再現性のある評価を実現する仕組みが普及しています。OpenAI Evals、DeepEval、W&B Weave、MLflowなどの評価フレームワークがこの要件に対応しています。
Humanity's Last Exam（HLE）は、2026年に新設された最も困難なベンチマークです。数学、人文科学、自然科学を含む2,500問のマルチモーダル問題で構成されており、現時点でフロンティアモデルでも正答率が低い水準にとどまっています。MMLUが飽和した現在、HLEはモデル間の差を測定する新たな基準として注目されています。
RAG（検索拡張生成）の評価には、RAGASフレームワークが標準的に使われています。RAGASは、回答の忠実性（Faithfulness）、回答の関連性（Answer Relevancy）、コンテキストの精度（Context Precision）、コンテキストの再現率（Context Recall）の4指標でRAGパイプラインの品質を評価します。ChatGPTをプログラミングで活用する際のコード品質評価には、HumanEvalやLiveCodeBenchが業界標準として定着しています。LiveCodeBench v6では、2026年2月時点でQwen3.5-plusが83.6%でリードしています。
 機械学習の評価指標の理解でAI導入の判断力を磨く機械学習の評価指標を正しく理解することは、AIモデルの精度を客観的に判断し、業務への適用可否を見極める力につながります。
AI総合研究所では、Microsoft環境でのAI業務自動化を段階的に進める実践ガイド（220ページ）を無料で提供しています。AI導入におけるKPI設定や効果測定の考え方も含め、部門別のBefore/After付きで解説しています。
AI総合研究所が、AI技術の評価能力を組織の業務導入判断力として磨くお手伝いをします。

            評価指標の理解をAI導入判断へ
          

              
            
段階的なAI導入の実践ガイド（220p）Microsoft環境で始める段階的なAI業務自動化の実践ガイド。Copilot Chat→M365 Copilot→Copilot Studioの導入ロードマップと部門別ユースケースを収録。

                
                  ▶
                  無料でダウンロード
                
              
 まとめ本記事では、機械学習の評価指標を分類・回帰・クラスタリング・LLMベンチマークの4カテゴリに分けて体系的に解説しました。
評価指標の選択は、モデルの性能を正確に把握するための最も重要なステップです。精度（Accuracy）だけに頼ると、クラス不均衡データでモデルの実力を見誤り、本番環境で想定外の障害が発生するリスクがあります。ビジネス上のコストに直結する誤り（FPかFN）を最初に特定し、それに対応する指標を優先的に選択することが成功の鍵です。
AIモデルの評価スキルを高めるためには、以下の手順で実践に移すことをおすすめします。
scikit-learnのclassification_reportとcross_validate関数を使い、手元のデータセットで主要指標を一括算出する
混同行列を可視化し、FPとFNのどちらがビジネスコストに直結するかを特定する
LLMを業務に導入している場合は、RAGAS等の評価フレームワークでRAGパイプラインの品質を定期的にモニタリングする

機械学習における評価指標とは？その一覧や選び方を解説

機械学習の評価指標とは（2026年最新）

分類モデルの評価指標

混同行列と各指標の関係

回帰モデルとクラスタリングモデルの評価指標

回帰・クラスタリングモデルの指標使い分け

評価指標の選び方と実務上の注意点

クロスバリデーションとデータリークの防止

LLM時代の評価指標とベンチマーク

2026年の評価手法と最新ベンチマーク

機械学習の評価指標の理解でAI導入の判断力を磨く

評価指標の理解をAI導入判断へ

段階的なAI導入の実践ガイド（220p）

まとめ

Gemini Omniとは？その性能や使い方、料金を徹底解説！

Pythonを使ったAIの作り方を解説！無料で使えるAIも紹介

Pythonを使ったチャットボットの作り方を解説！サンプルコードも紹介

AI開発におすすめのプログラミング言語5選！フレームワークも紹介

Gemini Omniとは？その性能や使い方、料金を徹底解説！

モデル種別	主要指標	主な用途
分類モデル	Accuracy、Precision、Recall、F1スコア、ROC-AUC	スパム検出、医療診断、不正検知
回帰モデル	MAE、MSE、RMSE、R²（決定係数）	価格予測、需要予測、気温予測
クラスタリングモデル	シルエット係数、相互情報量、ARI	顧客セグメンテーション、画像分類
生成モデル（NLP）	BLEU、ROUGE、BERTScore	機械翻訳、文書要約、文章生成
LLMベンチマーク	MMLU、HumanEval、SWE-bench、GPQA	汎用AI性能評価、コーディング能力

指標	定義	値の範囲	有効な場面	注意点
Accuracy（精度）	全予測中の正解割合	0〜1	クラス分布が均等な場合	不均衡データでは過大評価される
Precision（適合率）	正と予測した中の実際の正の割合	0〜1	誤検出を減らしたい場合	見逃しの多さを反映しない
Recall（再現率）	実際の正の中で正と予測した割合	0〜1	見逃しを防ぎたい場合	誤検出の多さを反映しない
F1スコア	PrecisionとRecallの調和平均	0〜1	不均衡データの総合評価	クラス分布が均等なら不要
ROC-AUC	ROC曲線下の面積	0〜1	閾値に依存しない評価	多クラス分類では解釈が複雑

指標	定義	値の範囲	有効な場面	外れ値への感度
MAE（平均絶対誤差）	予測誤差の絶対値の平均	0以上	全般的な誤差評価	低い
MSE（平均二乗誤差）	予測誤差の二乗の平均	0以上	大きな誤差を重視する場合	高い
RMSE（二乗平均平方根誤差）	MSEの平方根	0以上	元のスケールで誤差を把握	高い
R²（決定係数）	モデルが分散をどれだけ説明するか	0〜1（通常）	モデル全体の適合度	中程度

タスク	最優先指標	補助指標	理由
医療診断	Recall	F1、ROC-AUC	病気の見逃し（FN）が最も深刻
スパム検出	Precision	F1、Accuracy	正常メールの誤削除（FP）を防ぐ
不正検知	F1スコア	Recall、ROC-AUC	FPとFNの両方を抑える必要
需要予測	MAE	RMSE、R²	外れ値の影響を抑えつつ全体精度を評価
信用スコアリング	ROC-AUC	Precision、Recall	閾値に依存しない判別能力の評価
顧客セグメンテーション	シルエット係数	ARI（ラベルありの場合）	クラスタの品質と分離度を測定

ベンチマーク	評価対象	問題数	測定方法	2026年の状況
MMLU	57科目の学術知識	16,000問以上	多肢選択	フロンティアモデルが88%超で飽和傾向
HumanEval	Pythonコーディング	164問	テスト通過率	GPT-4以降のモデルで90%超が一般的
SWE-bench	実世界のバグ修正	2,294問	GitHub PR再現	実務コーディング能力の標準指標
GPQA	大学院レベルの科学	448問	専門家作成の多肢選択	Nature掲載、最難関ベンチマーク
MATH	数学的推論	12,500問	段階的解法	高度な推論能力の測定に使用
HLE	人類知識の最前線	2,500問	マルチモーダル	2026年新設、最も困難な評価基準
Chatbot Arena	人間の選好度	継続的	対戦形式（Eloレーティング）	人間評価の代表的プラットフォーム