機械学習と統計学の違いとは

機械学習と統計学の違いを考える際には、いくつかの前提知識を理解する必要があります。
まず、機械学習の立ち位置を説明します。

AIおける機械学習の立ち位置

機械学習とは人間のような知能行動をコンピューターで実現しようとするAI（人工知能）の一部分 であり、データから学習して予測や判断を行うシステムの開発に焦点を当てた手法です。

【関連記事】
➡️AIと機械学習(ML)の違いは？それぞれの仕組みを踏まえて徹底解説！

その一方で、統計学とは、データを収集、分析、解釈、表示するための方法論を提供する数学の一分野 です。

これらの前提のもと、機械学習と統計学の違いを以下の表にまとめました。

項目	機械学習	統計学
目的とアプローチ	アルゴリズムがデータを「学習」することで特定のタスクを実行できるようにすることに重点を置いています。これにはパターン認識、予測生成、自動化された意思決定プロセスなどが含まれます。	データの収集、分析、解釈を通じて、数理的基盤に基づいた結論を導き出すことに重点を置いています。確率論に基づく推定や仮説検定などがあります。
手法	ニューラルネットワークやランダムフォレストなどの複雑なアルゴリズムを使用して、大量のデータからパターンを自動的に識別し、これらのパターンを用いて新しいデータについて予測を行います。	データの特性を理解し、モデルのパラメータを推定するために、線形回帰、ANOVA（分散分析）、カイ二乗検定などの手法が使用されます。これらの手法はデータに含まれる関係性を明らかにするのに役立ちます。
データとの関係	しばしば大規模なデータセットを必要とし、データの量が多ければ多いほど、モデルはより正確な予測を行う傾向にあります。	データのサンプリングや推論に重点を置き、小さなサンプルからも母集団についての有意な結論を導き出すことができます。

これらの違いを理解することで、データ分析や予測モデルを構築する際にどのアプローチを採用するかを決定するのに役立ちます。

機械学習と統計学は、それぞれの強みを持ち、互いに補完し合う ことができるため、両方の技術が組み合わされて使用されることが多いです。

統計学とは？

統計学は、データを元にして意思決定を行うための数学的手法です。

記述統計と推測統計という二つの主要な分野があり、前者はデータを要約・説明するために使われ、後者はデータから一般的なパターンや関係性を推定するために使われます。

以下に一般的な手法とその説明をまとめました。

手法	説明
記述統計	データセットの特性を要約し、理解しやすくする（平均、中央値、モードなど）。
推測統計	標本データから母集団に関する推測を行う。
確率分布	データが従うとされる確率的なモデルを定義する（正規分布、二項分布など）。
仮説検定	特定の仮説が統計的に有意かどうかを検証する。
回帰分析	変数間の関係性をモデル化し、一方の変数から他方を予測する。
分散分析(ANOVA)	複数の群間での平均値の差が統計的に有意かどうかを検証する。
クラスタリング	類似のデータポイントをグループにまとめる。
主成分分析	多次元データの変動を表す主要な成分を抽出する。

これらの手法は、データ分析やモデリングにおいてビジネス、医学、国の政策策定、科学研究など幅広い領域で利用され、それぞれ特定の目的や問題解決のために適用されます。

521統計学

機械学習とは？

機械学習はデータからパターンを学習し、新しいデータに対して予測や意思決定を行う能力をコンピューターに与える技術のことを指します。

最新の技術トレンドには、ディープラーニングや自然言語処理があり、これらは車の自動運転やリアルタイム翻訳などに使用され、これまでにない進歩をもたらしています。

以下は、機械学習の手法とその説明をまとめた表です。

手法	説明
教師あり学習	ラベル付きデータを使用してモデルを訓練し、新しいデータのラベルを予測。
教師なし学習	ラベルなしデータを使用してデータの構造やパターンを見つける。
半教師あり学習	ラベル付きデータとラベルなしデータの両方を使用してモデルを訓練。
強化学習	環境からのフィードバックに基づいて行動を学習する。
ニューラルネットワーク	データから複雑なパターンを学習するためのネットワーク。
深層学習	非常に深いニューラルネットワークを使用して、より抽象的な特徴を学習する。
決定木	データを分類または回帰するための木構造モデル。
ランダムフォレスト	多数の決定木を組み合わせてより強力なモデルを構築する。
サポートベクターマシン	特徴空間内での最適な境界線（または超平面）を見つけることによって分類または回帰を行う。
k-最近傍法	最も近いk個のトレーニングサンプルを基に分類または回帰を行う。
クラスタリング	類似性に基づいてデータをグループに分ける。
主成分分析	多次元データの主要な傾向を把握するために次元を減少させる。
勾配ブースティング	弱学習器を順番に改善していくことで強力なモデルを構築する手法。
XGBoost	高度な勾配ブースティングのアルゴリズムで、速度と性能が向上している。
LightGBM	大規模なデータセットの処理に最適化された勾配ブースティングのアルゴリズム。
CatBoost	カテゴリー特徴量を自動的に処理できる勾配ブースティングのアルゴリズム。

これらの手法は機械学習の主に予測したい問題を解決するために使われます。選択する手法は、特定の問題、利用可能なデータの種類、および目的によって異なります。

【関連記事】
➡️機械学習とディープラーニングの違いをわかりやすく解説！

521機械学習

統計学と機械学習の活用例

ここでは、統計学と機械学習の実際の活用事例をいくつかご紹介します。これらの事例は、現場での問題解決にこれらの手法がどのように役立つのかを示す一例です。

今回は、機械学習の分野で広く知られているIris（アヤメ）データセットを使用して、統計学と機械学習の実践的な活用方法を探ります。

irisのデータセット

統計学的分析

今回の分析では、OpenAIが開発した先進的なAIツールであるChatGPTを使用します。
ChatGPTには「Advanced data analysis」と呼ばれる高度なデータ分析機能が搭載されており、これを活用することで、複雑なデータ分析をシンプルかつ効率的に行うことができます。

【関連記事】
➡️Advanced Data Analysis(Code Interpreter)とは？その機能や活用例を解説

プロンプトは以下の通りです。

これらのデータを統計学的分析を行ってください。基礎統計をしっかり出して表形式にまとめてください。

ChatGPTが返す基礎統計量
ChatGPTによる基礎統計量

しっかりと分析した値が返ってきました。

データセットの基礎統計量を表で示します。

統計量	萼片の長さ (cm)	萼片の幅 (cm)	花弁の長さ (cm)	花弁の幅 (cm)
データ数	150	150	150	150
平均	5.84	3.05	3.76	1.20
標準偏差	0.83	0.43	1.76	0.76
最小値	4.3	2.0	1.0	0.1
第1四分位数	5.1	2.8	1.6	0.3
中央値	5.8	3.0	4.35	1.3
第3四分位数	6.4	3.3	5.1	1.8
最大値	7.9	4.4	6.9	2.5

各列には、萼片の長さ、萼片の幅、花弁の長さ、花弁の幅に関する統計が示されています。これはデータの分布を把握する上で重要な指標が含まれており、データセット全体の概要を理解するのに役立ちます。

分散分析(ANOVA)の結果は以下になります。
ANOVAの結果に基づくp値、比較対象、および各種類ごとの中央値を含む表を作成しました。これにより、種類間で比較した特徴の統計的な有意差と、それぞれの種類の中央値の情報を一覧できます。

特徴	p値	比較対象	Iris-setosaの中央値	Iris-versicolorの中央値	Iris-virginicaの中央値
萼片の長さ	< 0.01	Iris-setosa vs Iris-versicolor vs Iris-virginica	5.0 cm	5.9 cm	6.5 cm
萼片の幅	< 0.01	Iris-setosa vs Iris-versicolor vs Iris-virginica	3.4 cm	2.8 cm	3.0 cm
花弁の長さ	< 0.01	Iris-setosa vs Iris-versicolor vs Iris-virginica	1.5 cm	4.35 cm	5.55 cm
花弁の幅	< 0.01	Iris-setosa vs Iris-versicolor vs Iris-virginica	0.2 cm	1.3 cm	2.0 cm

機械学習に発展

上記の統計学的分析の結果から、「Iris」データセットは機械学習における多クラス分類問題の典型例であることがわかります。

このデータセットには、3種類のアヤメ（Iris-setosa, Iris-versicolor, Iris-virginica）について、それぞれの花の特徴量（萼片の長さ、萼片の幅、花弁の長さ、花弁の幅）が記録されています。
統計分析の結果、これらの特徴量は種類ごとに異なる分布を示しており、この情報を利用することで、「新しい花の特徴量から、その花がどの種類のアヤメであるかを高い精度で予測すること」が可能です。

このように、「Iris」データセットは、特徴量から目的変数（アヤメの種類）を予測する、教師あり学習の多クラス分類問題の代表的なデータセットと言えます。

これらのデータを用いでランダムフォレストを行ってみます。
プロンプトは以下の通りです。

ランダムフォレストを行って。きちんと精度も示してください。

ランダムフォレスト結果

上記のように、分析ができており、特に花弁の幅、花弁の長さが重要であることがわかります。

特徴量の重要度グラフ

グラフで表示するとよりわかりやすいですね。

本来であればここから、他のモデルを試すこと、過剰適合の確認、汎化能力の確認などを行いますが機械学習に興味がある方は関連記事をご参照ください。

日本企業のAI導入状況

日本企業におけるAI導入状況は、業界や企業の規模によって異なりますが、製造業では生産効率の最適化、サービス業では顧客サービスの改善、医療業界では診断支援システムの開発など、多岐にわたる用途でAIが利用されています。以下にいくつか事例を紹介します。

千代田区における生成AI導入

近年、自治体における生成AIへの関心が高まっており、千代田区もその活用可能性に注目しています。文章作成や企画立案、情報収集などの業務効率化や、区民への問い合わせ対応サービスの質の向上を目指し、生成AIの導入を検討しています。

生成AI導入を通じて、千代田区では業務のスピードと質が向上することが期待されています。ただし、導入は情報の正確性やセキュリティの観点からも慎重に進められる予定です。

千代田区における生成AI活用
参考:千代田区における生成AI導入検討の展望と取り組み

食べログがChatGPTを導入

株式会社カカクコムは、デジタルガレージ社などと連携し、AIを食べログのサービスに取り入れることで、レストラン予約サイトとしての利便性を向上させる戦略を推し進めています。ChatGPT導入により食べログは、AI技術を使って予約体験の質をさらに高めることを目指しています。
ChatGPTプラグインの導入により、ユーザーは希望のレストランを素早く検索し、確かな情報を得ながら手軽に予約をすることが可能になりました。

食べログは月間利用者数約9,487万人、月間総PV約19億4,341万PV（2022年12月実績）の巨大なプラットフォームとして、プラグインを通じてサービスの使い勝手と顧客満足度を一層向上させることが期待されています。

食べログによるchatgpt活用
参考:食べログがChatGPTプラグインをローンチ！AIを活用したレストラン予約検索の新時代

医療分野におけるAI活用

COVID-19パンデミックにより選択的手術が保留となり、手術候補者が増加した中、Northumbria Healthcare NHS Foundation Trustは患者のリスク評価を向上させるために技術の導入を模索し始めました。

手術リスクが正しく予測できると、患者は手術を受けるかどうかのより情報に基づいた決定を下すことができ、手術スタッフも潜在的な問題に注意を払うことができます。
患者毎にカスタマイズされたリスクプロファイルを作成するため、手術結果の歴史データをデータサイエンスと機械学習によって分析しました。

その結果、手術の際に、より正確で個別化されたリスク評価が可能になったことで、患者はより個人的な意思決定を下すことができるようになりました。

医療分野におけるAI活用
参考:患者ケアを革命化：Northumbria NHS Foundation Trustが手術における責任あるAIへの旅

その他の事例は特集ページにまとめていますので是非ご覧ください。
➡️AI導入事例特集ページ

まとめ

本記事では、機械学習と統計学の概要とその違いについて詳しく解説しました。

統計学は長年にわたって築き上げられた理論体系であり、データに基づいた意思決定を支援する重要な役割を果たしてきました。
一方、機械学習は統計学の理論を基礎としつつ、コンピュータの処理能力の向上とデータ量の増大によって飛躍的な進歩を遂げ、様々な分野での予測モデルの構築を可能にしています。

Irisデータセットを用いた事例では、統計学と機械学習がどのように実社会の問題解決に応用できるかを示しました。特徴量の分布を統計的に分析することで、データの特性を理解し、機械学習アルゴリズムを適用することで高精度な予測モデルを構築できることを説明しました。

このように、統計学と機械学習は互いに補完しあう関係にあり、社会のあらゆる分野におけるデータ分析に貢献しています。本記事が、これらの技術の理解を深め、データ分析の可能性を広げる一助となれば幸いです。