OpenAI o3(ChatGPT o3)とは

OpenAI o3は、2024年末から2025年初頭にかけて発表・リリースされた、OpenAIの最新かつ最も強力なAI推論モデルです。

これは単なるアップデートではなく、AIの「考える」能力を根本的に進化させる可能性を持つ存在として開発されました。

o3の画期的な進化は複数ありますが、特に重要なのが以下の2点です。

フルツールアクセスとエージェント能力
ChatGPT内で利用可能なWeb検索、Pythonによるデータ分析やファイル操作、さらには画像生成といった複数のツールを、o3自身が「いつ」「どのように」使うべきかを推論し、初めてエージェント的に連携・組み合わせてタスクを実行できます（フルツールアクセス）。
高度な画像（視覚）推論能力
テキストだけでなく、画像やグラフといった視覚情報を深く理解し、推論プロセスに直接統合する能力が大幅に向上しました。
単に画像を見るだけでなく、「画像と共に考える」ことが可能になり、マルチモーダルな問題解決能力が飛躍的に高まっています。

これらの能力により、o3はコーディング、数学、科学、そして視覚タスクといった最先端分野で卓越した性能を発揮します。

【o3-mini後継】o4-miniとは？

o3と同時に発表された「o4-mini」は、かつて「o3-mini」として期待されていたモデルの後継にあたる、高速性とコスト効率に優れた小型AIモデルです。

o3が最高性能を追求する一方で、o4-miniはより多くのユーザーにとってアクセスしやすく、実用的なAIの利用を促進することを目指しています。

【関連記事】
▶︎OpenAIの新モデル「o4-mini」とは？高速・高コスパAIを徹底解説

最上位モデル：OpenAI o3-proとは？

2025年6月10日、OpenAIはo3ファミリーの新たなフラッグシップモデルとして「OpenAI o3-pro」を発表しました。
o3-proは、o3の知能をベースに、**「より長く考え、最も信頼性の高い応答を提供する」**ことを目指して設計された最上位バージョンです。

特に、数学、科学、コーディングといった複雑な分野において、o3や前モデルのo1-proを上回る一貫した高性能を発揮します。o3と同様にWeb検索やファイル分析などのツールにアクセスできますが、その分応答には時間がかかる場合があるため、速度よりも応答の質と信頼性が重視される難易度の高いタスクに適しています。

OpenAI o3ファミリーの料金

o3はChatGPTの無料プランでは利用できませんが、o4-mini（旧o3-mini相当）は無料プランでも限定的に利用可能です。
有料プランでは、o3およびo3-proの利用が可能になります。

【関連記事】
▶︎ChatGPT料金プラン徹底比較！無料・有料版の違いと選び方【2025年最新】

プラン	o3モデルの利用	o4-miniの利用	o3-proの利用
無料プラン	不可	限定的に利用可能	不可
Plus / Team	週に100メッセージまで	無制限	利用可能 (モデルピッカーからo1-proの代わりに選択)
Enterprise	週に100メッセージまで	無制限	近日提供予定
Proプラン	無制限	無制限	利用可能 (モデルピッカーからo1-proの代わりに選択)

API料金 (2025年6月10日時点の公式発表)

料金はいずれも100万トークンあたりの価格です。

o3 API 料金 (/1M tokens)

o3-proの発表に伴い、o3のAPI料金は値下げされました。

	Input	Output
旧料金 (o3)	$10.00	$40.00
新料金 (o3)	$2.00	$8.00

o3-pro API 料金 (/1M tokens)

	Input	Output
o3-pro	$20.00	$80.00

👉 【関連記事】OpenAI o3-proとは？使い方、o3・o1-proとの違い、料金、API、制限事項を解説！
👉 関連記事はこちら：Responses APIの使い方と料金解説

OpenAI o3(ChatGPT o3)の使い方

モデル選択のボタンから 「o4-mini」 を選択することで利用できます。

o4miniの利用画面
モデル選択画面

🔜 Enterprise / 教育機関（Edu）ユーザーには近日中にアクセス可能になる予定です。

API経由

利用可能なAPI：
Chat Completions API / Responses API
一部の利用には組織確認が必要な場合があります。
Responses APIでは、推論プロセスの一部（例：関数呼び出し付近の思考トークン）を保持する機能がサポート予定です。

Azure OpenAI Service

Microsoftが提供する Azure OpenAI Service 経由でも、o3モデル及びo4-miniが利用可能です。

o3-mini on Azure

GitHub Copilot

GitHubでもすでに利用が開始されています。

GitHubでの利用開始参考

OpenAI o3(ChatGPT o3)を使ってみた

ChatGPTにログインして、o3を使ってみました。
モデルの選択を行い、o3を選択します。

o3に画像を送りここはどこと聞いた画像

皆さんここはどこかわかりますか？

o3は35秒の思考の上、以下の回答を導き出しました。

回答画像


回答文：
この四角い“切り取られた空”を見上げる体験は、ジェームズ・タレルの《Open Sky》（2004）でほぼ間違いないと思います。作品は安藤忠雄が設計した **地中美術館（香川県・直島）** の一室に恒久設置された〈スカイスペース〉シリーズのひとつで、天井の正方形開口から自然光を直接室内に導き、時間帯ごとに壁面に映る光と影の幾何学を楽しめるのが特徴です。

#### なぜそう判断できるか
| 画像の手がかり | 《Open Sky》の特徴 |
|----------------|------------------|
| 正方形の無枠開口 | スカイスペースは「額縁のない空」をテーマにした完全な開放部を採用 |
| 白〜淡灰色の打ち放し壁 | 地中美術館は安藤忠雄のコンクリート建築。室内も同質素材で統一 |
| 壁面に映る鋭い三角形の光 | 直射日光により刻々と形が変わる「光の彫刻」効果 |
| 国内で同様の構成を持つ施設の希少性 | 日本でこの仕様を持つタレル作品は直島の《Open Sky》が代表的 |

#### もし現地で体験するなら
- **サンライズ／サンセットプログラム**  
  夜明けと夕暮れ時はLEDライティングと自然光が混ざり、空がキャンバスのように染まる特別演出が行われます（要事前予約）。
- **アクセス**  
  直島（香川県香川郡直島町）へは高松港または宇野港からフェリー。美術館は島の南部にあり、島内バスまたはレンタサイクルが便利です。

> **結論:** 写真は直島・地中美術館のジェームズ・タレル《Open Sky》。もし別のスカイスペースで撮影した可能性がある場合も、同シリーズの中でこの構図と壁面仕上げが合致するのは本作が最有力です。

ちなみに答えは「正解」です。
その回答理由や類似画像の提示、さらには「もし現地で体験するなら」として、サンライズやサンセットプログラムの情報まで教えてくれました。

o3での画像生成

ジブリ風画像生成で注目を浴びた「GPT-4o」を超える画像生成ができると話題になっています。

o3の画像生成

元々、GPT-4oでも文字生成はできましたが、o3ではさらに進化した画像生成が可能になっています。

【関連記事】
【AIでジブリ風画像】ChatGPTで無料の画像生成のやり方と著作権を紹介

このように素晴らしい性能のo3の性能ですがどのような特徴を持っているのでしょうか。

OpenAI o3(ChatGPT o3)の主な特徴

o3の抑えたいポイント3つ

OpenAI o3は、その卓越したパフォーマンスと多機能性により、これまでのAIの限界を打ち破ります。ここでは、o3が持つ主な特徴について詳しく見ていきましょう。

o3は、OpenAIが「これまでにリリースした中で最もスマートなモデル」と位置づける、最高峰の推論モデルです。その能力は、特に以下のような場面で真価を発揮します。

1. 最も強力な推論モデル

複雑なクエリへの対応:
多面的な分析が必要で、答えがすぐには明らかにならない難問に対し、詳細かつ思慮深い回答を生成します（通常1分以内）。
高度な専門分野での活用:
コーディング (Codeforces, SWE-bench)、数学 (AIME)、科学 (GPQA)、視覚 (MMMU, MathVista, ChartXiv) など、多くの権威あるベンチマークで新たな最高性能 (SOTA: State-of-the-Art) を記録。人間の専門家レベルの問題解決能力に迫ります。
o1からのエラー低減:
困難な実世界タスクにおいて、前世代の高性能モデルo1と比較して重大なエラーを20%削減。特にプログラミング、ビジネス/コンサルティング、創造的なアイデア出しの分野で優位性を示します。
思考パートナーとしての資質:
初期テスターからは、分析の厳密さや、新しい仮説を生成し批判的に評価する能力が高く評価されており、研究開発における強力なパートナーとなり得ます。

2. フルツールアクセス：エージェントとしてのAIへ

o3の画期的な点は、ChatGPT内のツール（Web検索、Pythonコードインタープリター、画像生成など）を初めてエージェント的に使用・組み合わせられるようになったことです。

自律的なツール選択と実行:
問題解決のために、どのツールをいつ、どのように使うべきかをo3自身が推論し、実行します。
例えば、最新情報をWebで検索し、得られたデータでPythonコードを書いて分析し、結果をグラフで可視化するといった一連の作業を自律的に行えます。
マルチステップ・ワークフロー:
複数のツール呼び出しを連鎖させ、途中で得られた情報に基づいて戦略的に次のステップを決定できます。
これにより、従来モデルでは困難だった複雑なタスクや、外部情報の活用が必須な問題に対応可能です。

このエージェント的な能力により、単一のモデル知識だけでは解決できない、より現実世界の複雑な問題に取り組むことが可能になります。

3. 高度な視覚的推論能力

o3による画像推論の例
図：ユーザーがアップロードした画像に対し、o3が内容を分析し、質問に答えようと推論している様子 (出典: OpenAI Blog)

o3は、テキストだけでなく視覚情報（画像）を深く理解し、推論プロセスに直接統合する能力が大幅に向上しました。

単なる画像認識を超えて:
画像を見るだけでなく、「画像と共に考える」ことができます。
ホワイトボードの写真、教科書の図、手書きのスケッチなどをアップロードすると、たとえ画像が不鮮明でも内容を解釈し、テキスト情報と組み合わせて問題を解決します。
画像操作との連携:
推論プロセスの一部として、画像を回転させたり、ズームしたりといった操作をツールを使って実行し、より深い分析を行うことが可能です。
マルチモーダルベンチマークでの最高性能: *
*視覚的推論とテキスト推論を融合させることで、MMMU（大学レベルの視覚問題解決）やMathVista（視覚的な数学推論）などのマルチモーダルベンチマークで最先端のパフォーマンス**を達成しています。

4. o1を超えるコストパフォーマンス

o3は、単に性能が向上しただけでなく、コスト効率の面でも前世代のモデルから改善が見られます。

1とo3のコストパフォーマンス比較
図：AIME 2025 (左) と GPQA Pass@1 (右) におけるコスト対性能比較。o3はo1と比較して、同じコストでより高い性能、または同じ性能をより低いコストで達成できる傾向がある (出典: OpenAI Blog)

上図が示すように、AIMEやGPQAといったベンチマークにおいて、o3はo1と比較してより優れたコストパフォーマンスフロンティア（性能とコストのバランス）を示しています。

これは、o3がより少ない計算コストで高い性能を引き出せるようになった、あるいは同じコストでより高いレベルのタスクを実行できるようになったことを意味します。
この効率性の向上により、高度なAI機能がより利用しやすくなることが期待されます。

o4-miniの詳細は以下のリンクからご覧いただけます。

【関連記事】
【OpenAI】o4-miniとは？特徴やChatGPTでの使い方、料金体系を解説

OpenAI o3のベンチマーク性能と技術革新

OpenAI o3の能力は、様々なベンチマークテストの結果によって裏付けられています。ここでは、その一部をご紹介します。

コーディング・ソフトウェアエンジニアリング能力

o3はコーディング能力において目覚ましい進化を遂げています。

コーディング関連ベンチマークの結果t
図：SWE-Lancer (左上)、SWE-Bench (右上)、Aider Polyglot (下) の結果。o3-highは、実世界のソフトウェア開発タスクやコード編集において非常に高いパフォーマンスを示した (出典: OpenAI Blog)

Codeforces: 競技プログラミングサイトにおいて、トップレベルに匹敵するELOレーティング 2706 を記録。AIによる複雑なアルゴリズム問題解決能力の高さを示す。
SWE-Bench: 実世界のソフトウェアエンジニアリング問題において、69.1% という高い精度を達成。
SWE-Lancer: フリーランス開発者向けのタスクにおいて、$65,250相当のタスクを完了できる能力を発揮。
Aider Polyglot: 多言語でのコード編集能力において、高い精度（全体 81.3%）を実証。

この高いコーディング能力は、o3が単なる補助ツールに留まらず、ソフトウェア開発の現場で即戦力となり得る可能性を示しています。

数学・科学能力

高度な論理推論が求められる数学や科学の分野でも、o3は顕著な成果を上げています。

AIME (American Invitational Mathematics Examination): 高校生向けの難関数学コンペティションにおいて、2024年版で91.6%、2025年版で88.9%という非常に高い精度。
GPQA Diamond: 博士レベルの難解な科学問題において、ツールを使用しない場合でも83.3%の高い精度。
Humanity's Last Exam: 広範な専門分野の知識を問うエキスパートレベルの問題において、ツール（Python+Browsing）を活用することで26.6%の精度を達成し、従来モデルから大幅な向上。

o3が高度な抽象的概念の理解と厳密な論理展開能力を兼ね備え、科学技術分野での応用が期待されることを裏付けています。

マルチモーダル能力

o3はテキスト情報だけでなく、画像やグラフといった視覚情報を理解し、それらを活用した推論能力も大幅に向上しました。

マルチモーダル（視覚）関連ベンチマークの結果
図：MMMU (左)、MathVista (中央)、ChartXiv (右) の結果。o3は、画像やグラフを含む複雑な視覚的推論タスクにおいて、o1から大幅な性能向上を達成した (出典: OpenAI Blog)

MMMU (College-level visual problem-solving): 大学レベルの視覚的な問題解決能力を測るベンチマークで、82.9%の精度を達成。
MathVista (Visual Math Reasoning): 図やグラフを用いた数学的な推論能力において、87.5%という非常に高い精度。
ChartXiv (Scientific Figure Reasoning): 科学論文中の図表（グラフ）を解釈し推論する能力において、75.4%の精度。

これらのベンチマーク結果は、o3がテキストと視覚情報を統合して高度な推論を行うマルチモーダルAIとして、トップクラスの性能を持つことを明確に示しています。

指示追従とツール連携

o3の大きな特徴である、複雑な指示を理解し、ツールを連携させてタスクを実行するエージェント能力も、ベンチマークによって示されています。

指示追従とエージェント的ブラウジングのベンチマーク結果
図：Scale MultiChallenge (左) と BrowseComp (右) の結果。o3は複雑な指示追従やエージェント的なWebブラウジングタスクで高い精度を示した (出典: OpenAI Blog)

Scale MultiChallenge: 複数ターンにわたる複雑な指示を正確に実行する能力において、56.51%の精度を達成し、他のモデルを凌駕。
BrowseComp: 自律的にWebを閲覧して情報を収集・活用するエージェント的なタスクにおいて、Pythonとブラウジングツールを併用することで49.7%の精度を発揮。

複雑な指示への対応力と自律的なツール利用能力は、o3がユーザーの意図を深く理解し、能動的にタスクを遂行する高度なAIエージェントとしての側面を強く印象付けます。

ARC-AGI評価の衝撃

ARC-AGIは「人間には簡単だが、AIには難しい」新規問題を通じて、真の汎用知能（AGI）に近い思考能力を評価するベンチマークです。従来モデルは、このテストでほぼ苦戦を強いられてきましたが、o3はその常識を覆しました。

特に、ARC-AGIのセミプライベート評価セット（非公開の100問）と、公開評価セット（公開された400問）のスコアは、o3の性能を具体的な数値で示しています。以下は、そのテスト結果をまとめた表です。

Set	Tasks	Efficiency (効率性)	Score (正答率)	Retail Cost (推定費用)	Samples (サンプル数)	Tokens (トークン数)	Cost/Task (1問あたり費用)	Time/Task (1問あたり時間)
Semi-Private	100	High (高効率)	75.7%	$2,012	6	33M	$20	1.3分
Semi-Private	100	Low (低効率)	87.5%	-	1024	5.7B	-	13.8分
Public	400	High (高効率)	82.8%	$6,677	6	111M	$17	N/A
Public	400	Low (低効率)	91.5%	-	1024	9.5B	-	N/A

参考:https://arcprize.org/blog/oai-o3-pub-breakthrough

!

表の見方：

Set：評価対象の問題セット。「Semi-Private」は一般に非公開の問題群、「Public」は公開されている問題群を指します。
Tasks：問題数。
Efficiency：High（高効率）は少ないサンプル数で推論するモード、Low（低効率）は大量の計算資源を投入して成績を最大化するモードです。
Score：正答率（%）。
Retail Cost：推定計算費用。モデルを実行するためのクラウド計算リソースやエネルギーコストを金額に換算。
Samples：モデルが推論で用いるサンプル数や探索回数。多いほど計算量が増え、成績が向上する傾向がありますが、コストや時間も増えます。
Tokens：処理したテキストの最小単位（トークン）の総数。トークンが多いほど計算量が増えます。
Cost/Task：1問あたりのコスト。
Time/Task：1問あたりにかかった時間（分）。N/Aは計測不可または非公表。

この表から、効率性を犠牲にすれば（Low-Efficiencyモード）、より高いスコア（最高で91.5%）が得られるものの、膨大なトークン数（5.7億～9.5億）と高いコストが必要になることがわかります。

逆に、High-Efficiencyモードではコストを1問あたり20ドル程度に抑えつつも、75.7～82.8%という高水準を保つことが可能です。

この結果は、AIが計算資源を増やせば新規問題への適応度が向上すること、また現時点ではまだ人間を上回る経済性が確保できていないことを示しています。
しかし、技術の進歩によりコストは急速に下落すると予想されており、数年以内に人間と同等かそれ以下の費用で高難度タスクを処理できる可能性もあります。

o3ファミリーとo1の比較

o3ファミリーの各モデルと、前世代のo1の性能と特徴を比較してみましょう。

特徴項目	OpenAI o1 (従来モデル)	OpenAI o4-mini (最新・高速/効率)	OpenAI o3 (最新・高性能)	OpenAI o3-pro (最新・最高信頼性)
主な位置づけ	高性能モデル (o3登場以前)	高速・コスト効率に優れた小型モデル (旧o3-mini後継)	強力・高性能な推論モデル	o3の最上位版、最高の信頼性と推論能力
推論能力	高度だがo3ファミリーに劣る	高速、サイズ比で高性能	高度、複雑・多面的、思考が深い	o3を上回る、より長く考え最も信頼性の高い応答
得意分野	テキスト生成、基本的なタスク	数学、コーディング、ビジュアルタスク、大量処理	コーディング、数学、科学、視覚、複雑な分析	数学、科学、コーディング等でo3/o1-proより優れる
ツールアクセス	限定的または不可	フルアクセス (API経由でカスタムツールも)	フルアクセス (エージェント的に連携)	フルアクセス (o3と同様)
画像処理	基本的な認識	高度な視覚タスクに対応	画像と共に思考、高度な視覚推論	高度な視覚推論 (ツール経由、画像生成非対応)
エラー率	o3より高い	(o1との直接比較データなし)	o1より20%減 (特定タスク)	専門家評価・学術評価でo3を上回る
APIコスト効率	o3より低い傾向	最も高い	o1より向上、o3-pro登場でAPI値下げ	o3より高コストだが性能比で価値あり
利用制限(API)	標準的	o3より大幅に高い（制限が緩い）	標準的	標準的 (o3と同等レベルを想定)
ChatGPTでの利用	(旧Proプランで提供、o3-proに置き換え)	無料プランでも限定利用可、有料プランで無制限	Plus/Team/Enterprise/Proで利用可	Pro/Teamで利用可 (Enterprise/Eduは後日)
ベンチマーク例	(各種ベンチマークでo3ファミリーより低いスコア)	AIMEで最高性能、他でも高スコア	多様なベンチマークでSOTA	各種ベンチマークでo3を上回る

この表から、o3ファミリーがo1からあらゆる面で進化していることがわかります。

o3-proは、最高の信頼性と推論能力を求めるユーザー向けの最上位モデルです。
o3は、複雑な推論、専門分野での応用、ツール連携、視覚能力において非常に高い性能を持ちます。
o4-miniは、コスト効率と速度、大量処理能力に優れ、実用的な多くの場面で最適な選択肢となります。

OpenAI o3の安全性強化の取り組み

o3では、推論過程の透明性や説明可能性を高めるための「Deliberative Alignment」と呼ばれる新しい安全機能が導入されました。

Deliberative Alignmentの重要性

Deliberative Alignmentとは、AIがタスクを解決するために生成する「チェーン・オブ・ソート（Chain of Thought）」を監査・評価し、ユーザーがその根拠をある程度把握できるようにする取り組みです。

また、ARC Prizeの活動とも連携し、OpenAIは新たなベンチマーク「ARC-AGI-2」の設計にも協力する予定です。ARC-AGI-2では、さらに難度の高い問題を集めて人間とAIの能力の差を明確にし、真に汎用的な推論力を測定しようと試みるといいます。o3ですら苦戦が予想されており、これらのチャレンジを通じて安全性と性能の両面が一層磨かれていく見込みです。

まとめ

OpenAI o3ファミリーの登場、特に最上位モデルであるo3-proの追加は、AI技術の歴史において大きな転換点となるでしょう。中核となるo3が示したARC-AGIでの高スコアは、その適応力と一般化能力の証左です。そしてo3-proは、そのo3をさらに上回る信頼性と深化した思考能力を提供し、より困難な課題への挑戦を可能にします。

ただし、コスト面や未解決のタスクも依然として存在し、o3ファミリーがすべての課題を完璧に解決できるわけではありません。o3ですら、ARC-AGIの問題の一部は大量の計算を投入しても解けなかったケースがあり、そこには人間にとっては比較的容易な問題も含まれていました。この事実は、「o3ファミリーがAGI（汎用人工知能）になったわけではない」という慎重な見方も依然として根強いことを示しています。

しかし、o3ファミリーがこれまでのLLM（大規模言語モデル）の限界を破り、新たな問題解決能力を獲得したのは明らかです。特に注目すべきは、人間のように「その場でプログラムを再構成して未知の問題に取り組む」というアプローチに近づいている点でしょう。これは、単にデータを増やすだけでは達成できなかった成果であり、AI研究におけるパラダイムシフトを予感させます。

驚異的なのは、o1がリリースされてから比較的短期間でo3ファミリーが登場し、さらにo3-proへと進化を続けていることであり、OpenAIの研究者もこれらのモデルの改善は今後も続くと予想しています。

Arc-AGI Score
モデルリリース日の推移

最終的に、o3ファミリー、特にo3-proが示す方向性は 「道具としてのAI」から「協働者としてのAI」 へと一段進んだ姿であり、それに伴う社会的・経済的インパクトも計り知れません。私たち一人ひとりが、この急速に進化する技術をどのように活用し、どのようなリスク管理を行うかを考えることが求められています。

o3ファミリーの各モデル、特にo3-proに関するより詳細な情報や最新のアップデートについては、以下の関連記事や公式サイトをご確認ください。

👉 【関連記事】OpenAI o3-proとは？使い方、o3・o1-proとの違い、料金、API、制限事項を解説！
👉 【関連記事】OpenAIの新モデル「o4-mini」とは？高速・高コスパAIを徹底解説