この記事のポイント
GPT-Realtimeは、音声認識・LLM・音声合成を単一モデルに統合し、超低遅延で自然な会話を実現したOpenAIの音声AI
命令追従性、関数呼び出し精度、音声の自然さが旧モデルから大幅に向上し、2つの新しい声も追加
開発者向けのRealtime APIが正式版となり、MCPサーバーサポート、画像入力、SIP電話接続などの新機能を追加
料金は入力モダリティ(テキスト/音声/画像)ごとに設定され、旧プレビュー版より20%低価格化
単一モデルアーキテクチャにより、従来の3段階パイプライン方式の遅延を根本的に解消

Microsoft MVP・AIパートナー。LinkX Japan株式会社 代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会 優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。
「従来の音声AIアシスタントは、話しかけてから応答があるまでの『間』が不自然…」「もっと人間同士のように、テンポ良く会話がしたい」
OpenAIは、こうした課題を根本から解決する、次世代の音声対話モデル「GPT-Realtime」と、それを支える「Realtime API」の正式提供を発表しました。
本記事では、この「GPT-Realtime」について、公式発表された情報に基づき、その全貌を徹底的に解説します。
GPT-4o音声モードとの決定的な違いから、驚異的な性能向上、開発者向けの新API機能、そして詳細な料金体系まで、詳しくご紹介します。
GPT-Realtimeとは
GPT-Realtimeは、OpenAIが発表した、同社で最も先進的かつ本番環境に対応した(Production-ready)スピーチtoスピーチモデルです。
その最大の特徴は、顧客サポートやパーソナルアシスタンスといった実世界のタスクで優れた性能を発揮するよう、顧客との緊密な連携のもとでトレーニングされている点にあります。

GPT-Realtimeのイメージ (参考:OepnAI)
GPT-Realtimeの基本スペック
まずは、このモデルの基本的な性能を見ていきましょう。
| 項目 | スペック |
|---|---|
| コンテキストウィンドウ | 32,000 トークン |
| 最大出力トークン | 4,096 トークン |
| 知識カットオフ | 2023年10月1日 |
| 対応入力 | テキスト, 音声, 画像 |
| 対応出力 | テキスト, 音声 |
GPT-4o音声モードとの決定的違い:3段階パイプラインから単一モデルへ
GPT-Realtimeがなぜこれほど自然で高速な対話を実現できるのか。その秘密は、従来の音声AIとは根本的に異なるアーキテクチャにあります。
従来の音声AIが、3つの異なるモデルを連携させる「パイプライン方式」だったのに対し、GPT-Realtimeは、音声の入力から処理、生成までを単一の統合モデルで直接行うようにゼロから設計されています。
これにより、モデル間の処理の受け渡しで発生していた遅延が根本的に解消され、音声の微妙なニュアンスを保ったまま、より自然で表現力豊かな応答が可能になったのです。
gpt-realtimeモデルの主な進化点
GPT-Realtimeは、旧モデルと比較して、音声品質、知性、命令追従性、そして関数呼び出しという、音声エージェントに不可欠な4つの側面で大きな進化を遂げています。
音声品質(Audio quality)
現実世界で音声エージェントを展開するには、人間の抑揚、感情、ペースを持った自然な会話が不可欠です。GPT-Realtimeは、「速く、プロフェッショナルに話して」「フランス語訛りで共感的に話して」といった、細かな指示に従って、より高品質で自然な音声を生成できるようにトレーニングされています。
特に、新たに追加された2つの声「Marin」と「Cedar」で、その自然さが最も大きく向上しています。
知性と理解力(Intelligence and comprehension)
GPT-Realtimeはより高い知性を持ち、入力された音声をより正確に理解できます。笑い声のような非言語的な合図を捉えたり、文章の途中で言語を切り替えたり、声のトーンを状況に合わせて適応させたりすることが可能です。
高度な推論能力を測るBig Bench Audioベンチマークにおいて、GPT-Realtimeは**82.8%**の正解率を記録し、旧モデル(65.6%)を大幅に上回りました。

Big Bench Audioベンチマークにおける推論能力の比較 (参考:OepnAI)
命令追従性(Instruction following)
開発者は、音声エージェントを構築する際に、モデルの振る舞い(話し方、特定の状況で何を言うべきかなど)を指示します。GPT-Realtimeは、これらの指示への忠実度が大幅に向上しています。
命令追従性の精度を測る**MultiChallenge (Audio)ベンチマークにおいて、GPT-Realtimeは30.5%**のスコアを記録し、旧モデル(20.6%)から大きく改善しました。
%E3%83%99%E3%83%B3%E3%83%81%E3%83%9E%E3%83%BC%E3%82%AF%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8B%E5%91%BD%E4%BB%A4%E8%BF%BD%E5%BE%93%E6%80%A7%E3%81%AE%E6%AF%94%E8%BC%83.webp)
MultiChallenge (Audio)ベンチマークにおける命令追従性の比較 (参考:OepnAI)
関数呼び出し(Function calling)
実用的な音声エージェントを構築するには、モデルが適切なタイミングで、適切なツール(関数)を呼び出す能力が不可欠です。GPT-Realtimeは、この関数呼び出し能力も大幅に向上しています。
複雑な関数呼び出し性能を測るComplexFuncBench Audioベンチマークでは、**66.5%**のスコアを記録し、旧モデル(49.7%)を圧倒しました。

ComplexFuncBench Audioベン-チマークにおける関数呼び出し性能の比較 (参考:OepnAI)
Realtime APIの主な新機能
GPT-Realtimeのリリースに合わせ、開発者向けの「Realtime API」もベータ版から正式版となり、本番環境での利用を想定した強力な新機能が追加されました。
Remote MCP server support
リモートのMCPサーバーのURLをセッション設定に渡すだけで、APIが自動でツール呼び出しを処理してくれるようになります。
これにより、手動で連携を組む必要がなくなり、エージェントの能力を簡単かつ柔軟に拡張できます。
Image input
音声やテキストに加え、画像、写真、スクリーンショットをAPIセッションに追加できるようになりました。
ユーザーが見ているものをAIが理解し、「これは何?」「このスクリーンショットの文字を読んで」といった、より文脈に即した会話が可能になります。
その他の追加機能
- Session Initiation Protocol (SIP) support:
アプリを公衆電話網やPBXシステム、固定電話などに直接接続できます。
- Reusable prompts:
開発者メッセージ、ツール、変数などを含むプロンプトを保存し、複数のセッションで再利用できるようになりました。
GPT-Realtimeの料金と利用方法
正式版となったRealtime APIと新しいgpt-realtimeモデルは、全ての開発者が利用可能です。
料金は、入力される情報の種類(モダリティ)ごとに設定されており、音声については旧プレビュー版より20%低価格化されています。
| モダリティ | トークン種別 | 料金(100万トークンあたり) |
|---|---|---|
| テキスト | 入力 / キャッシュ入力 / 出力 | $4.00 / $0.40 / $16.00 |
| オーディオ | 入力 / キャッシュ入力 / 出力 | $32.00 / $0.40 / $64.00 |
| 画像 | 入力 / キャッシュ入力 | $5.00 / $0.50 |
また、長時間のセッションコストを大幅に削減するため、会話のコンテキストをインテリジェントに制限・切り捨てる、きめ細かな制御も可能になっています。
利用を開始するには、Realtime APIの公式ドキュメントを参照するか、Playgroundで新しいモデルをテストすることができます。
【開発者向け】GPT-Realtimeの技術仕様詳細
実際にGPT-Realtime APIを利用して開発を行う方向けに、より詳細な技術仕様をまとめます。
対応エンドポイント
GPT-Realtimeは、リアルタイムな対話に特化したv1/realtimeエンドポイントを中心に、以下の多様なAPIエンドポイントで利用可能です。
- Chat Completions (v1/chat/completions)
- Responses (v1/responses)
- Realtime (v1/realtime)
- Assistants (v1/assistants)
- Batch (v1/batch)
主要な機能サポート
| 機能 | サポート状況 |
|---|---|
| 関数呼び出し | サポート |
| 構造化出力 | 非サポート |
| ファインチューニング | 非サポート |
モデルのバージョン管理(スナップショット)
開発中のアプリケーションの動作を安定させるため、スナップショット機能を使って特定のモデルバージョン(例: gpt-realtime-2025-08-28)に固定することが可能です。
これにより、OpenAI側でモデルが更新されても、パフォーマンスや挙動が変わってしまうことを防げます。
安全性とプライバシー
Realtime APIには、誤用を防ぐための多層的な安全対策が組み込まれています。
- 有害コンテンツの検出:
APIセッション上の会話はアクティブな分類器によって監視され、有害コンテンツに関するガイドラインに違反すると検出された場合、会話が停止されることがあります。
- AIとの対話の明示:
開発者は、エンドユーザーがAIと対話していることを明確に示す必要があります。
- なりすまし防止:
悪意のある人物が他人になりすますのを防ぐため、Realtime APIではプリセットされた声のみが使用されます。
また、EUを拠点とするアプリケーション向けにEUデータ居住性を完全にサポートしており、企業のプライバシーコミットメントの対象となっています。
AI導入でお悩みの方へ
まとめ
本記事では、OpenAIが発表した新しい音声AI「GPT-Realtime」と、それを支える「Realtime API」について、その核心から新機能、料金、技術仕様までを徹底的に解説しました。
最後に、この記事の要点をまとめます。
- GPT-Realtimeは、音声認識・LLM・音声合成を単一モデルに統合し、超低遅延で自然な会話を実現した画期的なモデルです。
- 推論能力、命令追従性、関数呼び出し精度がベンチマークで大幅に向上しており、本番環境での利用に耐えうる性能を持っています。
- Realtime APIには、MCPサーバー連携や画像入力、SIP接続といった、エンタープライズ向けの強力な新機能が追加されました。
- 詳細な料金体系と技術仕様が公開されており、開発者はPlaygroundですぐにテストを開始できます。
GPT-Realtimeの登場は、AIとの対話を「リクエストとレスポンス」の関係から、人間同士のような「リアルタイムで双方向のコミュニケーション」へと進化させます。カスタマーサポートから個人のアシスタントまで、その応用範囲は計り知れず、今後の発展から目が離せません。








