AI総合研究所

SHARE

X(twiiter)にポストFacebookに投稿はてなブックマークに登録URLをコピー

ChatGPTの音声入力・音声会話機能とは?設定方法や使い方を解説

この記事のポイント

  • 音声でChatGPTを使うなら「高度な音声モード」が第一選択。リアルタイム会話・画面共有・同時翻訳まで対応しており、Whisper音声入力より圧倒的に多機能
  • 英会話練習には高度な音声モードを使うべき。発音フィードバックとリアルタイム対話がネイティブ講師の代替として実用レベル
  • 音声機能を本格的に使うならPlusプラン以上にすべき。Free・Goプランは1日の利用時間に制限があり業務利用には不足する
  • PC版はブラウザだけで音声機能が使える。拡張機能やアプリのインストールは不要
  • 音声が動かない場合はまずマイク権限を確認すること。ブラウザ設定でブロックされているケースが大半
坂本 将磨

監修者プロフィール

坂本 将磨

XでフォローフォローするMicrosoftMVP

Microsoft MVP・AIパートナー。LinkX Japan株式会社 代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会 優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。

ChatGPTの音声入力・音声会話機能は、2026年現在PC・スマホ両方で公式に利用可能です。音声をテキストに変換する「音声入力(Whisper)」と、リアルタイムで自然な会話ができる「高度な音声モード(Advanced Voice Mode)」の2種類があり、画面共有やライブビデオにも対応しています。

本記事では、ChatGPTの音声機能について、PC・スマホそれぞれの設定方法や使い方、プラン別の利用制限、そして議事録作成や英会話練習などの具体的な活用例まで詳しく解説します。

ChatGPTの新料金プラン「ChatGPT Go」については、以下の記事をご覧ください。
ChatGPT Goとは?料金や機能、広告の仕様、Plus版との違いを解説

✅最新モデル「GPT-5.4」については、以下の記事をご覧ください。
GPT-5.4(ChatGPT5.4)とは?使い方や料金、GPT-5.2との違いを徹底解説

ChatGPTの音声入力・会話機能とは

ChatGPTの音声機能は、2026年3月現在、PC・スマホ両方で公式に利用可能です。音声機能には大きく2種類あり、目的に応じて使い分けることができます。

AI Agent Hub1

音声入力(Whisper)と高度な音声モードの違い

ChatGPTの音声機能は、以下の2種類に分かれています。それぞれの役割を理解しておくと、場面に応じた使い分けがしやすくなります。

機能 概要 対応プラン
音声入力(Whisper) 話した内容をテキストに変換してチャット欄に入力する機能。キーボード入力の代わりに使う 全プラン
高度な音声モード(Advanced Voice Mode) ChatGPTとリアルタイムで音声会話ができる機能。自然な間やイントネーションで対話し、会話中の割り込みにも対応する 全プラン(利用時間はプランにより異なる)


音声入力は「キーボードの代わりに声でテキストを入力する」機能であるのに対し、高度な音声モードは「実際に人と会話するように、声だけでChatGPTとやりとりする」機能です。

音声入力はOpenAIの音声認識モデルWhisperをベースにしており、高い精度で音声をテキストに変換します。一方、高度な音声モードはGPT-5GPT-4oのマルチモーダル能力を活用しており、平均約320ミリ秒という低遅延でリアルタイムの音声対話を実現しています。

高度な音声モードの主な機能

2026年3月時点で、高度な音声モードには以下のような機能が搭載されています。

  • リアルタイム音声対話
    自然なイントネーションと間(ま)を持った対話ができます。会話の途中で割り込むこともでき、人間同士の会話に近い体験が可能です。

  • 画面共有・ライブビデオ対応
    スマートフォンアプリでは、音声モード中にカメラ映像や画面をChatGPTに共有できます。目の前のものを見せながら質問する、といった使い方が可能です。

  • リアルタイム言語翻訳
    音声モード中に翻訳を依頼すると、会話を止めるまで自動的に翻訳を続けます。海外の方との会話や語学学習に役立ちます。

  • テキストチャットとの統合
    テキストでのチャット中にそのまま音声モードに切り替えることができます。会話のコンテキストがリセットされないため、テキストと音声をシームレスに行き来できます。

  • カスタム指示・メモリ機能
    音声モードでもカスタム指示やメモリ機能が有効です。「常に日本語で応答して」「専門用語はかみ砕いて説明して」といった設定を保持した状態で音声対話ができます。

  • 9種類の音声から選択可能
    ChatGPTの応答音声は複数の声から選べます。設定画面からお好みの音声を選択してください。

プラン別の音声機能と利用制限

以下の表は、2026年3月時点の各プランにおける音声機能の利用条件をまとめたものです。

プラン 料金 音声入力(Whisper) 高度な音声モード 画面共有・ビデオ
Free 無料 利用可能 1日の利用時間に制限あり 非対応
Go $8/月 利用可能 Freeと同等の制限 非対応
Plus $20/月 利用可能 ほぼ無制限 対応
Pro $200/月 利用可能 無制限 対応
Business/Enterprise 要問合せ 利用可能 ほぼ無制限 対応


Free・Goプランでは高度な音声モードの利用時間に1日あたりの制限が設けられています。具体的な制限時間はOpenAIの公式発表では明示されていませんが、15分程度との報告が多く見られます。Plus以上のプランではほぼ無制限で利用でき、画面共有やライブビデオ機能にも対応しています。


ChatGPT音声機能の設定方法(PC編)

PC(Windows・Mac)では、ブラウザまたはデスクトップアプリから拡張機能不要で音声機能を利用できます。ここでは、PCでの設定手順と使い方を解説します。

マイクの設定を確認する

音声機能を使う前に、PC本体のマイク設定でブラウザへのアクセスが許可されていることを確認してください。この設定が原因で音声機能が使えないケースが最も多くなっています。

Windowsの場合

設定 → プライバシーとセキュリティ → マイク の順に開き、「マイクへのアクセス」を「オン」にします。さらに、アプリの一覧で使用するブラウザ(Chrome、Edgeなど)が「オン」になっていることを確認します。

Macの場合

システム設定 → プライバシーとセキュリティ → マイク の順に開き、使用するブラウザ(Chrome、Safariなど)にチェックを入れます。

ブラウザでの音声機能の起動手順

マイク設定が完了したら、以下の手順で音声機能を起動します。

  1. ChatGPTにアクセスします

  2. 画面下部のメッセージ入力欄の横にヘッドフォンアイコンが表示されています。このアイコンをクリックすると音声機能が起動します

  3. 初回利用時にブラウザからマイクへのアクセス許可を求められるので「許可」をクリックします。誤って「ブロック」を選択した場合は、アドレスバーのマイクアイコンから設定を変更できます

  4. 音声機能が起動したら、以下の設定が可能です。

  • 音声選択
    ChatGPTの応答音声を9種類から選択できます。

  • 言語設定
    日本語、英語など音声入力の言語を設定します。

  • 音声モードの選択
    標準音声モードと高度な音声会話モードから選べます。

PC版での2つの音声モード

PC版では、以下の2つのモードから目的に応じて選択します。

標準音声モード

音声で質問すると、ChatGPTがテキストで回答を表示し、その内容を音声で読み上げます。テキストの内容を確認しながら進めたい場合に向いています。

高度な音声会話モード

GPT-5やGPT-4oを使ったリアルタイムの音声対話が可能です。自然な間を取った対話や、会話途中での割り込みにも対応しています。


ChatGPT音声機能の設定方法(スマートフォン編)

スマートフォンの場合は、ChatGPTの公式アプリを利用することで音声入力・会話機能を利用できます。

事前準備(言語設定)

音声機能を使う前に、入力に使用する言語を設定しておくとスムーズです。この設定は後から変更可能です。

  1. ChatGPTのアプリを開きます
    chatgptのアプリ画面
    ChatGPTアプリのホーム画面

  2. 左上の二本線をタップすると次のような画面が表示されるので、サイドバー1番下のユーザーネームをクリックします
    事前準備
    左下:アイコンorユーザーネームを選択

  3. 設定画面が開くので、Speechという項目の「Main Language」をタップします
    chatgpt スマホアプリ 設定画面
    「Main Language」

  4. すると次のような画面がでるので、入力に使う言語を設定することが可能です
    chatgpt 言語選択画面
    音声入力に使う言語の選択

「Auto-Detect」を選択すると、ユーザーが音声入力した言語を自動検出できます。ただし、「英語を喋っているのに日本語と認識される」など、意図した言語と異なるものが出力される場合もあります。英会話の練習をしたいときは英語、日本語で入力したいときは日本語、と用途に合わせて設定変更することをおすすめします。

音声入力の方法

  1. スマホ本体の「設定」からChatGPTを選択し、「マイク」のアクセス許可をオンにします
    chatgpt マイク設定
    本体設定:マイクのアクセス許可(iPhone)

  2. ChatGPTを開き、チャット入力欄の横にある「|||」マークをタップします(タップするとすぐに入力が始まります)
    chatgpt 音声入力
    画像右下のマーク 

  3. 以下のような画面が表示されるので、入力したい内容を喋り終わったら、青く表示されている部分(どこでも可)をタップします
    chatgptの音声入力
    音声入力画面

  4. 入力した音声がチャット欄に表示されます。録音が終わってすぐに送信されるわけではないので、正しい入力ができているか確認しましょう
    音声入力
    入力プレビューが表示される

音声会話の方法

  1. 音声入力と同様、マイクの設定がオンになっていることを確認し、ChatGPTを開きます

  2. 音声入力マークの右隣にあるヘッドフォンマークをクリックします
    Chatgptの音声会話
    ヘッドフォンマーク

  3. 以下のような画面が表示されるので、「Start Speaking」と表示されたら話しかける、もしくは画面を長押しながら話しかけます
    音声会話画面
    音声会話の画面

  4. ChatGPTが音声で回答してくれます。会話履歴は通常のチャット同様保存され、後から確認できます。また、会話履歴からChatGPTの回答音声を再生することも可能です

画面共有・ライブビデオの使い方

ChatGPT Plus以上のプランでは、音声モード中にスマートフォンのカメラ映像や画面をChatGPTに共有できます。

  • ライブビデオ 音声モード起動中にビデオアイコンをタップすると、カメラ映像をリアルタイムでChatGPTに送信できます。目の前の商品を見せて「これは何?」と聞いたり、料理の手順を見てもらいながらアドバイスをもらう、といった使い方が可能です

  • 画面共有 音声モード中に三点メニューから「画面を共有」を選択すると、スマートフォンの画面をChatGPTに見せることができます。アプリの使い方を質問したり、エラー画面を見せてトラブルシューティングを依頼する場面で役立ちます

AI研修

ChatGPT音声機能の活用例

ChatGPTの音声機能は、語学学習やビジネスなど様々なシーンで活用できます。ここでは、代表的な活用例を紹介します。

議事録の作成

会議中にChatGPTの音声入力を使うことで、議論の内容をリアルタイムで文書化し、議事録の作成や共有をスムーズに行えます。手が塞がっているときでも音声で指示を出せるため、マルチタスクが求められる場面で効果を発揮します。

【関連記事】
ChatGPTで議事録作成!文字起こしツールやプロンプト例を交えて解説

英会話・語学学習

高度な音声モードでは、ネイティブレベルの発音で英語の会話練習ができます。リアルタイム翻訳機能を使えば、外国語の文章を読み上げて日本語に翻訳してもらうことも可能です。ユーザーの発音や文法を評価してもらえるため、独学でも実践的な語学学習ができます。

【関連記事】
ChatGPTを英会話・英語学習に活用する方法!使い方やプロンプト例を紹介

ハンズフリー操作

運転中や料理中など手が離せない場面でも、音声だけでChatGPTに質問や指示を出せます。レシピの確認、スケジュールの整理、簡単なリサーチなど、日常の「ちょっとした調べもの」を声だけで完結させることができます。

プレゼン・商談の壁打ち

プレゼンや商談の前に、ChatGPTを相手にリハーサルを行うことができます。音声で説明を練習し、想定質問への回答を繰り返すことで、本番に向けた準備の質が上がります。「厳しい質問をしてください」と指示すれば、想定外の質問にも備えられます。


ChatGPTの音声機能が使えないときの原因と対処法

音声機能が利用できない場合、以下の原因と対処法を順番に確認してください。多くの場合、マイクの設定が原因です。

デバイスのマイク権限を確認する

音声が認識されない最も多い原因は、OSやアプリ側でマイクの使用がブロックされていることです。

  • Windows
    設定 → プライバシーとセキュリティ → マイク → 「マイクへのアクセス」を「オン」にし、ブラウザ(Chrome/Edge等)も「オン」にする

  • Mac
    システム設定 → プライバシーとセキュリティ → マイク → ブラウザ(Chrome/Safari等)にチェックを入れる

  • iPhone/Android
    設定アプリ → ChatGPT → マイクのアクセスを「オン」にする

ブラウザのマイク許可を確認する

PC版の場合、ブラウザ側でもマイク許可が必要です。

  • アドレスバー左のマイクアイコンをクリック
  • 「このサイトでは常に許可」を選択
  • ページをリロード


誤って「ブロック」を選択してしまった場合は、ブラウザの設定画面からサイトごとのマイク許可を変更できます。

アプリ・ブラウザを最新バージョンに更新する

音声機能は最新バージョンのアプリやブラウザで動作が安定します。App Store / Google PlayでChatGPTアプリの更新がないか確認してください。ブラウザも同様に最新版への更新を推奨します。

その他の確認事項

上記を確認しても解決しない場合は、以下の項目も確認してみてください。

  • マイクが正しく接続されているか(外付けマイクの場合)
  • 他のアプリ(Zoom、Discordなど)でマイクが動作するか
  • マイクがミュートになっていないか
  • インターネット接続が安定しているか
  • Bluetooth機器の接続状況に問題がないか
  • ブラウザの拡張機能が干渉していないか(一時的に無効化して確認)

メルマガ登録

音声AIの効率化体験を業務プロセス全体のAI化に展開するなら

ChatGPTの音声入力で文字起こしや会話の効率化を実感できたなら、そのAI活用の感覚を業務フロー全体に広げるタイミングです。音声認識はAI業務改革の入り口に過ぎず、レポート作成、データ分析、顧客対応といった多くの工程でAIが業務を加速させます。

AI業務自動化ガイドでは、音声AIを含む多様なAI技術を業務プロセスにどう組み込むかを220ページ超で体系的にまとめています。AI総合研究所が現場で培った導入設計のノウハウを、ぜひご活用ください。

音声AIの活用経験を業務プロセスのAI化に広げる

AI業務自動化ガイド

220ページ超のAI業務自動化ガイドを無料配布中

ChatGPTの音声入力で会議メモや議事録の下書きが効率化できたなら、次のステップは業務フロー全体のAI化設計です。AI業務自動化ガイドでは、音声認識を含むAI技術を業務の各工程にどう組み込むかを220ページ超で体系的にまとめています。


まとめ

本記事では、ChatGPTの音声入力・音声会話機能について、機能の違い、PC・スマホそれぞれの設定方法、活用例、トラブルシューティングを解説しました。

ChatGPTの音声機能は「音声入力(Whisper)」と「高度な音声モード(Advanced Voice Mode)」の2種類があり、目的に応じて使い分けることがポイントです。高度な音声モードでは、リアルタイムの音声対話に加え、画面共有やライブビデオ、リアルタイム翻訳といった機能も利用できます。

PC版ではブラウザから拡張機能不要で利用でき、スマートフォンでは公式アプリから手軽に始められます。音声機能が使えない場合は、まずマイク権限の設定を確認してみてください。

議事録作成、英会話練習、ハンズフリー操作など、音声機能を活用することで、ChatGPTとの対話がより直感的で効率的になります。ぜひ日常のビジネスや学習に取り入れてみてください。

監修者
坂本 将磨

坂本 将磨

Microsoft MVP・AIパートナー。LinkX Japan株式会社 代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会 優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。

関連記事

AI導入の最初の窓口

お悩み・課題に合わせて活用方法をご案内いたします
お気軽にお問合せください

AI総合研究所 Bottom banner

ご相談
お問い合わせは
こちら!