2026-04-10

Cloud Speech-to-Text/TTSとは？機能や料金を解説

この記事のポイント

音声認識はSpeech-to-Text、音声合成はText-to-Speechで分ける設計
リアルタイム会話ではストリーミング認識と低遅延音声合成の組み合わせ
Chirp 3はSpeech-to-Text v2専用の多言語ASRモデル候補
料金は音声認識が分単位、音声合成が文字数またはトークン単位の別管理
本番導入では後続処理、レビュー、ログ、権限設計まで含む運用設計

監修者プロフィール

坂本将磨

フォローする

Microsoft MVP・AIパートナー。LinkX Japan株式会社代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。

Cloud Speech-to-Text/TTSは、Google Cloudで音声認識と音声合成をAPI化するために使われるサービス領域です。
実務では、音声を文字に変換するSpeech-to-Textと、テキストを音声に変換するText-to-Speechを分けて設計します。

この記事では、Cloud Speech-to-Text/TTSの基本、Speech-to-Text v2やChirp 3、Gemini-TTS、Text-to-Speechの音声モデル、料金、活用事例、導入判断で詰まりやすい論点を解説します。

✅Googleの最新動画生成AIモデル「Gemini Omni」については、以下の記事をご覧ください。
Gemini Omniとは？その性能や使い方、料金体系を徹底解説！

Cloud Speech-to-Text/TTSとは

Speech-to-Text

Text-to-Speech

2つを組み合わせる用途

Cloud Speech-to-Text/TTSの主要機能

Cloud Speech-to-Text/TTSの使い方

基本の流れ

音声データの前処理

後続システムへの接続

Cloud Speech-to-Text/TTSと他サービスの違い

Cloud Speech-to-Text/TTSの活用事例

AISINのYYProbe

Guardforce AIのサービスロボット

Cloud Speech-to-Text/TTSの注意点

対応言語と機能を分けて確認する

料金は分単位と文字数単位で分かれる

導入判断で詰まりやすい論点

Cloud Speech-to-Text/TTSの料金

Cloud Speech-to-Text/TTSの音声AIを業務フローに接続するなら

まとめ｜Cloud Speech-to-Text/TTSは音声AIを業務に組み込む入口

 Cloud Speech-to-Text/TTSとはCloud Speech-to-Text/TTSは、Google Cloudの音声認識と音声合成を業務アプリへ組み込むために、本記事で使う呼び方です。公式には、音声を文字に変換するSpeech-to-Textと、テキストを自然な音声に変換するText-to-Speechが別サービスとして提供されています。
つまり、Cloud Speech-to-Text/TTSという単一サービスがあるというより、音声入力と音声出力を扱う2つのAPIを組み合わせて、音声AIアプリケーションを作るイメージです。コールセンターの会話文字起こし、会議録、ボイスボット、ロボットの応答音声、アクセシビリティ対応などで利用されます。
 Speech-to-TextSpeech-to-Textは、音声ファイルやマイク入力を文字起こしするAPIです。会議録の生成、通話内容の分析、音声検索、字幕作成、音声入力UIなどで使われます。
2026年4月時点では、Speech-to-Text v2が主軸です。v2では、短い音声向けのRecognize、長い音声向けのBatchRecognize、リアルタイム向けのStreamingRecognizeなどを用途に応じて使い分けます。音声を扱うシステムでは、まず「リアルタイム性が必要か」「録音済み音声を後処理すればよいか」を決めると設計しやすくなります。
 Text-to-SpeechText-to-Speechは、テキストを音声に変換するAPIです。読み上げ、ナレーション、音声ガイダンス、ボイスボット、デバイスの音声応答などで使われます。
公式製品ページでは、380以上の音声と75以上の言語・バリエーションに対応すると説明されています。Gemini-TTS、Chirp 3 HD、Standard、WaveNet、Neural2など、複数の音声モデルがあるため、自然さ、低遅延、コスト、対応言語を見ながら選ぶ必要があります。
 2つを組み合わせる用途Speech-to-TextとText-to-Speechは、単体で使うよりも組み合わせたほうが価値が出る場面があります。たとえば、ユーザーの音声をSpeech-to-Textで文字化し、LLMや業務ロジックで応答を生成し、Text-to-Speechで音声として返せば、音声対話型の業務アプリを構築できます。
ただし、音声認識と音声合成の品質だけでアプリの使いやすさが決まるわけではありません。遅延、ノイズ、話者分離、専門用語、権限、ログ、有人確認の設計まで含めて考える必要があります。
 Cloud Speech-to-Text/TTSの主要機能
Cloud Speech-to-Text/TTSの主要機能は、入力音声の文字化、音声モデルの選択、話者や言語の処理、テキストからの音声生成に分けて理解すると整理しやすいです。
 音声認識の方式
Speech-to-Text v2では、認識方式を用途別に選びます。GoogleのChirp 3ドキュメントでは、StreamingRecognize、Recognize、BatchRecognizeの3つがChirp 3でサポートされるAPIメソッドとして示されています。
代表的な使い分けは次の通りです。
StreamingRecognize

リアルタイム音声向けです。通話中の文字起こし、音声入力、対話型エージェントなど、処理の遅れを小さくしたい場面で使います。


Recognize

1分未満の短い音声に向く同期処理です。短い録音、音声コマンド、短文の文字起こしなどで扱いやすい方式です。


BatchRecognize

長い音声の後処理に向く方式です。録音済みの通話、会議、動画、研修音声などをまとめて文字起こしする用途で検討します。


この使い分けを先に決めておくと、料金とシステム構成を見積もりやすくなります。
 Chirp 3Chirp 3は、Googleの多言語ASR向け生成モデルの最新世代として案内されている音声認識モデルです。公式ドキュメントでは、従来のChirpモデルより精度と速度が向上し、話者分離と自動言語検出に対応すると説明されています。
注意したいのは、Chirp 3がSpeech-to-Text v2専用である点です。また、機能ごとに対応言語や提供リージョンが異なります。たとえばドキュメントでは、Chirp 3の文字起こしは日本語を含む複数言語でGAとして示されていますが、すべての補助機能が全言語で同じ条件で使えるとは限りません。
 話者分離と専門用語への対応会議や通話の文字起こしでは、誰が話したかを分ける話者分離が重要になります。Chirp 3では話者分離がサポートされますが、ドキュメント上はAPIメソッドや言語の条件があるため、PoCでは実際の録音データで確認してください。
また、商品名、部署名、人名、医療・製造・金融などの専門用語は、汎用モデルだけでは誤認識が出やすい領域です。Speech adaptationでは、語句や単語をヒントとして与え、固有名詞や特定語彙の認識を改善する設計が可能です。
 音声合成モデルText-to-Speechでは、用途に応じて音声モデルを選びます。公式製品ページでは、Gemini-TTS、Chirp 3 HD voices、Chirp 3 instant custom voice、SSMLや自然言語プロンプトによる制御などが紹介されています。
たとえば、低遅延の対話体験を重視するならChirp 3 HD voices、スタイルや感情表現を自然言語で細かく制御したいならGemini-TTSが候補になります。一方で、定型音声を大量に生成する場合は、料金と無料枠を見ながらStandardやWaveNetなどのレガシーモデルも比較対象になります。
 Cloud Speech-to-Text/TTSの使い方
Cloud Speech-to-Text/TTSは、Google Cloudプロジェクトを作成し、対象APIを有効化し、認証情報を設定してから音声またはテキストを送る流れで使います。最初から大規模な音声基盤を作るより、1つの業務用途に絞って検証するほうが失敗しにくいです。
 基本の流れ実務で検証する場合は、音声認識と音声合成で入力・出力の設計が異なります。基本の流れは次の通りです。
用途を決める

通話の文字起こし、会議録、字幕、音声入力、ボイスボット、読み上げなど、最初に扱う用途を1つに絞ります。用途が混ざると、必要な遅延や精度の基準が曖昧になります。


Speech-to-TextかText-to-Speechかを決める

音声を文字にしたいならSpeech-to-Text、テキストを音声にしたいならText-to-Speechを使います。双方向の音声対話では、両方を組み合わせます。


モデルと処理方式を選ぶ

リアルタイム処理ならストリーミング、録音済みならバッチ処理、自然な音声応答ならChirp 3 HDやGemini-TTSなど、用途に合わせて選びます。


実データで評価する

サンプル音声だけでなく、実際の会議、問い合わせ、雑音のある録音、専門用語を含む音声で確認します。音声AIは環境差の影響を受けるため、PoC段階で現場データを使うべきです。


この順番で進めると、音声AIを「とりあえず試す」から、業務で使えるかを判断する検証に変えられます。
 音声データの前処理音声認識では、モデル選びと同じくらい入力音声の品質が重要です。マイク距離、雑音、複数人の発話、通話録音の圧縮、ステレオかモノラルかによって認識結果は変わります。
そのため、検証では「会議室録音」「コールセンター通話」「スマホ録音」のように音声条件を分け、精度を比較してください。きれいなサンプル音声だけで評価すると、実運用で誤認識が増える原因になります。
 後続システムへの接続文字起こしや音声合成だけで業務は完結しません。文字起こし結果をCRMへ入れる、要約してナレッジ化する、応対品質を確認する、音声応答のログを残す、といった後続処理が必要です。
AI総研の立場では、音声認識APIの単体導入よりも、後続の業務フローまで含めて設計することを推奨します。会議録なら承認・共有フロー、コールセンターなら応対記録と検索、音声ボットなら有人切り替えとエスカレーションを最初に決めるべきです。
 Cloud Speech-to-Text/TTSと他サービスの違い
Cloud Speech-to-Text/TTSは、Google Cloud上の音声AI APIとして、Azure AI SpeechやOpenAI系の音声モデルと比較されやすいサービスです。ここでは、導入判断に関わる違いを整理します。


比較対象
主な用途
Cloud Speech-to-Text/TTSとの違い


Azure AI Speech
Azure上の音声認識・合成・翻訳
Microsoft環境やAzure統合を重視するなら有力。GCP上のアプリやデータ基盤と接続するならCloud Speech-to-Text/TTSが扱いやすい

OpenAI Whisper
音声文字起こし
文字起こし用途で比較される。Google Cloudの権限管理、バッチ処理、既存GCP基盤との統合を重視するならSpeech-to-Textを検討

gpt-realtime
リアルタイム音声会話AI
モデルと会話体験を一体で扱いやすい。音声認識・音声合成を個別APIとして組み込みたい場合はCloud Speech-to-Text/TTSが候補

Gemini Live
Geminiの音声会話
エンドユーザー向けの音声対話体験に近い。業務アプリへ音声認識や合成を組み込むならSpeech-to-TextとText-to-Speechを使い分ける


この比較で重要なのは、Cloud Speech-to-Text/TTSを「音声AI全部入り」として扱わないことです。音声の入出力には強い一方で、会話設計、検索、要約、有人確認、業務システム連携は別途組み合わせる必要があります。

            音声AIを業務に接続
          

              
            
音声認識・合成のPoCを運用設計へCloud Speech-to-Text/TTSで音声認識や音声合成を試しても、実務では文字起こし後の確認、応対記録、業務システム連携、権限管理まで設計が必要です。AI Agent Hubの資料で、音声AIを業務フローへつなぐ全体像をご確認ください。

                
                  ▶
                  無料で資料をダウンロード
                
              
 Cloud Speech-to-Text/TTSの活用事例
Cloud Speech-to-Text/TTSの活用事例では、音声認識や音声合成を単体で使うだけでなく、既存アプリ、ロボット、翻訳、業務プロセスと組み合わせている点が重要です。ここでは、Google Cloud公式の事例を中心に見ていきます。
 AISINのYYProbeGoogle Cloudのアイシン事例では、同社がスマートフォン向け音声認識アプリYYProbeでSpeech-to-Textを活用していることが紹介されています。YYProbeは、音声をリアルタイムで認識してテキスト化し、会話内容を画面に表示するアプリとして説明されています。
同事例では、複数の音声認識技術を比較した結果、Speech-to-Textの音声認識精度とリアルタイム応答が優れていると判断したことが述べられています。会議や工場のようなノイズを含む環境では、音声入力の使いやすさだけでなく、実際の利用環境で安定して認識できるかが重要になります。
この事例は、音声AIがコールセンターや会議録だけでなく、会議やノイズのある現場での音声認識支援にも使われることを示しています。現場業務へ組み込む場合は、認識精度だけでなく、現場の操作負荷と後続の記録管理まで含めて設計する必要があります。
 Guardforce AIのサービスロボットGoogle CloudのGuardforce AI事例では、同社がサービスロボットにSpeech-to-TextとText-to-Speechを活用していることが紹介されています。同記事では、以前使っていた音声AIサービスがハードウェアと強く結びついていたのに対し、Google Cloudのツールは柔軟性と使いやすさを高めたと説明されています。
また、Guardforce AIはGoogle Cloud採用により、労務コストを約60%削減できたと説明しています。Speech-to-Textが英語だけでなく、タイ語やマレー語のような言語でも自然な人間とロボットの対話に十分な精度で認識でき、Text-to-Speechの自然な音声生成がロボットの対話性能向上に寄与したと述べています。
この事例から分かるのは、音声AIの価値が「音声を文字にする」「文字を音声にする」だけではない点です。多言語対応、プロトタイプの短期開発、ハードウェア非依存の構成まで含めて、製品開発サイクル全体に影響します。
 Cloud Speech-to-Text/TTSの注意点
Cloud Speech-to-Text/TTSを導入するときは、音声品質、対応言語、料金、データの扱い、後続フローを事前に確認する必要があります。音声AIはPoCでは動きやすい一方で、本番化の条件を詰めないと運用で止まりやすい領域です。
 対応言語と機能を分けて確認するSpeech-to-TextやText-to-Speechは多言語に対応していますが、すべてのモデルと機能が全言語で同じように使えるわけではありません。Chirp 3では、文字起こし、話者分離、自動言語検出、カスタムプロンプトなどで対応状況や提供段階が異なります。
Text-to-Speechでも、Gemini-TTS、Chirp 3 HD、Standard、WaveNet、Neural2などで対応言語、音声、制御方法、料金が異なります。特に日本語、英語以外の多言語や、ロボット・電話・車載など音質条件が特殊な用途では、公式の対応表と実データの両方で確認してください。
 料金は分単位と文字数単位で分かれるSpeech-to-Textは主に処理した音声の分数で課金されます。一方で、Text-to-Speechは文字数またはトークンで課金されます。同じ音声AIでも課金軸が異なるため、会議録、通話分析、音声ボット、読み上げでコスト構造が変わります。
たとえば、会議録は音声時間が主なコスト要因です。ボイスボットでは、ユーザー音声の認識時間に加えて、応答音声の文字数やトークン数が増えます。音声認識と音声合成を組み合わせる場合は、両方のAPI費用を分けて見積もる必要があります。
 導入判断で詰まりやすい論点Cloud Speech-to-Text/TTSでよく詰まるのは、精度評価の基準が曖昧なままPoCを進めることです。認識率だけで判断すると、専門用語の誤変換、話者分離のミス、要約への影響、有人確認の工数を見落としやすくなります。
AI総研の立場では、音声AIを本番導入するなら、最初に「人が最終確認する範囲」を決めるべきです。顧客応対の記録、申請内容の音声入力、医療・金融・製造の記録などでは、AIの出力をそのまま確定情報として扱わず、確認、差し戻し、ログ保管の流れを残すほうが安全です。
 Cloud Speech-to-Text/TTSの料金
Cloud Speech-to-Text/TTSの料金は、Speech-to-TextとText-to-Speechで課金単位が異なります。2026年4月時点のSpeech-to-Text pricingとText-to-Speech pricingでは、Speech-to-Textは音声の処理分数、Text-to-Speechは文字数またはトークン数で価格が示されています。
主要な料金は、次のように整理できます。実際の見積もりでは、モデル、APIバージョン、処理方式、音声時間、文字数、他のGoogle Cloudリソース利用を合わせて確認してください。


項目
主な課金単位
2026年4月時点の価格例


Speech-to-Text v2 Standard recognition
音声分数
月0〜50万分は1分あたり0.016ドル。以降は利用量に応じて単価が下がる

Speech-to-Text v2 Dynamic Batch Recognition
音声分数
1分あたり0.003ドル。低い緊急度で処理するバッチ向け

Speech-to-Text v1 Standard with data logging
音声分数
月60分まで無料。以降は1分あたり0.016ドル

Speech-to-Text v1 Standard without data logging
音声分数
月60分まで無料。以降は1分あたり0.024ドル

Text-to-Speech Chirp 3 HD voices
文字数
月100万文字まで無料枠。以降は100万文字あたり30ドル

Text-to-Speech Gemini 2.5 Flash TTS
テキスト入力・音声出力トークン
無料枠なし。入力100万テキストトークンあたり0.50ドル、出力100万音声トークンあたり10ドル

Text-to-Speech Gemini 2.5 Pro TTS
テキスト入力・音声出力トークン
無料枠なし。入力100万テキストトークンあたり1ドル、出力100万音声トークンあたり20ドル

Text-to-Speech Standard / WaveNet voices
文字数
月400万文字まで無料枠。以降は100万文字あたり4ドル

Text-to-Speech Neural2 voices
文字数
月100万文字まで無料枠。以降は100万文字あたり16ドル

Text-to-Speech Studio voices
文字数
月100万文字まで無料枠。以降は100万文字あたり160ドル


Speech-to-Textでは、複数チャンネルの音声を送るとチャンネルごとに課金される点にも注意が必要です。たとえば30秒の4チャンネル音声では、課金上は合計120秒分として扱われます。
Text-to-Speechでは、モデルによって課金単位が文字数かトークンかに分かれます。Gemini-TTSの音声トークンは、公式料金ページで1秒あたり25トークンに相当すると説明されています。大量の読み上げや音声対話を作る場合は、音声認識と音声合成の費用を別々に試算し、Cloud Storageやアプリ実行基盤の費用も合わせて確認してください。
 Cloud Speech-to-Text/TTSの音声AIを業務フローに接続するならCloud Speech-to-Text/TTSで音声認識や音声合成を使えるようになっても、実務では「文字起こしされた内容を誰が確認するか」「応答音声の根拠をどう管理するか」「CRMや問い合わせ管理へどう戻すか」が残ります。ここを設計しないまま導入すると、音声AIは便利な実験で止まりやすくなります。
AI Agent Hubは、既存のAI基盤やクラウドAPIを業務システムへ接続し、実行ログ、権限管理、有人確認を含めて運用するためのエンタープライズAI基盤です。音声AIの出力を、問い合わせ対応、申請、記録、ナレッジ化などの業務フローへ接続する前提で検討できます。
AI総合研究所のチームは、音声AIのPoCを業務運用へ進める際に、後続フローや権限設計まで含めた構成づくりを支援します。まずは無料資料で、AI Agent Hubを使った業務接続の全体像をご確認ください。

            音声AIを業務に接続
          

              
            
音声認識・合成のPoCを運用設計へCloud Speech-to-Text/TTSで音声認識や音声合成を試しても、実務では文字起こし後の確認、応対記録、業務システム連携、権限管理まで設計が必要です。AI Agent Hubの資料で、音声AIを業務フローへつなぐ全体像をご確認ください。

                
                  ▶
                  無料で資料をダウンロード
                
              
 まとめ｜Cloud Speech-to-Text/TTSは音声AIを業務に組み込む入口Cloud Speech-to-Text/TTSは、Google Cloudで音声認識と音声合成をAPI化するための実務的な選択肢です。音声を文字にするならSpeech-to-Text、テキストを音声にするならText-to-Speechを使い、リアルタイム性や自然さ、料金、対応言語に応じてモデルを選びます。
一方で、本番導入ではAPI単体の精度だけでなく、音声データの品質、専門用語、話者分離、有人確認、ログ、後続システム連携が重要になります。会議録やコールセンター、ロボット、音声入力業務に使うなら、まず1つの業務フローを選び、実データで認識・合成・後続処理まで検証するのが現実的です。

Cloud Speech-to-Text/TTSとは？機能や料金を解説