AI総合研究所

SHARE

X(twiiter)にポストFacebookに投稿はてなブックマークに登録URLをコピー

ChatGPT-4o(GPT-4o)とは?使い方や料金、無料で使う方法を解説!

この記事のポイント

  • この記事は最新のChatGPTアップデート「GPT-4o(GPT-4omni)」について紹介しています。
  • ChatGPT-4oの読み方はChatGPT-4 omni(オムニ)です。
  • チャットGPT4oでは、日本語を初めとする多言語の機能向上やAPIの費用削減など、性能と利便性の向上が図られています。
  • アップデートにより、言語だけでなく、画像、音声全てにおいてより生成AIが身近に、実用的になることでしょう。
  • GPT-4oはGoogle Drive・OneDriveとの連携やグラフの作成、音声会話も行えます。

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

ChatGPTの革新的な進化を追いかけたい人にとって、最新のアップデートは見逃せません。

本記事では、AIの技術的進展における重要なマイルストーンと言えるChatGPT-4oに焦点をあて、特に日本語を含む非英語言語の性能向上や返答スピードの高速化、そしてコスト削減といった、目に見える進化について実例もあげながら詳細に解説しています。

また今までChatGPTを無料でしか使っていなかった方も朗報です!料金は安くなっただけでなく無料の方に多くの機能を解放しました。
その詳細、使い方も詳しく解説していますのでぜひ最後までご覧ください!

ChatGPT-4o(GPT-4 Omni)について

アップデートされたGPT-4oの画像
アップデートされたGPT-4oの画像

ChatGPT-4oとして報告された今回のアップデートはAI全体の技術的進展において極めて重要 です。
特に今回のアップデートでは注目すべきものがいくつもありました。

特に注目すべき3つのアップデート

  1. より返答が人間の返答スピードに近く なりました(音声入力に対して最短232ミリ秒、平均320ミリ秒で応答)。

  2. 性能は従来のGPT4-turboに匹敵し、日本語のような非英語言語の性能向上が報告されています。

  3. それだけでなくAPIの費用は50%安く もなっています。


このように性能が上がり、新たに視覚と聴覚、発声能力が向上したGPT4oおよびそのアップデートについて徹底的に解説していきます。

各アップデートにより人工知能の役割が増大し、教育、カスタマーサポート、コンテンツ生成などの分野に大きな影響を与えています(現に多くのサービスがすでにこのAPIを取り込みサービスをアップデートさせています)。

最新のChatGPT-4oの導入で、より多くのユーザーが最新のAI技術を利用できるようになり、組織や個人の生産性と創造性が向上することが期待されます。


ChatGPT-4o(GPT-4o)の料金

ChatGPT-4oは、有料プランであるChatGPT Plusに加入する事で利用可能です。

ただし、Plusプランに加入していないユーザーも回数制限は有りますが無料でGPT4oを利用することが可能です。

【関連記事】
ChatGPT4とGPT-4oの料金、支払い方法を解説!無料で利用する方法も紹介!


以下の表は、無料ユーザーとPlusユーザーの利用可能な機能を示しています。

項目 無料ユーザー Plusユーザー
利用可能なモデル GPT-3.5,GPT-4o GPT-3.5,GPT-4,GPT-4o
GPT-4oの回数制限 5時間あたり10回まで 3時間あたり80回まで
ウェブからの情報取得
マルチモーダル機能
データ分析
ファイルのアップロード
画像生成(DALL-E3) ×
音声会話
GPTストアの利用
GPTsの作成 ×


無料ユーザーでも多くの機能を楽しめるようになり、普及が進むことが予想されます。

ChatGPT4o(GPT-4o)のAPI料金

GPT-4oでは従来のGPT-4-turboと比較して、入力と出力ともに半分の金額になりました。

従来の流れを考えるとAzure OpenAI においても同等の費用になることが推測されます。

モデル 入力 出力
gpt-4o $5 / 1M tokens $15 / 1M tokens
gpt-4o-2024-05-13 $5 / 1M tokens $15 / 1M tokens
gpt-4-turbo $10 / 1M tokens $30 / 1M tokens
gpt-4-turbo-2024-04-09 $10 / 1M tokens $30 / 1M tokens

GPT-4o API 料金とGPT-4-turboの料金比較


ChatGPT4o(GPT-4o)の使い方・切り替え方法

ChatGPTのブラウザに訪れることで利用が可能です。
しかし、有料版・無料版・スマホ版それぞれで切り替え方法が異なります。

GPT-4oの有料版(ChatGPT Plus)での使い方

左上のモデル選択の部分からGPT-4oをクリックしてください。

GPT4oの選択方法
GPT4oの選択方法


従来のChatGPTの使い方通りに利用することが可能です。


GPT-4oの無料版での使い方

ChatGPT Plusに未加入のユーザーでも、一定の利用回数まではGPT3.5とGPT-4oを切り替えて使用できます。

ただし、「5時間あたり10件までの回数制限」が設けられており、制限に達した後はGPT-3.5モデルのみ利用可能になります。

gpto無料ユーザー
GPT4oとGPT-3.5の切り替えが可能


GPT-4oのスマホアプリでの使い方

ChatGPTスマホアプリの場合も、有料版と無料版でそれぞれ切り替え方法が異なります。

有料版の場合

ChatGPTとのトーク画面上部の、「ChatGPT 〇〇(モデル名)」の箇所をタップすると、モデルの切り替えが可能です。

GPT-4oアプリの使い方

無料版の場合

  1. ChatGPTトーク画面で何かしらメッセージを送り、ChatGPTの回答を長押しします。
    GPT-4oのスマホアプリでの使い方

  2. すると、GPT-4oとGPT-3.5のいずれかを選択可能です。

chatgpt4oスマホ版での使い方

デスクトップアプリでの使い方

ChatGPTのデスクトップアプリは、ChatGPTの公式サイトからインストール可能です。

注意点として、Windowsユーザー向けにはまだ提供されていないこと、


AzureでのGPT4o利用方法

Azure OpenAI Studioの、「Early Access Playground」から利用可能です。

ただし、日本リージョンには対応していないこと、プレビュー段階であることにはご注意ください。


ChatGPT4oアップデートの特長

OpenAIは、新たなモデルであるGPT-4oを発表しました。このモデルは テキスト、音声、画像の入力をリアルタイムで処理 し、出力も生成できる次世代のAIです。

全ての入力と出力を同じニューラルネットワークで処理するため、情報の損失が少なく、より自然なインタラクションが可能です。

音声会話・音声入力機能の改良

以前の音声モードは音声をテキストに変換し、再び音声に変換するプロセスを3つのモデルで行っていました。

GPT-4oではこれが単一のモデルで行われるため、情報の損失が減少し、音声のトーンや背景音も含めた高度な処理が可能となります。

このXのツイートは、OenAIが今回のアップデートを模擬した動画です。
リアルタイムでの返事や、感情表現などその性能がおわかりになるかと思います。

画像生成の機能向上

GPT-4oは画像生成機能が大幅に向上しており、視覚的なストーリー生成にも対応しています。
従来の画像生成では、生成した画像に一貫性を持たせることが難しく、画像が崩壊してしまうことも多々ありました。

今回のアップデートにより一貫性が大幅に改善されています。
例えば、「ロボットがタイプライターで日記を記す様子」など、多様なビジュアルコンテンツを生成できます。

これにより、豊かな表現力を持つAIが実現されました。

表示物の一貫性を保った画像の生成
表示物の一貫性を保った画像の生成


3Dの画像、およびそれが回転する動画の生成ができることも述べられています。

3Dの動画生成
3Dの動画生成の画像


GPT-4oのモデル評価と性能

GPT-4oは、テキスト、音声、ビジョンの各分野で優れたパフォーマンスを発揮しており、その性能について数値的にも示しています。
特に音声認識や翻訳、視覚理解の分野で高い評価を受けています。

音声認識性能が大幅に向上し、低リソース言語でも高い精度を実現しました。マルチリンガルな評価でもGPT-4を上回る結果を示しています。

評価項目 GPT-4oの性能
テキスト処理 GPT-4 Turboと同等、マルチリンガルで優れた性能
音声認識 Whisper-v3を上回る性能、低リソース言語でも高精度
音声翻訳 最先端の性能、MLSベンチマークでWhisper-v3を上回る
視覚理解 0-shot評価で高い性能、MathVistaやChartQAで優れた結果


回答速度においても非常に速い回答ができるようになっています。

こちらはX(旧Twitterで)投稿されたGPT-4oの回答速度を載せられた投稿ですが、回答スピードに驚きの声が多く寄せられています。

テキスト評価

テキスト性能でも大きくGPT-4oの性能の良さについて評価されています。

項目 GPT-4o GPT-4T GPT-4(初期リリース 23-03-14) Claude 3 Opus Gemini Pro 1.5 Gemini Ultra 1.0 Llama3 400b
MMLU (%) 88.7 86.8 85.6 85.8 86.1 81.9 86.1
GPCQA (%) 53.6 48.0 50.4 N/A 48.0 35.7 N/A
MATH (%) 76.6 72.6 60.1 58.5 57.8 42.5 53.2
HumanEval (%) 90.2 87.1 84.9 84.1 71.9 74.4 67.0
MGSM (%) 90.5 88.7 90.7 79.0 80.9 74.5 82.4
DROP (f1) 86.0 83.4 83.1 83.5 81.8 78.2 82.4

テキスト性能の評価グラフ
テキスト性能の評価グラフ

音声認識と翻訳

音声認識(ASR)の性能と翻訳精度を示しています。

音声認識の評価はWord Error Rate(WER%)を用いており、値が低いほど性能が優れています。比較されているモデルはWhisper-v3とGPT-4o(16-shot)です。

音声翻訳の方は高いほど精度が優れており、Geminiを超える翻訳精度であることが示されています。

地域 Whisper-v3 WER(%) GPT-4o 16-shot WER(%)
西ヨーロッパ 約5.5 約4.5
東ヨーロッパ 約11 約6
中央アジア/中東/北アフリカ 約20 約14
サハラ以南のアフリカ 約30 約22
南アジア 約34 約27
東南アジア 約9 約6.5
CJK(中国語、日本語、韓国語) 約7 約5.5

音声認識(ASR)の性能のグラフ
音声認識(ASR)の性能のグラフ

音声翻訳性能のグラフ
音声翻訳性能のグラフ


新しいトークナイザー

トークン計算イメージ画像
トークン計算イメージ画像

新しいトークナイザーは、複数の言語でトークン数を大幅に削減し、より効率的なテキスト処理を可能にします。
これにより、多言語対応が強化され、様々な言語での使用が容易になりました。

日本語もトークン数は削減されています。また、日本語以外の言語でも大きくトークン効率が良くなっていることがわかります。

言語 トークン数削減比率 例文
日本語 1.4倍 こんにちわ、私の名前はGPT−4oです。私は新しいタイプの言語モデルです、初めまして。
グジャラート語 4.4倍 હેલો, મારું નામ GPT-4o છે।
テルグ語 3.5倍 నమస్కారము, నా పేరు GPT-4o.
タミル語 3.3倍 வணக்கம், என் பெயர் GPT-4o.
マラーティー語 2.9倍 नमस्कार, माझे नाव GPT-4o आहे।
ヒンディー語 2.9倍 नमस्ते, मेरा नाम GPT-4o है।


他多数の言語もトークン数が削減されています。

【関連記事】
トークン数についての説明は、こちらの記事をご覧ください。
➡️ChatGPT APIの料金は?モデル別の比較や費用を抑えるコツを解説

画像の視覚認識

様々なAIモデルの視覚認識における性能を評価した結果を示しています。
各評価セットのテスト結果はパーセンテージで示されており、高い数値ほど良い性能を意味します。

GPT-4oの精度の高さがよくわかります。

Eval Sets GPT-4o GPT-4T 2024-04-09 Gemini 1.0 Ultra Gemini 1.5 Pro Claude Opus
MMMU (%) (val) 69.1 63.1 59.4 58.5 59.4
MathVista (%) (testmini) 63.8 58.1 53.0 52.1 50.5
AI2D (%) (test) 94.2 89.4 79.5 80.3 88.1
ChartQA (%) (test) 85.7 78.1 80.8 81.3 80.8
DocVQA (%) (test) 92.8 87.2 90.9 86.5 89.3
ActivityNet (%) (test) 61.9 59.5 52.2 56.7 56.7
EgoSchema (%) (test) 72.2 63.9 61.5 63.2 63.2

ChatGPT4o(GPT-4o)でできること

Google Drive・OneDriveとの連携

ChatGPTは、クラウドストレージサービスであるGoogle DriveMicrosoft OneDriveと直接連携できるようになりました。

これらのサービスに保存されているスプレッドシート、ドキュメント、プレゼンテーションファイルを、ChatGPTに直接アップロードして分析することができます。

実際の手順

  1. ChatGPTの会話画面のアイコンをクリックし、「設定」を押します。

  2. 接続するアプリ」を選択すると、次の様な画面が表示されます。
    ここで、連携したいストレージアプリを選択してください。
    chatgptストレージ連携
    接続先の選択

  3. 「接続する」を選択すると、以下の様な確認画面に遷移するので、続行を選択します。

接続画面
接続確認
4. チャット画面のクリップマーク(画像矢印)を選択し、連携したアプリが表示されていれば設定完了です。
chatgptファイルアップロード
ファイルアップロードのボタン

リアルタイム翻訳

画像から作品の詳細を提供

ロゴの画像認識(OCR)

データ分析

手書きの画像から図を作成

グラフの作成


GPT-4oのセキュリティ

GPT-4oは、安全性を重視して設計されています。トレーニングデータのフィルタリングやモデルの行動の調整を通じて、安全性を確保しています。

また、外部の専門家によるリスク評価も行われており、モデルの安全性が高められていることが述べられています。

要約すると以下のように記載されています。

GPT-4oは、訓練データのフィルタリングや事後訓練で安全性を高め、音声出力に対する新しい安全システムを構築しました。評価では、サイバーセキュリティや自律性などのカテゴリーで「中」以上のリスクはありません。
70人以上の外部専門家と協力し、リスクを特定・軽減しました。

現在はテキストと画像の入力、テキスト出力を公開しており、数週間から数ヶ月以内に音声入力とテキスト出力も公開予定です。


急速に進化するAIとともに安全上のリスクと対策も進化していく必要があります。利用する側もリテラシーを持った対応が必要とされるでしょう。


まとめ

本記事では、最新のChatGPTアップデートの要点をまとめ、その重要性と影響を探りました。GPT-4omniという予想外の発表、新機能の導入、知識更新の拡大、開発者とエンドユーザーへの利便性向上など、これまでの進化とは一線を画する内容となっています。
GPT-4oはChatGPTの無料ティアとPlusユーザーに提供され、API経由でのアクセスも可能です。GPT-4oは従来のモデルに比べて2倍の速度で、半分のコストで利用でき、5倍のメッセージ制限を持ちます。

今後、音声とビデオの機能も提供される予定です。ChatGPTデスクトップ版ではコーディングのサポートも強まる見込みです。非常に楽しみですね!
アップデートされるごとに本記事もアップデートしていきますのでどうぞ参考にされてください。

参考文献: Hello GPT-4o

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

AI総合研究所 Bottom banner

ご相談
お問い合わせは
こちら!