Gemini(旧称:Bard)とは

Gemini （旧Google Bard）とは、 2023年3月21日にGoogleが発表した対話型の生成AIです。

Geminiは、人間のような自然な応答を目指し、幅広い質問に対する詳細な回答を提供することをその主な機能としています。
加えて、マルチモーダル機能が備わっていることから、テキスト、画像、音声、ビデオの理解など、複数のモダリティにわたる多くのタスクを実行できます。

Geminiロゴ
Gemini ロゴ（引用元:Introducing Gemini: our largest and most capable AI model

Geminiの特徴

このセクションでは、Geminiの主要な機能とユーザー体験について解説していきます。

Geminiはユーザビリティとアクセシビリティを重視した設計になっており、以下のような特徴を持っています。

会話式インターフェース

Geminiは、ユーザーが疑問やトピックについて自然言語で質問すると、対話形式で情報を提供する会話型AIです。
これにより、ユーザーはフォーマルな検索クエリを入力する代わりに、日常会話のように情報を得ることができます。

言語の多様性

全てのユーザーがアクセスしやすいように、Geminiはアクセシビリティに焦点を当てています。

現在は、英語や日本語を始めとする40か国語以上に対応可能です。

Geminiは、英語、日本語、韓国語、アラビア語、インドネシア語、ベンガル語、ブルガリア語、中国語（簡体字/繁体字）、クロアチア語、チェコ語、デンマーク語、オランダ語、エストニア語、ペルシャ語、フィンランド語、フランス語、ドイツ語、グジャラート語、ギリシャ語、ヘブライ語、ヒンディー語、ハンガリー語、イタリア語、カンナダ語、ラトビア語、リトアニア語、マラヤーラム語、マラーティー語、ノルウェー語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、スペイン語、スワヒリ語、スウェーデン語、タミル語、テルグ語、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ベトナム語など、40以上の言語で利用できます。Geminiにさらに多くの言語で対応する方法を教え続けています。

出典:Gemini Apps FAQ

リアルタイムの情報を取得

Geminiは、高速で効果的な検索機能を備えており、ユーザーが必要な情報を素早く見つけることができます。
また、世の中で起きている最新の出来事についてもリアルタイムでアップデートを提供できるため、ニュースイベントやトレンドについて学ぶ際に特に有用です。

複雑なタスクに柔軟に対応

Geminiは、複雑なタスクに柔軟に対応することができます。
他のAIとは異なり、Geminiはマルチモーダル技術を駆使し、プラグインや統合を必要としません。

そのため、Geminiを使うことで、よりスムーズで効率的な作業が可能になります。

モバイルフレンドリー

Geminiは、スマートフォンやタブレットなどのモバイルデバイスでも快適に利用できるように最適化されています。

スマホのgoogle検索に搭載されているGeminiに音声認識つかって、「近くでワイン飲めるおすすめのお店を予算5000円くらいで教えてください。」みたいにお願いするとgoogleマップの情報からデータとってきてリコメンドしてくれるから便利
予算も評価もマップ情報も出してくれるGoogle系のサービスつよい
— りくと@店舗集客プロフェッショナル (@rikuto_info) March 4, 2024

Geminiのモデル一覧

Geminiには無料版に搭載されているGemini Proと有料版（Gemini advanced）に搭載されているGemini Ultra、そしてデバイス単体で稼働できコンパクトなGemini Nanoの３つのモデルが存在します。

以下に各モデルの主な違いをまとめています。

Gemini Pro

無料で利用可能
日本語対応(画像生成機能は英語のみ)
幅広い分野のタスクに対応。

参考:Introducing Gemini: our largest and most capable AI model

Gemini Ultra

Gemini Ultraの搭載されているGemini advancedは月額 $19.99(約¥3,000)を支払うことで利用可能。
プランには2ヶ月の無料トライアルが含まれる。
高性能で大規模なモデルで、複雑なプロンプトにも対応。

ほお。BardがGeminiに改名。Gemini Ultra（GoogleのAIモデルの最上位）搭載のGemini Advanced（つまりGeminiに改名したBardの上位版）を使うにはGoogle…
— うみゆき@AI研究 (@umiyuki_ai) February 8, 2024

Gemini Nano

ネットワークがない場合も利用可能。
チャットアプリなどで利用可能なスマートリプライ機能。
Google pixel8 proに搭載。

Gemini Nano is our most efficient model built for on-device tasks, and starting today, it's running on Pixel 8 Pro.
Gemini Nanoは、デバイス上でのタスクのために作られた最も効率的なモデルであり、本日よりPixel 8 Pro上で動作する。

Gemini Nano 参考:https://store.google.com/intl/en/ideas/articles/pixel-feature-drop-december-2023/

【最新モデル】Gemma

GoggleはGeminiの発表に続き、軽量でオープンな新AIモデル「Gemma」を発表しました。

Googleが、Geminiモデルより軽量な最先端のオープンモデル「Gemma」を発表。Gemini Pro 1.5の発表から１週間足らずで新たなモデルをリリース。スピード感早すぎる、、 https://t.co/Q9CO1er2JG
— 坂本将磨@AI総合研究所 (@LinkX_group) February 21, 2024

ラテン語で「宝石」を意味するgemmaが由来のこのモデルは、オープンソースで誰でも自由に使うことができ基本的に商用利用を認めています。

Google DeepMindがGoogle の Geminiに基づくオープンソース言語モデルである7bと2bパラメータのGemmaリリース。他のオープンモデルと比較して、そのサイズでクラス最高のパフォーマンスを実現。
最大6Tトークンのテキストで学習させ、Geminiモデルファミリーと同様のアーキテクチャ… https://t.co/NiIHDUzgat pic.twitter.com/Z1MA1WWoUV
— bioshok（INFJ） (@bioshok3) February 21, 2024

Geminiの使い方

このセクションでは、Gemini（旧Google Bard）を実際に利用してみたので手順とその様子をご紹介します。

###　利用手順

Gemini にログイン。
Chat with gemini ボタンを選択。

Chat with gemini ボタン

3.プロンプト作成ページに移動。

プロンプト作成ページ

プロンプトを作成。

トマトと鶏肉で簡単に作れるレシピを教えて。

回答を確認。

Geminiの活用例

Geminiの利用法は多岐にわたり、これによる利点は個人の利用者からビジネスの世界まで拡がります。

ここでは、いくつかの活用シナリオを提示し、Geminiがどのように有益なツールとなり得るかを考察します。

パーソナルアシスタントとして

日常生活において、Geminiをパーソナルアシスタントのように使うことができます。

（例）天気の予報を確認する、道路の込み具合を調べる、あるいはおすすめのレストランを検索するなど、日々のあらゆる疑問に対し、速やかに回答を得ることが可能です。

昨日の天気予報が天気図からできるかなと昨日の夜投げ掛けたら、有料の生成AI（Claude Opus, ChatGPT 4, Gemini Pro）は気温が下がること、朝方雨(天気が悪いこと)は全部確実に予想していた。Gemini Proが雪を示唆する文章を生成していた。登山やられる方はめちゃくちゃ答え合わせの勉強になると思う。 pic.twitter.com/2l5anmAhlj
— 澤良弘 (@yoshiiiine) March 8, 2024

教育ツールとして

学習支援の一環として、Geminiは教育的な背景を持つ人々にとって価値のあるリソースです。

英語の学習教材としての利用、歴史的な出来事について情報を提供したりと、学習過程における質問に対するインタラクティブなサポートを提供します。

ビジネスの意思決定支援

ビジネス利用の文脈では、マーケットのトレンドに関する最新のデータや統計情報を迅速に取得するためのツールとして活用できます。

$GOOG GoogleのGemini、ChatGPT3.5と違って最新情報にアクセスできるのが良いよね👀✨

反転のタイミングを見て買っていきたい。

WEBライターやってた時に思ったけど、やはりスプレッドシート等、無料のツールは強い。みんな使ってたもんなー。そもそも広告ビジネスだし、また復活するでしょう#GOOG
— せんごく@日本株投資家( ﾟ∀ﾟ)o彡° (@sengock1059) March 8, 2024

GeminiとChatGPTの違い

このセクションでは、Gemini（旧Google Bard）とChatGPTの主な違いについて比較していきます。

以下はGemini（旧Google Bard）とChatGPTの特徴別の主な違いです。

特徴	Gemini	ChatGPT
開発元	Google	OpenAI
画像解析能力	動画や画像といったテキスト以外のデータ解析無料で利用可能✅	有料会員（ChatGPT PlusとEnterpriseプラン）のみ利用可能
プラグイン	Geminiエクステンションを使用	900種類以上のプラグイン
公開されているAPI	APIを公開（Gemini Proの利用可能）	APIを公開（ChatGPT API）
サポートされている言語	🌍 多言語サポート（Gemini nanoは英語のみ）	🌍 多言語サポート
ユーザーインターフェース	💻 検索エンジンを介した対話形式	🗨 テキストやAPI経由の対話形式
利用可能なプラン	Geminiには無料版に搭載されているGemini Proと有料版（Gemini advanced）に搭載されているGemini Ultra、そしてデバイス単体で稼働できコンパクトなGemini Nano	💳 無料版と有料版(ChatGPT-4)とenterpriseプラン

GeminiとChatGPTは、それぞれ固有の特徴を持ち、利用可能なプランも異なります。

それぞれの用途や目的、そして予算に応じて、どちらを選択するか検討してみましょう。どちらもとても便利なツールであり、使い手のニーズに合った最適な選択を見つけることが重要です。

【関連記事】
➡️ChatGPTとは？その機能や日本語での使い方を徹底解説！

ChatGPTとgemini回答の比較

このセクションでは、どのようなクエリに対してBardまたはChatGPTが優れているかを検証してみました！

質問1

世界で最も高い山は何ですか？

Geminiの回答

ChatGPTの回答

世界で最も高い山は、標高8848メートルのエベレストです。ネパールと中国の国境に位置し、ヒマラヤ山脈の一部です。チベット語でチョモランマと呼ばれ、「世界の母神」という意味です。なお、「測り方」によっては、エベレストより高い山があるという意見もあります。例えば、「地球の中心から山頂までの距離」を山の高さとする方法では、ハワイ島のマウナ・ケアの方が高くなります。しかし、一般的に山の高さは「海抜」つまり海面からの高さで測られるため、エベレストが世界最高峰とされています

世界で最も高い山は、エベレスト（ネパール名: サガルマータ、中国名: 珠穆朗玛峰）です。エベレストはヒマラヤ山脈にあり、標高は8,848.86メートル（29,031.7フィート）です

質問2

アルベルト　アインシュタインって誰？

Geminiの回答

ChatGPTの回答

アルベルト・アインシュタインは、ドイツ生まれの理論物理学者で、20世紀最大の物理学者と称されています。主な業績-相対性理論：時間と空間は絶対的なものではなく、観測者の動きによって変化するという理論。光電効果：光は波と粒子の両方の性質を持つという理論。E=mc²：質量とエネルギーは等価であり、互いに変換できるという理論。これらの業績は、物理学だけでなく、天文学、宇宙論、数学など、様々な分野に大きな影響を与えました。その他アインシュタインは、一般の人々にも広く知られた科学者であり、その名前は「天才」の代名詞として使われることもあります。彼のユーモアや人柄も人気を集め、彼の言葉や逸話は多くの人々に愛されています。参考資料:アルベルト・アインシュタインとは？相対性理論や名言など何をした人かくわしく解説 - マイナビニュース: https://news.mynavi.jp/article/20211111-2164562/

アルベルト・アインシュタイン（Albert Einstein、1879年 - 1955年）は、20世紀を代表する物理学者であり、その業績は現代物理学の基礎を築いたとされています。彼は特殊相対性理論と一般相対性理論を提唱し、また量子力学の発展にも貢献しました。その業績により、1921年にノーベル物理学賞を受賞しました。アインシュタインの特殊相対性理論は、時空の構造を定義し、光速度が一定であること、時間と空間が相対的であることを示しました。一方、一般相対性理論は、重力を空間と時間の曲がりとして捉え、その理論は現代宇宙論の基礎を形成しました。また、アインシュタインは量子力学の発展にも影響を与えました。特に光量子仮説（光子理論）の提唱やブラウン運動の説明などがその例です。アインシュタインは、その理論だけでなく、平和主義者や人権活動家としても知られています。彼は第二次世界大戦中に原爆開発計画に反対し、核兵器の使用について懸念を表明しました

質問3

私の悩みを聞いてほしい。

Geminiの回答

ChatGPTの回答

はい、喜んでお話を聞きます。どんな悩みですか？以下、いくつか質問を用意しました。これらの質問に答えて頂ければ、あなたの悩みをより深く理解することができます。どんなことで悩んでいますか？いつからその悩みを抱えていますか？誰かに相談したことはありますか？今までどのように解決しようとしましたか？理想的な解決策はどのようなものですか？もちろん、質問に答える必要はありません。話したいことを話したいように話してください。

話すことで気持ちが楽になることもあります。私もあなたの話を聞き、できる限りサポートします。もし、専門的な助けが必要だと感じたら、遠慮なく相談してください。心理カウンセラーや精神科医などの専門家は、あなたの悩みに対して適切なアドバイスや治療を提供することができます。以下、相談できる窓口をいくつか紹介します。よりそいホットライン: https://juju3291a.exblog.jp/241960576/ いのちの電話: https://www.inochinodenwa.org/?page_id=267 TELL: https://dictionary.cambridge.org/dictionary/english/tell 一人で抱え込まず、誰かに助けを求めることも大切です。あなたの悩みが少しでも解決することを願っています。

もちろんです。どのような悩みがあるのでしょうか？お話ししてください。

###　Gemini vs ChatGPT比較結果のまとめ

この度、3つのプロンプトを用意し、GeminiとChatGPTの回答内容を比較してみました。

Geminiは参考文献や外部リンクを含んだ丁寧な回答を生成しました。一方、ChatGPTは要点だけをまとめた短くて見やすい回答を生成しました。

リサーチや、多くの情報を知りたいときはGemini、スピード重視の時はChatGPTを利用するとよいでしょう。

GeminiとMicrosoft Copilotの比較

GeminiとMicrosoft Copilotは、どちらもAIを活用したアシスタントツールですが、いくつかの重要な違いがあります。

以下はGeminiとCopilotの特徴を比較した表です。

比較項目	Gemini	Copilot
利用可能なツールと統合	Google検索、GoogleドキュメントなどのGoogleシステムと統合	Microsoft 365スイート（Outlook、Word、Excelなど）とシームレスに統合
テキスト生成能力	ユーザーの日常的な疑問に回答し、ストーリーテリングに適した文書生成を行う	業務文書やデータ分析の自動化に特化し、複雑なフォーマットや業界用語に対応
対象ユーザー	一般的なユーザー向けに、親しみやすい情報提供を重視	ビジネスや専門分野のユーザー向けに、専門的な文書生成をサポート
ユーザーインターフェースと使いやすさ	Googleのwebサービスに統合されており、Webサーフィン中に疑問を投げかける機能	Microsoft 365製品に組み込まれており、Officeアプリケーションを頻繁に利用するユーザーに適している

CopilotはMicrosoft 365製品と緊密に統合されているため、Word、Excel、Outlookなどのアプリケーションを日常的に使用するユーザーにとって、シームレスかつ直感的な操作性を提供します。

対照的に、GeminiはGoogleの検索エンジンやウェブサービスに組み込まれており、インターネット上の情報探索と並行して、自然言語で質問をするというユニークな使用体験を実現しています。

自身や社内のニーズや使用環境に応じて、CopilotとGeminiのどちらが適しているかを判断することをおすすめします。

【関連記事】
➡️CopilotとGeminiを徹底比較！特徴や機能面の違いをわかりやすく解説！

GeminiとGoogle CloudのAIツール

このセクションでは、GeminiとGoogle CloudのAIツールを比較し、両者の相互利用の可能性について探ってみましょう。

Google Cloudは、Googleが提供するクラウドコンピューティングサービスです。
企業や開発者がビジネスを成長させ、革新的なソリューションを開発するためのツールやリソースを提供するための強力なプラットフォームとも言えます。

GeminiとGoogle Cloudの組み合わせは、さらなる可能性を秘めています。

相関するAIツール一覧

ここでは、Google Cloudにおける他の無料AIツールの紹介、そしてそれらとgeminiの連携や相互作用について考察します。

以下の表はGoogle Cloudにおける１０の無料AIツール一覧表です。

プロダクト	説明
Translation Basic	100 以上の言語ペアのサポートを利用して、テキストの翻訳とローカライズをリアルタイムで行う
Translation Advanced	バッチテキスト、書式設定されたドキュメント、カスタムモデル、ローマ字テキストの翻訳をサポート
Cloud Vision	画像内の顔、物体、ランドマーク、ロゴ、テキストなどを検出
Speech-to-Text	ドメイン固有モデルを使用して音声を正確にテキストに変換し、品質を向上させます。
Text-to-Speech	テキストを人間のような自然のイントネーションの音声に変換します。
Natural Language API	非構造化テキストのエンティティと感情を識別して分析します。
Video Intelligence	動画内のショット、顔、有名人、露骨な表現を含むコンテンツ、ロゴ、テキストなどを検出します。
Dialogflow	対話型 AI を使用して、最先端の人間のような仮想エージェントを構築
Compute Engine	Google のインフラストラクチャ上で仮想マシンを作成して実行します
Cloud Storage	ディープラーニングモデルと機械学習モデルを費用対効果の高い方法でトレーニングするための非構造化データを保存

Google Bardは独立したサービスとして機能する一方で、上記に紹介しているNatural Language APIやAutoMLなどのAIツールと合わせて使用することで、より強力な機能を実現することができます。

たとえば、テキスト解析を行うツールと組み合わせることで、ユーザーからのフィードバックを分析したり、顧客の傾向を把握することが可能になります。

Vision APIやSpeech-to-Textとの組み合わせ

Google CloudのVision APIを使えば、画像の中のオブジェクトやテキストを識別し、それに基づいたコンテンツをGeminiを通じてユーザーに提供することができます。

例えば、観光地の画像から情報を提供し、旅行プランの作成したり、画像からストーリーを生成し、ゲームやアニメなどのコンテンツ制作に活用することが出来ます。

また、Speech-to-Textを利用すれば、音声を直接テキストに変換し、Geminiで解析や応答を生み出すことができます。
これらのツールの結合によって多様なアプリケーションを実現し、より複雑なユーザーの要求に応えることが可能です。

例えば、音声メモをSpeech-to-Textでテキスト化し、Bardが内容を要約し、要点のみを把握することが出来ます。

まとめ

この記事では、Geminiについて詳しく解説しました。Geminiは驚くべきAIシステムであり、その特徴や利用方法について理解しました。

皆さんもGeminiを日常やビジネスに取り入れて、より便利な生活を楽しんでみてください！

最後までお読みいただきありがとうございました。 🙏