2026-03-14

【Google】Whiskとは？主要機能や料金、使い方を徹底解説

この記事のポイント

テキストプロンプト不要、画像の組み合わせによる直感的なビジュアル生成
「テーマ」「シーン」「スタイル」3要素でブランド世界観を維持したクリエイティブ量産
Imagen 3＋Gemini基盤による商用レベルの生成品質
米国居住者限定だがVPN経由で日本からも無料利用可能、早期検証推奨
テキスト指示で意図通りにならない場合の画像入力型アプローチとして有効

監修者プロフィール

坂本将磨

フォローする

Microsoft MVP・AIパートナー。LinkX Japan株式会社代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。

Google WhiskはImagen 3とGeminiを基盤とし、テキストプロンプトではなく画像の組み合わせで新しいビジュアルを生成するAIツールです。「テーマ」「シーン」「スタイル」の3要素を画像で指定するだけで、ブランドの世界観を維持したクリエイティブを直感的に制作できます。

本記事では、Whiskの主な機能・料金・使い方に加え、画像入力型ならではの活用事例を紹介します。現在は米国居住者向けにGoogle Labsで無料提供されており、VPN経由で日本からも利用できます。

AI画像生成の可能性を業務プロセスのAI化に広げるなら

まとめ

 WhiskとはWhiskは、Googleが開発した、画像を組み合わせて新しい画像を生成する実験的なAIツールです。

従来のテキストベースの画像生成AIとは異なり、ユーザーが指定した複数の画像を、まるで「泡立て器（Whisk）」のように混ぜ合わせ、独創的な画像を創り出します。
このツールは、Googleの最先端AIモデルである「Imagen 3」と「Gemini」を組み合わせて開発されており、この2つのAIが連携することで、高度な画像理解と生成を実現しています。

https://youtu.be/fyFDztZxlEc?si=lMKOXqTO-vlxt-E_
 Whiskの主な機能Whiskは、これまでの画像生成AIとは一線を画す、ユニークな機能を備えています。
 画像のリミックスWhiskでは、複数の画像を組み合わせて、より直感的に画像を生成できます。

ユーザーは、「テーマ」「シーン」「スタイル」の3つの要素を、それぞれ画像で指定できます。
テーマ: 生成される画像の主役となる被写体（人物や物体など）。
シーン: 画像の背景となる情景や場所
スタイル: 画像全体の画風や雰囲気、色調など

たとえば、「猫」の画像を「被写体」に、「花畑」の画像を「シーン」に、「夕暮れ」の画像を「スタイル」に指定することで、AIがそれらの要素を組み合わせた新しい画像を生成します。

whiskの出力例

このように、3つの要素を画像で指定することで、言葉だけでは説明しにくいイメージを、AIに直感的に伝えられます。
 画像入力とテキスト指示の組み合わせWhiskでは、画像だけでなく、テキストで補足説明を加えることで、より詳細な指示を与えられます。
以下の画像は、テキストプロンプトで「ぬいぐるみのくま」と指定した例です。

元々の被写体にはリアルなクマの画像を用いていますが、きちんとぬいぐるみ風のくまで出力されていることがわかります。

このように、画像とテキストを組み合わせることで、難しいプロンプトを用意せずともユーザーの意図をより正確にAIに伝え、思い通りの画像を生成しやすくします。
 素材画像の生成画像のリミックスだけでなく、合成に使うための素材画像もWhisk内で生成できます。
プロンプトを変えて再生成もできるため、納得がいくまで微調整することもできます。
 Whiskの料金Whiskは「Google Labs」から無料で利用可能です。
!2025年1月現在、Whiskは米国居住ユーザーのみ対象に公開されています。
そのため、日本から利用する場合はVPN接続が必要です。
 Whiskの使い方ここでは、Whiskの実際の使い方について解説します。
 基本操作Whiskのページにアクセスします。

次のような画面が表示されるので、「ゼロから開始」をクリックします。

画面左側の、「テーマ」「シーン」「スタイル」の3つの枠に、それぞれ画像をアップロードします。

!自身で用意した画像だけでなく、Whisk内で画像生成もできます。
手順はWhisk内で画像を用意する方法を参照

より詳細な指示を与えたい場合は、テキストで説明を追加します。

今回は、「30代ぐらいの日本人男性」という説明をテキストで加えました。

画像右下の「➡️」ボタンをクリックすると、画像が生成されます。

生成された画像を保存したい場合は右側の矢印、プロンプトを編集したい場合は左側の矢印からできます。

 生成画像の編集「編集ボタン」をクリックすると、次のようにプロンプトが表示されます。

ここでプロンプトを調整し、「生成」をクリックすることで画像が再生成されます。

!基本操作の「4.」で説明したテキスト欄からでも調整・再生成可能です。
ただし、より詳細に指定したい場合は、この方法を推奨します。
 Whisk内で画像を用意する方法生成したい素材画像の欄（「テーマ」「シーン」「スタイル」のいずれか）にカーソルを置き、「テキストを入力」をクリックします。

次のような画面が表示されるので、プロンプトを入力します。

「プロンプトを考えるのが難しい」という方は、ChatGPTやGeminiに生成したい画像のイメージを入力して、プロンプトを考えてもらう方法がおすすめです。

!プロンプトは英語のみ対応しています。

「生成」ボタンをクリックすると、画像が生成されます。

生成された画像に再度指示を加えたり、プロンプトを変更して再生成もできます。

生成された画像は、そのまま素材として利用できます。

保存もできます。

 生成時のポイント必ずしも3つの画像を指定する必要はなく、2つの要素のみを指定して出力することもできます。
手順は簡単で、画面左側の画像一覧から、外したい要素の画像をチェックを外し、生成ボタンを押します。

以下は、先ほど使用した「テーマ」と「シーン」の2つのみを用いて生成された画像です。

元々「スタイル」にはポートレート風の画像を指定していましたが、その画像を外したことで若干ぼかしが薄れているのがわかります。
「シーン」と「スタイル」は指定する画像が似たり寄ったりになってしまうことや、余計なノイズが入ってしまうことがあります。

そのため、特に人物や情景などを詳細に指定したい場合は、あえてスタイルの画像を指定しないという方法がおすすめです。
 Whiskの活用事例Whiskは、そのユニークな機能から、様々な場面での活用が期待されています。
 アイデアの視覚化新しい製品やサービスのアイデアを具体化する際に、Whiskは強力なツールとなります。

例えば、新商品のコンセプトを考える際に、イメージに近い画像を組み合わせることで、アイデアを視覚的に表現し、チームメンバーと共有できます。
漠然としたアイデアを具体的なイメージに落とし込むことで、議論を活性化し、プロジェクトを前進させられます。
 コンセプトアートの作成Whiskは、製品デザイン、Webデザイン、建築など、様々な分野のコンセプトアート作成に活用できます。
例えば、新しいWebサイトのデザインを検討する際に、Whiskを使って、様々なレイアウトや配色、イメージ画像を組み合わせたビジュアルを作成することで、デザインの方向性を効率的に検討できます。
 クリエイティブな表現Whiskは、アート作品やイラスト、写真などの創作活動にも役立ちます。

Whiskを用いて、自身の想像力を刺激するような画像を生成し、それをインスピレーション源として、新たな作品を生み出せます。
これまで思いつかなかったような、意外性のある組み合わせを発見できるかもしれません。
 AI画像生成の可能性を業務プロセスのAI化に広げるならWhiskのような画像入力型AIツールが示すのは、テキスト指示だけでなく視覚情報をもとにAIが新しいアウトプットを生み出せるという可能性です。こうしたAIのクリエイティブ能力は、マーケティング素材の制作やプレゼン資料のビジュアル作成など、業務の中にも数多くの応用先があります。
AI総合研究所では、Microsoft環境で業務プロセスにAIを組み込む方法を220ページのガイドにまとめています。業務全体のAI化を進めたい方はぜひご活用ください。

            AI画像生成の直感的な体験を業務でのAI活用に活かす
          
画像生成AIの知見を業務自動化に結びつける実践ガイド画像の組み合わせで新しいビジュアルを生成するWhiskのような体験は、AIが持つクリエイティブ能力を実感する入口になります。AI総合研究所では、Microsoft環境で業務プロセスにAIを組み込む方法を220ページのガイドにまとめました。業務のAI化を検討する際にご活用ください。

                  ▶
                  無料でダウンロード
                
 まとめこの記事では、Google Whiskの主な機能から料金、具体的な使い方までを解説しました。
Whiskを活用することで、以下の3つの価値が得られます。
テキストプロンプト不要で、画像の組み合わせだけで直感的にビジュアルを生成

「テーマ」「シーン」「スタイル」の3要素を画像で指定するため、言葉で表現しにくいイメージもAIに正確に伝えられます。
Imagen 3＋Geminiモデルにより、商用レベルの生成品質を無料で利用可能

Google Labsから無料で提供されており、生成品質を事前にコストゼロで検証できます。
素材画像の生成から編集・再生成まで、ワンストップでクリエイティブ制作が完結

外部ツールで素材を用意する必要がなく、Whisk内で素材生成→組み合わせ→微調整のサイクルを回せます。
まずはWhiskにアクセスして「テーマ」と「シーン」の2要素で画像を生成し、次にテキスト指示を追加して精度を確認、自社のクリエイティブワークフローへの組み込みを検討してください。