AI総合研究所

SHARE

X(twiiter)にポストFacebookに投稿はてなブックマークに登録URLをコピー

【Google】Whiskとは?主要機能や料金、使い方を徹底解説

この記事のポイント

  • テキストプロンプト不要、画像の組み合わせによる直感的なビジュアル生成
  • 「テーマ」「シーン」「スタイル」3要素でブランド世界観を維持したクリエイティブ量産
  • Imagen 3+Gemini基盤による商用レベルの生成品質
  • 米国居住者限定だがVPN経由で日本からも無料利用可能、早期検証推奨
  • テキスト指示で意図通りにならない場合の画像入力型アプローチとして有効
坂本 将磨

監修者プロフィール

坂本 将磨

XでフォローフォローするMicrosoftMVP

Microsoft MVP・AIパートナー。LinkX Japan株式会社 代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会 優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。

Google WhiskはImagen 3とGeminiを基盤とし、テキストプロンプトではなく画像の組み合わせで新しいビジュアルを生成するAIツールです。「テーマ」「シーン」「スタイル」の3要素を画像で指定するだけで、ブランドの世界観を維持したクリエイティブを直感的に制作できます。

本記事では、Whiskの主な機能・料金・使い方に加え、画像入力型ならではの活用事例を紹介します。現在は米国居住者向けにGoogle Labsで無料提供されており、VPN経由で日本からも利用できます。

Whiskとは

Whiskは、Googleが開発した、画像を組み合わせて新しい画像を生成する実験的なAIツールです。
従来のテキストベースの画像生成AIとは異なり、ユーザーが指定した複数の画像を、まるで「泡立て器(Whisk)」のように混ぜ合わせ、独創的な画像を創り出します。

このツールは、Googleの最先端AIモデルである「Imagen 3」と「Gemini」を組み合わせて開発されており、この2つのAIが連携することで、高度な画像理解と生成を実現しています。
 
https://youtu.be/fyFDztZxlEc?si=lMKOXqTO-vlxt-E_


AI Agent Hub1

Whiskの主な機能

Whiskは、これまでの画像生成AIとは一線を画す、ユニークな機能を備えています。

画像のリミックス

Whiskでは、複数の画像を組み合わせて、より直感的に画像を生成できます。
ユーザーは、「テーマ」「シーン」「スタイル」の3つの要素を、それぞれ画像で指定できます。

  • テーマ: 生成される画像の主役となる被写体(人物や物体など)。
  • シーン: 画像の背景となる情景や場所
  • スタイル: 画像全体の画風や雰囲気、色調など


たとえば、「猫」の画像を「被写体」に、「花畑」の画像を「シーン」に、「夕暮れ」の画像を「スタイル」に指定することで、AIがそれらの要素を組み合わせた新しい画像を生成します。

whiskの利用例
whiskの出力例


このように、3つの要素を画像で指定することで、言葉だけでは説明しにくいイメージを、AIに直感的に伝えられます。

画像入力とテキスト指示の組み合わせ

Whiskでは、画像だけでなく、テキストで補足説明を加えることで、より詳細な指示を与えられます。

以下の画像は、テキストプロンプトで「ぬいぐるみのくま」と指定した例です。
元々の被写体にはリアルなクマの画像を用いていますが、きちんとぬいぐるみ風のくまで出力されていることがわかります。
ぬいぐるみのくまと指定


このように、画像とテキストを組み合わせることで、難しいプロンプトを用意せずともユーザーの意図をより正確にAIに伝え、思い通りの画像を生成しやすくします。

素材画像の生成

画像のリミックスだけでなく、合成に使うための素材画像もWhisk内で生成できます。

プロンプトを変えて再生成もできるため、納得がいくまで微調整することもできます。

画像修正画面


Whiskの料金

Whiskは「Google Labs」から無料で利用可能です。


AI研修

Whiskの使い方

ここでは、Whiskの実際の使い方について解説します。

基本操作

  1. Whiskのページにアクセスします。

  2. 次のような画面が表示されるので、「ゼロから開始」をクリックします。
    Whiskのトップページ

  3. 画面左側の、「テーマ」「シーン」「スタイル」の3つの枠に、それぞれ画像をアップロードします。
    画像選択画面


  1. より詳細な指示を与えたい場合は、テキストで説明を追加します。
    今回は、「30代ぐらいの日本人男性」という説明をテキストで加えました。
    テキスト指示の入力

  2. 画像右下の「➡️」ボタンをクリックすると、画像が生成されます。
    生成された画像

  3. 生成された画像を保存したい場合は右側の矢印、プロンプトを編集したい場合は左側の矢印からできます。
    画像の保存、編集

生成画像の編集

「編集ボタン」をクリックすると、次のようにプロンプトが表示されます。
ここでプロンプトを調整し、「生成」をクリックすることで画像が再生成されます。
生成画像の編集

Whisk内で画像を用意する方法

  1. 生成したい素材画像の欄(「テーマ」「シーン」「スタイル」のいずれか)にカーソルを置き、「テキストを入力」をクリックします。
    whiskで画像生成

  2. 次のような画面が表示されるので、プロンプトを入力します。
    「プロンプトを考えるのが難しい」という方は、ChatGPTやGeminiに生成したい画像のイメージを入力して、プロンプトを考えてもらう方法がおすすめです。
    プロンプト入力画面


  1. 「生成」ボタンをクリックすると、画像が生成されます。
    生成された画像に再度指示を加えたり、プロンプトを変更して再生成もできます。
    生成結果

  2. 生成された画像は、そのまま素材として利用できます。
    保存もできます。
    素材利用

生成時のポイント

必ずしも3つの画像を指定する必要はなく、2つの要素のみを指定して出力することもできます。

手順は簡単で、画面左側の画像一覧から、外したい要素の画像をチェックを外し、生成ボタンを押します。
チェックを外す

以下は、先ほど使用した「テーマ」と「シーン」の2つのみを用いて生成された画像です。
「テーマ」と「シーン」の2つのみを用いて生成された画像


元々「スタイル」にはポートレート風の画像を指定していましたが、その画像を外したことで若干ぼかしが薄れているのがわかります。

「シーン」と「スタイル」は指定する画像が似たり寄ったりになってしまうことや、余計なノイズが入ってしまうことがあります。
そのため、特に人物や情景などを詳細に指定したい場合は、あえてスタイルの画像を指定しないという方法がおすすめです。


Whiskの活用事例

Whiskは、そのユニークな機能から、様々な場面での活用が期待されています。

アイデアの視覚化

新しい製品やサービスのアイデアを具体化する際に、Whiskは強力なツールとなります。
例えば、新商品のコンセプトを考える際に、イメージに近い画像を組み合わせることで、アイデアを視覚的に表現し、チームメンバーと共有できます。

漠然としたアイデアを具体的なイメージに落とし込むことで、議論を活性化し、プロジェクトを前進させられます。

コンセプトアートの作成

Whiskは、製品デザイン、Webデザイン、建築など、様々な分野のコンセプトアート作成に活用できます。

例えば、新しいWebサイトのデザインを検討する際に、Whiskを使って、様々なレイアウトや配色、イメージ画像を組み合わせたビジュアルを作成することで、デザインの方向性を効率的に検討できます。

クリエイティブな表現

Whiskは、アート作品やイラスト、写真などの創作活動にも役立ちます。
Whiskを用いて、自身の想像力を刺激するような画像を生成し、それをインスピレーション源として、新たな作品を生み出せます。

これまで思いつかなかったような、意外性のある組み合わせを発見できるかもしれません。


メルマガ登録

AI画像生成の可能性を業務プロセスのAI化に広げるなら

Whiskのような画像入力型AIツールが示すのは、テキスト指示だけでなく視覚情報をもとにAIが新しいアウトプットを生み出せるという可能性です。こうしたAIのクリエイティブ能力は、マーケティング素材の制作やプレゼン資料のビジュアル作成など、業務の中にも数多くの応用先があります。

AI総合研究所では、Microsoft環境で業務プロセスにAIを組み込む方法を220ページのガイドにまとめています。業務全体のAI化を進めたい方はぜひご活用ください。

AI画像生成の直感的な体験を業務でのAI活用に活かす

AI業務自動化ガイド

画像生成AIの知見を業務自動化に結びつける実践ガイド

画像の組み合わせで新しいビジュアルを生成するWhiskのような体験は、AIが持つクリエイティブ能力を実感する入口になります。AI総合研究所では、Microsoft環境で業務プロセスにAIを組み込む方法を220ページのガイドにまとめました。業務のAI化を検討する際にご活用ください。

まとめ

この記事では、Google Whiskの主な機能から料金、具体的な使い方までを解説しました。

Whiskを活用することで、以下の3つの価値が得られます。

  1. テキストプロンプト不要で、画像の組み合わせだけで直感的にビジュアルを生成
    「テーマ」「シーン」「スタイル」の3要素を画像で指定するため、言葉で表現しにくいイメージもAIに正確に伝えられます。

  2. Imagen 3+Geminiモデルにより、商用レベルの生成品質を無料で利用可能
    Google Labsから無料で提供されており、生成品質を事前にコストゼロで検証できます。

  3. 素材画像の生成から編集・再生成まで、ワンストップでクリエイティブ制作が完結
    外部ツールで素材を用意する必要がなく、Whisk内で素材生成→組み合わせ→微調整のサイクルを回せます。

まずはWhiskにアクセスして「テーマ」と「シーン」の2要素で画像を生成し、次にテキスト指示を追加して精度を確認、自社のクリエイティブワークフローへの組み込みを検討してください。

監修者
坂本 将磨

坂本 将磨

Microsoft MVP・AIパートナー。LinkX Japan株式会社 代表取締役。東京工業大学大学院にて自然言語処理・金融工学を研究。NHK放送技術研究所でAI・ブロックチェーンの研究開発に従事し、国際学会・ジャーナルでの発表多数。経営情報学会 優秀賞受賞。シンガポールでWeb3企業を創業後、現在は企業向けAI導入・DX推進を支援。

関連記事

AI導入の最初の窓口

お悩み・課題に合わせて活用方法をご案内いたします
お気軽にお問合せください

AI総合研究所 Bottom banner

ご相談
お問い合わせは
こちら!