この記事のポイント
- Stable Diffusionは、無料のWebサービスから高度な設定が可能なローカル環境まで、多様な利用方法がある
- Dream Studio、Hugging Face、Mage.spaceなど、ブラウザですぐに使えるサービスを紹介
- 各サービスの特徴や具体的な操作方法、画像生成のコツを詳しく解説
- ローカル環境での利用方法や、より高度な設定が可能なStable Diffusion Web UIについても言及
- 商用利用や著作権に関する注意点、技術的な側面についても説明
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
デジタルアートをもっと手軽に、そしてクリエイティブに展開したい方へ。Stable Diffusionを使えば、誰でもプロのデザイナーが作るような画像を生み出すことができます。
しかし、いざ始める時には数多くの種類があり、困惑してしまう場合もあるかと思います。
この記事では、AIを使って高度な画像生成ができる「stable diffusion」について、無料で使えるWebアプリケーションから準備が必要な使用方法まで幅広い情報を提供しています。 また、商用利用や技術的な注意点などもまとめているため、Stable Diffusionの世界に新しく足を踏み入れる方でも安心です。
「自分にピッタリなStable Diffusionの始め方はどれだろう?」という方でも、数ある種類から始め方を選ぶ際の戸惑いを解消し、具体的な操作方法まで学ぶことができる内容となっています。ぜひ最後までお読みください。
「AIをマーケティングに活用したいけど、具体的な方法がわからない」とお悩みではありませんか?
AI Marketerなら、効率的なコンテンツ制作と多チャネル展開が簡単に実現できます。
⇒AI Marketerの資料を見てみる
目次
Stable Diffusionとは
「Stable Diffusion」は、画像生成AIの一つです。画像生成AIとは、簡単に言えば、「AIに言葉を与えるとそれに対応する画像が出力される仕組み」のことを指します。
例えば、 「カフェでリモートワークを行う26歳 成人男性 独身」 という言葉をAIに与えるだけで、下記のような高精度かつリアルな画像が生成できます。
このようにして入力する文章は「プロンプト」と呼ばれます。このプロンプトを上手く組みわせることで、ユーザーが望む画像を簡単に出力できる仕組みとなっています。
Stable Diffusionを使って作り出した画像
オープンソースとしてリリース
Stable Diffusionは、2022年8月に オープンソースとして開発グループからリリースされています。
従来の画像生成AIは「クラウドサービスに依存する形」が主流で、利用料金も高額な場合が多く、個人で利用するにはハードルが高いものでした。
そのため、StableDiffusionのようにユーザー自身のPCで動作可能なモデルは、まさに画期的なイノベーションと言えます。
しかし、StableDiffusionはローカルPCで実行可能なものの、その計算負荷が大きすぎて一般的なPCでは動作が難しい場合があります。そこで登場したのが、「プロバイダー側のサーバー環境でStableDiffusionを動かし、Webアプリとしてユーザーに提供するサービス」です。
これらは、ユーザーは自身のPCの性能に左右されることなく、Webブラウザから手軽にStableDiffusionを利用できるのです。
このようなWebアプリの登場により、「より多くのユーザーがAI画像生成の入り口に立てるようになった」と言えるでしょう。
【関連記事】
➡️Stable Diffusionとは?その魅力やモデル、プロンプトの例を徹底解説
Stable Diffusionの使い方
ここでは「複数あるStable Diffusionの始め方」を分類分けした上で、それぞれの概要について説明していきます。
ローカルでの利用方法については、こちらの記事をご覧ください。
Stable Diffusion Web UI Forgeのインストール方法・使い方をわかりやすく解説
Webサービスの使い方
下の図をご覧ください。小さい島(左図)と大きな島(右図)があります。
小さい島は「今すぐ使える系」という名前で、大きい島は「準備が必要系」という名前です。
Stable Diffusionには、今すぐ簡単に始められる方法と、準備が必要な方法があります。
Stable Diffusionの始め方マップ
以降では、それぞれの概要やメリットデメリットについて説明していきます。
これらは基本的に無料となっており、URL先に飛べばすぐにプロンプトが入力できる状態になっています。
そのため、OSの利用環境やパソコンのスペックなどを気にする必要がありません。
無料でStablediffusionを使えるWebアプリケーション事例
「Stable Diffusionを利用してみたいけど、設定が難しそう」と感じる方は、まずはこれらのサービスを利用してみることをお勧めします。
ローカル環境での使い方
先ほど説明した事例は、プロバイダーが様々な負担をしてくれていました。しかし、制限も多くあります。
・枚数制限がある
・自由度が低い
・課金要素がある
「準備が必要系」では、プロバイダーが提供してくれている機能を自分のPC上で実行するため、上記のデメリットを克服することが可能です。
その時に使うのが、「Stable Diffusion Web UI」(候補.4)というものです。
これを利用することで、下記のメリットを確保しながらStable Diffusionを扱うことができます。
・無料 / 無制限で画像生成ができる
・拡張性が高い
・GUIによる操作がわかりやすい
・環境構築が基本的に自動で細かい設定が必要ない
・日本語化も可能
以下の図は、Stable Diffusion Web UIを使用するにあたってのマップです。
大枠としてはローカルで実行するかクラウドで実行するかという違いがあります。
【準備が必要系】Stable Diffusion
1.ローカル環境で実行する場合(自身のパソコンまたはプライベートサーバー上でStable Diffusionを直接セットアップし、実行すること)
▶︎ある程度の性能のGPUを備えたパソコンが必要となります。
2.クラウドで実行する場合(AWS、Google Cloud、Microsoft Azureなどが提供する仮想マシン上でStable Diffusionをセットアップし、実行すること)
▶︎高性能なパソコンがない場合でも、無料のクラウドサービスを利用すれば動かせます。
この2つのやり方は、どちらも「Stable Diffusion」を始めるための 準備 が必要であり、ある程度のPCのスペックや、PCの知識などが必要になります。
ここでは、見通しとして、以下の3つのやり方があると覚えておいてください。
- 【今すぐ使える系】:Dream studio / Hugging Face / Mage.space などのWebサービス
- 【準備が必要系】:Stable Diffusion Web UI - ローカル環境
- 【準備が必要系】:Stable Diffusion Web UI - クラウド環境
これらの中から、予算や用途に応じてどの利用方法が最適かを検討していくことをおすすめします。
各利用方法ごとの料金体系については、こちらの記事をご覧ください。
➡️Stable Diffusionの料金は?無料サービスやクラウド料金を徹底比較!
Stable DiffusionのWebサービスの使い方
ここでは、Stable Diffusionが使えるWebサービスの利用方法について解説します。
Dream studio
「Dream studio」は、Stable Diffusion の開発グループである Stability AI社が開発・運営しています。
このサービスは基本無料で利用できますが、出力枚数が一定数を超えると制限が設けられ、利用を続けるためには有料プランへの移行が求められます。
おおよそ125枚までの生成が可能であり、趣味や実験用途には充分な量だと考えられます。
Dream Studioの使い方
- まず、Dream Studionにアクセスします。
初めての人は「サインアップ」、既に登録済みの人は「ログイン」を選択してください。
左上のプロンプトの欄に、英語で好きな文章を入力し、左下の「Dream」を選択すれば、画像が生成されます。
DreamStudio 操作画面
- 画面一番右上のアイコンの横に、「クレジット数」の表示があります。この数値が0になると画像が生成できなくなり、追加料金が必要となります。
また、プロンプト入力欄の下部にあるNegative promptという項目で、「生成して欲しくない要素」を指定することができます。
試しに「personal computer,mac,windows」というワードを入力し、生成された画像からパソコンを消してみましょう。
DreamStudio 出力例.1
- すると、このようにパソコンが消された画像が出力されました。
そして、「Setting」の項目で生成する画像の細かい調整ができます。
ここでは、いくつかの項目を抜粋して、概要を確認していきたいと思います。
DreamStudioのSetting機能
Dream Studionの詳細設定
|アスペクト比の変更
一番上にある「1:1」を操作することで、生成する画像のアスペクト比を変更できます。
左側にするほど横長の比率になり、右側にするほど縦長の比率になります。ただし、比率を変えると、クレジット消費数が多くなります。
|生成する枚数の変更
Image countの数値を上げれば上げるほど、生成される画像の枚数は増えていきます。
生成枚数を増やせば増やすほど、クレジット数を多く消費するので気をつけましょう。
|Prompt strength
この数値を高くすればするほど、プロンプトにを忠実に反映するようになります。
一方で、文章量が多い場合は、クオリティーが下がる場合があるので、基本的には「Auto」がおすすめです。
|Generation steps
画像のサンプリング数を設定できます。サンプリング数とは、簡単に言えば「画像生成までに何回計算を繰り返すかを指定する数値」を指しています。
数が高ければ高いほど、画像が細部に至るまで描画され、クオリティが上がりますが、こちらの設定も、高く設定するほどクレジット消費量が大きくなってしまいます。
Hugging Face
「Hugging Face」は、Hugging Face社が提供する、AIモデルや機械学習の学習用のデータセットが公開されたプラットフォームです。
登録不要で、無料で使用することができます。
Hugging Faceの使い方
-
Stable Diffusion 2.1 Demoにアクセスします。
-
「Enter your prompt」と記載している部分に作りたい画像の元となる文章を入力し、右横の 「Generate image」を選択すると、画像が生成されます。
Hugging face 操作画面
Mage.space
Ollano社が運営する画像生成サービスです。こちらも登録不要かつ無料で使用することができます。
ただし、登録無しで使用できる回数には制限があり、それを超えると無料アカウントを作るように要求されます。
Mage.spaceの特徴は、画像生成する際の細かい条件を直感的に設計できる点や、他のユーザーの作品やプロンプトを見れる点にあります。
Mage.spaceの操作画面
Mage.spaceの使い方
Mage Spaceにアクセスすると、上記の操作画面に遷移します。
さっそくプロンプトを入力してみます。
|プロンプト
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage.
She wears a black leather jacket, a long red dress, and black boots, and carries a black purse.
She wears sunglasses and red lipstick. She walks confidently and casually.
The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Mage.space プロンプトの入力
すると、このような結果になりました。
Mage.space 出力例.1
生成した画像を保存するには、「Enhance」ボタンを選択します。すると、「Upscale + Face Fix」のボタンが出るので、そちらを選択します。
Mage.space 画像の保存方法
画像の下にあるダウンロードボタンをクリックして、ダウンロード完了です。こちらで生成した画像は商用利用できます。
「Enhance」ボタンの下に、「Return」「Remix」「ReImage」など、3つの選択肢がありますが、これらを操作することで出力された画像をさらに加工することができます。
例えば、「Remix」を押してから、プロンプト入力画面で「Cat」と入力すると、女性が猫に置き換わります。
Mage.space Remix機能
また、Mage.spaceは「画像生成に利用するモデル」を変更することもできます。ここでのモデルの変更とは、簡単に言えば、画像のテイストを変えるというニュアンスです。
各モデルごとに、学習している画像の量や内容が異なるため、同じプロンプトを与えても異なる出力結果を返してくれます。
Mage.space 各モデル
無料で使用することができるのは三種類ですが、有料化すれば、「特定のアニメ調で出力することが得意なモデル」を使えたり、「特定の人間の顔を出力することが得意なモデル」などを使用できます。
3種類のモデルに対して、同じプロンプトを与えた結果が以下になります。
Mage.space モデルごとの出力事例
Stable diffusion v1.5は旧型で、Stable diffusion v2.1は新型のモデルで、精度が上がっていることがわかります。
Stable Diffusionの出力精度を上げるポイント
前提として、Stable Diffusionはインターネット上の大量の画像データを学習しており、画像の生成はプロンプトを元にそのデータベースから行われます。人間でいうところの記憶のようなものです。
この時、プロンプトが与える情報の方向性(ベクトル)に対して、最も一致度が高いのはどのような画像かという観点で出力されるようになっています。
情報の方向性(ベクトル)について、「Mage.space」を使って確認していきましょう。
例えば、若者向けサービスの広告用に「男性の画像」が欲しいとします。
試しに 「man」 という 「情報の方向性」 を入力すれば、以下のように出力されます。
男性の画像.1
出力されたのは、マンガ風のタッチで描かれた白髪の白人男性です。
これでは若者向けの広告としては使えそうにありません。何故このような出力結果になったのかは、2つの理由が考えられます。
-
学習の偏り
Stable DiffusionなどのAIモデルは、開発された地域や開発者がアクセスできるデータに基づいて学習されます。
したがって、モデルが学習するデータが海外、特に開発者の国や地域のデータに偏っている場合、その影響がモデルの出力に反映される可能性があります。 -
情報の方向性の曖昧さ
「man」という言葉には、「右を向いている男性」や「男性の全身雑」など、複数の可能性が同時に含まれています。
そのため、「man」という抽象的な情報の方向性だけでは、狙ったポージングや表情、服装などの具体的な画像を出力させることが難しいです。
つまり、コンピューターにとっては、一つの言葉が、人間の思い描く一つのイメージや物体に対応することはありません。
AIにとって、言葉や文章は一定のベクトルとして理解されます。
つまり、「man」という情報は、多くの異なる意味を持つ可能性があり、その結果としてその意味が不明瞭になります。
次に 「Photo of a young Japanese man standing on the side of the road.(若い日本人男性が道端に立っている写真)」 と入力してみます。
男性の画像.2
さきほどより良くなりましたね。
このように、「シンプルに一人の男性の画像を生成する場合」にも、情報の方向性を明確に定義する必要があります。
しかし、なんとなく自信がなさそうで、広告に使うにはまだ十分ではありません。
ここで発想を転換してみましょう。
「Street snapshot of a 20-year-old Japanese male(20歳の日本人男性のストリートスナップ)」 と入力してみます。
先ほどに比べ、おしゃれでイケてる風の男性画像が生成されました。ここでは、プロンプトの内、何が有効に機能したのでしょうか?
それは「ストリートスナップ」という文言です。
「ストリートスナップ」は、ファッション性を目立たせるために、大半の写真が、全身像で、ファッショナブルなことが特徴です。
また、構図や背景が一定のリテラシーの元で構成されています。
つまり、「ストリートスナップ」」という情報の方向性は、再現性が高いのです。
ここでの再現性は、「どのストリートスナップ」をみても、画像の見た目は似ているという意味です。
このように、画像の出力方法の仕組みを何となくでも理解しておけば、望んだ画像を入手しやすくなります。
Stable Diffusionを利用する際の注意点
利用時の注意点は、「今すぐ使える系」 と、「準備が必要系」 のそれぞれのケースで若干異なります。
ここでは、この違いについて、詳細に掘り下げていきます。
「今すぐ使える系」の場合
この場合は、基本的に商用利用が可能です。
Stable Diffusionの公式声明によれば、個人情報や誤った情報を広めるなど、人に危害を与えるようなケースを除き、作った画像を商用利用することが認められています。
ただし例外があり、「画像から画像を生成する場合image to image)」です。AIに入力する画像(素材)が著作物の場合、商用利用はできません。
例えば、「ポケモンのようなキャラクター画像を生成しようとして、ピカチュウの画像を入力した場合」などが当てはまります。
今回の事例だと基本的にテキストで画像を出力させていましたが、「DreamStudio」と「Mage.space」は画像を元に画像を生成すること(image to image)が可能です。
使用する画像の著作権の状況には十分注意しましょう。
「準備が必要系」の場合
この場合は、上記に加えて注意するべきポイントが2つあります。
技術的な側面
Stable Diffusionの力を最大限引き出すには、適切なハードウェアとソフトウェアの設定が要求されます。
スペックの足りないPCで動かそうとしても、難しいでしょう。
商用利用の側面
先ほど、例外の一つとして「image to image」のケースをご紹介しましたが、こちらは二つ目の例外となります。
「手続きが必要なタイプのやり方」でStableDiffusionを利用する場合、モデルを学習させることで、より精度の高い画像を生成できるようになると説明しましたが、この追加モデルのに際して注意が必要になります。
それは追加モデルの中には、商用利用が認められていないケースが存在することです。 モデルによってライセンスは異なるため、使用する際は事前に確認しておきましょう。
【関連記事】
➡️Stable Diffusionの商用利用を解説!モデルやライセンス別の確認方法も
まとめ
本記事では、Stable Diffusionの「始め方パターン」と、それらの具体的な操作方法について説明してきました。
オープンソースであることから、StableDiffusionには様々な始め方があります。
ご自身のパソコンの環境ややりたいことなどと照らし合わせて、最適な使い方をしていきましょう。
また。環境を整え、本格的に画像生成をしていく方は、本記事では紹介しなかった「Stable Diffusion Web UI」を使用することをお勧めします。
こちらの記事で詳しく解説しているので、ぜひご覧ください。