この記事のポイント
- Grokの基本概念と特徴、開発背景を詳しく解説
- 最新版Grok-2の新機能と性能向上について説明
- Grokの画像生成機能「Flux.1」の特徴と使用方法を紹介
- GrokとGPT-4など他のAIモデルとの比較分析
- Grokの実際の使用例と、使用する際の注意点を提示
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
AIの進化が加速する中、イーロン・マスクが設立したxAI社が開発したGrokが注目を集めています。
Grokは単なる対話型AIを超え、リアルタイム情報へのアクセスや画像生成など、多彩な機能を備えています。
本記事では、Grokの基本概念から最新版Grok-2の特徴、そして新たに追加された画像生成機能まで、包括的に解説します。GPT-4など他のAIモデルとの比較や、実際の使用例、注意点なども取り上げ、Grokの可能性と課題を探ります。
AIの最新動向に興味がある方、ビジネスでの活用を検討している方にとって、有益な情報となるでしょう。
Grokとは
Grokとは
Grokは、イーロン・マスクが設立したAI開発企業(xAI)によって開発された対話型AIです。
一般的な対話型AIとしての基本機能に加え、複雑なプロンプト技術やリアルタイム情報を活用する能力を持ち、幅広い用途に対応しています。
特徴は以下の通りです。
特徴 | 説明 |
---|---|
テキスト生成と会話 | Grokはテキストを生成し、ユーザーとの会話を行います。 |
リアルタイム情報 | X(旧Twitter)上の投稿に直接アクセスし、最新の情報を利用可能です。 |
二つのモード | • ユーモアモード: 正確性よりも独創性を重視 • レギュラーモード: より正確な情報を提供 |
料金 | 「Xプレミアム+」加入者のみ利用可能。月額16ドル~ |
最新版Grok-2とは
Grok-2,Grok-2 miniともにxAI社の最新モデルで、2024年8月よりベータ版として公開されました。
Grok-2miniは12月時点で利用できなくなっていますが、 Grok-2は全てのユーザーに公開されています。(2024年12月現在)
ベンチマーク | Grok-1.5 | Grok-2 mini | Grok-2 | GPT-4 Turbo | Claude 3 Opus | Gemini Pro 1.5 | Llama 3 405B | GPT-4o | Claude 3.5 Sonnet |
---|---|---|---|---|---|---|---|---|---|
GPQA(大学院レベルの知識) | 35.9% | 51.0% | 56.0% | 48.0% | 50.4% | 46.2% | 51.1% | 53.6% | 59.6% |
MMLU(広範な知識理解) | 81.3% | 86.2% | 87.5% | 86.5% | 85.7% | 85.9% | 88.6% | 88.7% | 88.3% |
MMLU-Pro(専門知識理解) | 51.0% | 72.0% | 75.5% | 63.7% | 68.5% | 69.0% | 73.3% | 72.6% | 76.1% |
MATH(数学問題解決) | 50.6% | 73.0% | 76.1% | 72.6% | 60.1% | 67.7% | 73.8% | 76.6% | 71.1% |
HumanEval(プログラミング能力) | 74.1% | 85.7% | 88.4% | 87.1% | 84.9% | 71.9% | 89.0% | 90.2% | 92.0% |
MMMU(マルチモーダル理解) | 53.6% | 63.2% | 66.1% | 63.1% | 59.4% | 62.2% | 64.5% | 69.1% | 68.3% |
MathVista(図形やグラフなどの数学的問題解決能力) | 52.8% | 68.1% | 69.0% | 58.1% | 50.5% | 63.9% | - | 63.8% | 67.7% |
DocVQA(ドキュメントに基づいた質問応答能力) | 85.6% | 93.2% | 93.6% | 87.2% | 89.3% | 93.1% | 92.2% | 92.8% | 95.2% |
(参考:Grok-2 Beta Release)
-
画像生成(後ほど詳述)
Grok-2の最も重要な新機能の一つは、画像生成機能です。
ユーザーはX(旧Twitter)プラットフォーム上で、FLUX.1を使用し、Grok-2に画像生成を直接指示することができます。
-
性能向上
上記ベンチマークでClaude 3.5 SonnetやGPT-4-Turboを上回る性能が示されています。
また、Grok-2はリアルタイムのウェブ検索機能を組み込んでいます。
-
特化型バリアント
- Grok-2: フル機能を備えたメインモデル
- Grok-2 mini: より効率的な小型バージョンで、プレミアムユーザー向けに提供。
- Xプラットフォームとの統合
Grok-2およびGrok-2 miniは、Xプラットフォーム上でAI駆動の機能として導入される予定です。
これには、検索機能の改善や投稿の推薦が含まれます。
【2024年12月】無料ユーザもGrokを使用可能に
12月6日頃から「X Premium」に未加入の無料ユーザーでも、Grokを利用できるようになっています。
2024年12月より:無料ユーザもGrokを使用可能に
アプリ内でGrokのアイコン(正方形の枠内に斜めの十字線が描かれた枡のようなアイコン)をクリックし、チャット開始です🙌
無料ユーザーの制限
制限項目 | Xプレミアムユーザー | 無料ユーザー |
---|---|---|
メッセージ送信制限 | 無制限 | 2時間ごとに最大10回まで |
画像生成制限 | 無制限 | 1日3件まで |
無料ユーザーは使用に制限が設けられています。
XプレミアムユーザーはGrokを無制限に利用できる一方で、無料ユーザーには制限が設けられており、メッセージ送信は2時間ごとに最大10回・画像生成は1日3件までとなっています。
【2024年12月】画像生成モデル「Aurora」機能の追加
2024年12月7日より、Grokでは独立した画像生成AIとしてAuroraが実装されました。
BREAKING: You can now use AURORA when generating images with Grok!
— Nima Owji (@nima_owji) December 7, 2024
It's the best image generation model Grok has ever used! pic.twitter.com/EgQ6wOOpHD
Grokのタブを開くとGrok2(beta)とGrok2+Aurora(beta)が表示され、Auroraの使用が選択できます。
Grokの画像生成にはFlux.1が搭載されていますが、FluxとAuroraの関係性は明らかになっていません。(2024年12月現在)
ただ、同プロンプトでの生成結果が大きく異なることから、AuroraモデルはFluxの拡張モデルではないと推測されます。
Auroraモデルの詳細については、今後xAI社側からの公式情報により明らかになるでしょう。
Auroraモデルの特徴・機能
1. 実写画の生成が得意
Auroraモデルは、実写に近いリアルな画像の生成品質において高く評価されています。
特に人物の生成においては、肌の毛穴などの細部までも捉えており、Flux1を上回っています。
Aurora is far more realistic than Flux - it's clear it was trained on some premium photo data from X. That said, Flux has better prompt adherence than Aurora does. pic.twitter.com/prmXAmv2NP
— Dino (@realkdi) December 7, 2024
こちらの投稿ではトランプ氏の生成をFlux.1とAuroraで試した結果が示されています。
2. 著名人や著作権のあるキャラクターを生成可能
先ほどの投稿にもあったように、有名人の生成も可能となっているのがAuroraの特徴です。
ただし、これらはディープフェイクの問題も大きく孕んでおり、今後規制がさらに厳しくなる、と考えられます。
例えば米カリフォルニア州では、選挙前120日前ー60日後の間、選挙に関連するディープフェイクの生成を作成・公開について禁止する法律が施行されています。
参考:California governor signs laws to crack down on election deepfakes created by AI
3. 漢字は書けない
Grokの新しい画像生成AI「Aurora」試してみた。まだ書を書くのは厳しそう。 pic.twitter.com/9219HKfrXn
— Kohei Ogawa | 書道家兼エンジニア (@shisyu_gaku) December 7, 2024
テキストレンダリングに対応している画像生成AIはStable Diffusion,MidJourney,Imagen3,RunwayML等が挙げられますが、どれも日本語を正確にレンダリングするのは難しいです。
Auroraモデルも同様に漢字に近いものは生成できていますが、文章等を挿入するのは俄然厳しいです。
【2024年8月】Flux.1を用いた画像生成機能が追加
Flux.1とは
Flux.1は、Black Forest Labsによって開発された、テキストから画像を生成する最新のAIモデルです。
ローカルに動作するよう設計されており、MLXアーキテクチャを活用しています。
- 高速処理
特に「Schnell」は、2秒以内で高品質な画像を生成する能力を持っており、迅速な結果が求められるビデオ制作やライブなどの場面で特に有用です。
- ローカルでの処理
ローカルでの処理が可能で、プライバシーの保護やオフラインでの使用、低遅延といった利点があります。
- オープンソース
Apache 2.0ライセンスのもとで公開されており、このモデルを基にアプリやツールを自由に開発することが出来ます。
- パフォーマンス性
非常にリアルな画像の生成に長けています。また、高精度なテキスト描画も特徴です。
- モデル選択可
Flux.1には、3つ(Pro、Dev、Schnell)のモデルがあります。
コスト・用途・ニーズにあった選択が可能です。
【関連記事】
FLUX.1とは?使い方や料金、プロンプトを徹底解説!【画像生成AI】 | AI総合研究所
画像生成AI「Flux1」とは何か、モデル一覧から使い方、料金体系までを詳説。活用例や注意点も幅広く紹介し、画像生成に興味のある方向けに情報を提供します。
https://www.ai-souken.com/article/what-is-flux1
Grokへの統合
-
Grok-2でのFlux.1の利用開始
2024年8月のアップデートで、Grok-2にFlux.1が統合されました。
今後Flux.1はGrok-2の一部として使用可能です。それに伴うメリットを以下で解説します。
-
簡単なアクセスと利用
以前はFlux.1を利用するには特定のサイトやプラットフォームを通じてアクセスする必要がありました。
Grok-2に統合されたことで、ユーザーはGrokのインターフェースから直接Flux.1を利用できるようになりました。
-
多機能なAIツールとしての進化
Grok-2との統合により、Grokは対話型AIだけでなく、画像生成もできる多機能なツールへと進化しました。
ユーザーはテキストによる対話と画像生成の両方をスムーズに利用できるようになり、クリエイティブなプロジェクトでより豊かな表現が可能になりました。
-
プライバシーと安全性の向上
ローカル処理の特徴を活かし、ユーザーのデータが外部サーバーに送信されることなく、デバイス内で全ての処理が行われます。
Grokの画像生成機能の使い方
飛行機雲でAIsoukenを作成
それでは早速Grokを用いて画像を作成していく手順を解説していきます。
【Grok上でのFlux.1の主な仕様】
モデルの種類: 正確なモデルは明記されていないが、FLUX.1 Proである可能性が高い
画像解像度:1024x768でJPG形式
生成回数: プレミアムプランでは2時間あたり20回まで生成可能。
Xプレミアム+ではさらに多い可能性。
プロンプトの長さ:英字で500文字まで。
日本語利用:プロンプトには使用可能。ただし生成画像内で日本語は生成されない。
操作手順とインターフェース
- X PremiumおよびPremium+に加入しているアカウントを用意し、Grokを開く
X PremiumおよびPremium+に加入しているアカウントを用意し、Grokを開く
- Ask anythingにプロンプトを入力
【例】
airplane writing 'AI souken' in the sky with contrails, text formed by fluffy, cloud-like letters, airplane visible creating the text, 'Link X Japan' written on the airplane's body'
(飛行機雲で空に「AI souken」,ふわふわの雲のような文字,飛行機の胴体に「Link X Japan」)
- 結果の確認
Web版の場合画像を右クリックで画像の保存ができます。 アプリ版は画像長押しです。
Grok(Flux.1) vs Midjourney
Flux.1とその他画像生成AIモデルの比較
出典:Black Forest Labs
ここではGrok(Flux.1)とMidjourneyの比較結果について紹介します。
- プロンプトへの対応(Promot Following)
Flux.1は、プロンプトに従って画像を生成する能力が高く、特にプロンプトの複雑な指示にも一貫して適応できる点で優れています。
- 視覚的品質(Visual Quality)
画像の視覚的な質においても、Flux.1は非常に高い評価を受けています。生成された画像のリアルさや細部の表現力が際立っています。
- 出力の多様性(Output Diversity)
Flux.1は、生成できる画像のバリエーションが豊富であり、様々なスタイルや内容に柔軟に対応できます。
- サイズ/アスペクトの多様性(Size/Aspect Variability)
画像のサイズやアスペクト比に関しても、Flux.1は高い柔軟性を持ち、ユーザーの要求に合わせた多様な出力が可能です。
- 文字の生成(Typography)
画像内にテキストを正確に描写する能力においても、Flux.1はMidjourneyを上回っています。
ここまで見ると、Flux.1の方が圧倒的に良いように思われてしまうかもしれませんが、Midjourneyの方が優れている点があります。
同じプロンプトで比べてみましょう。
Watercolor painting of a flower garden, with a mother and daughter holding hands in the distance, perspective view, in an impressionist style.
水彩画,花の庭園、遠くで手を繋ぐ少女と母親、印象派
【Midjouney】
Midjouneyで生成した水彩画
【Grok(flux.1)】
Midjouneyで生成した水彩画
上記の画像からも分かるように、Midjourneyは柔らかい色彩の使い方や繊細なタッチで、水彩画のような質感を再現するのに非常に優れています。
特に、水彩画や印象派のような繊細な表現が求められる場合に、その強みが際立ちます。
このような芸術性を必要とする場合は、Midjourneyは理想的なツールです。
結論、FLUX.1はリアルな表現や正確な描写が重要な時に適しています。
例えば、高解像度の画像が求められるビジネスシーンや、テキストを含む正確な表現が必要な場面で効果的です。
Midjourneyは芸術的かつクリエイティビティーが求められる際に依然として最適な選択肢となっています。
どちらを選ぶかは用途次第となるのでので、以下の解説をふまえ、ご自身のニーズにあった選択をおすすめします。
【関連記事】
Midjourney(ミッドジャーニー)の始め方と使い方、プロンプトのコツを解説!
Grok(Flux.1)の使用例
- Gen-3で動画化
これもXのGrok 2(FLUX.1)で生成した画像をGen-3で動画にしたやつ。Unlimited Planなのでいくらでも生成できるw
— Koya Matsuo (@mazzo) August 14, 2024
XのチャットAI新バージョン「Grok 2 mini(beta)」の画像生成(実はFLUX.1)を使ってみた(CloseBox) @TechnoEdgeJP https://t.co/MNUOBioODE pic.twitter.com/UkPthTjbYn
- 絞りの調整
ボケ感のテスト pic.twitter.com/g8JiZJxcsl
— tanu (@tanukiponkich) August 20, 2024
- インテリアデザイン
Create a futuristic interior design for a home living room, minimal, cozy, neat and clean, metal and wood aesthetics pic.twitter.com/WOiFww7wJ9
— AZIZ | AI ART (@aziz4ai) August 15, 2024
- 美術×画像生成
Some newly found museum pieces…#aiart #aiartistcommunity #aiartwork #midjourney #midjourneyart #grok #grok2 #flux pic.twitter.com/IldatbYZVp
— bm63.ai (@bm63_ai) August 20, 2024
- LumaAIで動画化
#Grok x #lumalabs v1.5 Dream Machine
— outer8 (@outer8art) August 20, 2024
🤖👋#GROK2 #lumalabs #grokimages #luma #grokai #LumaDreamMachine #Grok2mini #GROK2AI #adobe #lumaai #Flux #aftereffects #FluxAI #LumaDreamMachine #LumaAI #aianimation #artificialintelligence #TechRevolution #AI #GenerativeAI #AImodel… pic.twitter.com/Hpq1a0jN2J
Grok(Flux.1)を使用する際の注意点
-
著作権と倫理的な使用
著作権を侵害する可能性のあるコンテンツや、不快な内容を生成しないよう注意し、倫理的なガイドラインに従って使用しましょう。
-
商用利用の適合性
画像をビジネスで使用する場合、商業利用が許可されたFLUX.1のバージョン(FLUX.1 [pro] と FLUX.1 [schnell])を使用していることを確認してください。
モデル | 商用利用 | 特徴 |
---|---|---|
FLUX.1 [pro] | ○ | 最高の性能を提供。APIを通じてアクセス可能。企業向けカスタマイズソリューションも提供。 |
FLUX.1 [dev] | × | 非商用利用。商用利用希望の場合はBlack Forest Labsに連絡で対応可能。 |
FLUX.1 [schnell] | ○ | Apache 2.0ライセンスで提供。ローカルでの開発や個人利用に最適。 |
- プライバシーとセキュリティ
プロンプトに個人情報や機密情報を含めないようにして、プライバシーとセキュリティを保護してください。
- 日本語生成
プロンプトに日本語は使用できますが、画像生成では日本語テキストの出力はできません。
まとめ
この記事では、Grokの画像生成機能について詳しくご紹介しました。
2024年8月のアップデートにより、XプレミアムユーザーはGrokで画像生成を利用できるようになり、そこで活躍しているのがFlux.1というAI画像生成モデルです。
Grokの画像生成は、使いやすく、高精度な結果が得られるのが特徴です。
興味のある方はぜひ試してみてください。この解説が、Grokでの画像生成に関心をお持ちの方の参考になれば幸いです。