この記事のポイント
- この記事は、MITとGoogle Researchが開発した「Alchemist」という画像編集技術について紹介しています。
- 「Alchemist」は、画像内物体の材質特性を連続的に操作できる画期的なモデルです。
- 適用範囲はビデオゲーム、AIビジュアルエフェクトの拡張、ロボットトレーニングデータなど多岐にわたります。
- 研究者はAlchemistを用いて、3Dアセットの改善や材質特性の推定などの分野でも応用を目指しています。
- 今のところ、照明の推測や物理的に不可能な特性の生成が課題となっていますが、今後の展望に期待されています。
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
MITのCSAILとGoogle Researchが共同で、画像内の物体の材質特性を自在に変更可能な新技術「Alchemist」を開発しました。
本記事では、物体の「粗さ」「金属性」「アルベド(元の基本色)」「透明度」という特性を連続的に操作できるこの革新的技術に関して説明しており、ビデオゲームのモデル改善やAIビジュアルエフェクトの拡張など様々な応用が期待されます。
さらに、Alchemistがどのようにして既存のシステムを超越する成果を出しているのか、そして現在の制限と今後の展望についても触れています。
高度な編集能力とフォトリアリズムを可能にするこの技術は、今後の画像合成とAIの発展に大きく貢献するでしょう。
画像内の物体の材質を変更する新技術「Alchemist」
MITのCSAIL(コンピュータ科学と人工知能の研究所)とGoogle Researchが協力して、画像内の物体の材質特性を変更する新技術「Alchemist」を開発しました。
この技術では、物体の「粗さ」「金属性」「アルベド(元の基本色)」「透明度」といった4つの特性を変更できます。
ユーザーは、実際の写真やAIが生成した画像を入力し、スライダーを使ってこれらの特性を連続的なスケールで調整することによって、新しいビジュアルを作り出すことができます。
ビデオゲームのモデル改善、AIのビジュアルエフェクト拡張、ロボットトレーニングデータの豊かな提供など多方面での応用が期待されています。
Alchemistの特徴と利点
Alchemistの背後にある技術は、デノイジング拡散モデルです。
研究者たちは、フォトリアリズムと編集能力に優れた「Stable Diffusion 1.5」というテキストから画像を生成するモデルを使用しました。
Alchemistはこのモデルを応用し、オブジェクトの深度変更やオブジェクトのスワップといった高次の変更ではなく、材質の細かなディテールに焦点を当てています。
これにより、スライダーベースのインターフェイスを介して材質特性を直感的に調整することが可能になり、従来のシステムよりも優れた成果を出しています。
Photoshopのようなプログラムも似たような機能を持っていますが、Alchemistはより直接的な方法で材質特性を変更することができます。
今後の展望と現在の制限
Alchemistは現在、照明を正確に推測するのに苦労しており、ユーザーの入力に完全に従うことができない場合があります。
時には物理的に不可能な透明度を生成することもありますが、この技術は、画像合成において生成AIを一歩前進させています。
研究者たちは、Alchemistが3Dアセットの改善や材質特性の推定といった分野で今後どのように応用できるかをさらに探求したいと考えています。
この研究は、NSFの助成金とGoogleやAmazonからの贈り物によって部分的にサポートされており、CVPRカンファレンスで注目される予定です。
物体の視覚的特性と機械的特性のリンクを解明するための一助となる可能性があります。
出典:MIT