この記事のポイント
この記事は、マイクロソフトが開発した混合現実システム「SIGMA」について説明しています。
SIGMAは、複雑な物理タスク支援を目的としたオープンソースの研究プラットフォームです。
研究者たちはSIGMAを使用して、人工知能の物理的・社会的知能に関する調査を行うことができます。
このシステムは商用ではなく、探索的な研究のために設計されており、倫理的な使用を重視しています。
![](https://aisouken.blob.core.windows.net/background/FacePhoto/FacePhoto-1.webp)
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
最先端の複合現実技術が、いかにして私たちの物理的な作業をサポートするかに焦点を当て、マイクロソフトが開発を進めている「SIGMA」の開発の背景や研究への取り組み、そしてそのシステムの特長について解説します。
専門家が隣にいるかのようなサポートで作業効率を高めるこのオープンソースの研究プラットフォームは、AIによる物理的・社会的な知能の研究において、新しい可能性を切り開くものです。
本記事では、SIGMAがどのようにして複雑なタスクの実行をサポートし、研究者にとって有用なツールになり得るのかをご紹介します。
SIGMA:物理タスク支援の研究プラットフォーム
2024年4月29日に公開されたSIGMAは、物理的なタスクを行う際に専門家が隣でアドバイスをしてくれるような体験を提供する、**混合現実(Mixed Reality)**を利用したオープンソースの研究プラットフォームです。
自転車の組み立てや水道修理、リゾットの初挑戦など複雑な物理的タスクを実行する際に、スキルに合わせた指示をタイミング良く提供し、ユーザーが遭遇するかもしれないミスや混乱、気晴らしにも適応します。
SIGMAは、「実世界でのタスクを支援するために必要な能力を、理解し発展させるための基盤」を研究者に提供します。物理的・社会的な知能を持ち合わせ、人々との協調をスムーズに行います。
人工知能の物理的・社会的知能
物理的な世界で人々と流動的に協力するためには、AIシステムは周囲の環境について、マルチモーダルで連続的に認識し、推論する能力が求められます。
これには単に物体を検出し追跡するだけではなく、タスクに関連する物体、それらの可能性のある用途、相互関係、空間的制約、そしてそれらが時間とともにどのように進化するかを理解することが含まれます。
SIGMAの使用例
また、物理的環境について推論するのと同じくらい重要なのが、人々についての推論です。
これには体のポーズや発話、行動に関する低レベルの推論だけでなく、認知状態やリアルタイムでの協働行動など、社会規範についての高レベルの推論も含まれます。
SIGMAの機能と研究目的
SIGMAは、HoloLens 2デバイス上で動作するインタラクティブなアプリケーションで、プロシージャルタスクを通じてユーザーをガイドするために様々な複合現実とAI技術を組み合わせています。
タスクは一連のステップとして構成され、事前に定義されたものやGPT-4のような大規模言語モデルを使用して、その場で生成されるものがあります。
SIGMAは、研究プラットフォームとして設計されており、他の研究者が基本的なエンジニアリングの課題を飛び越え、興味深い研究課題に直接取り組むのを支援することを目標としています。
複合現実とAIの研究課題を発見し、探求するための重要な出発点を提供します。
MicrosoftのSIGMAに対する取り組み
MicrosoftはSIGMAを通じて複合現実とAI技術の新しい可能性を探求しています。
企業向けには、Dynamics 365 Guidesというフロントラインの作業員向けの複合現実ソリューションを提供しており、作業中に手順のガイダンスと関連情報を提供します。
しかしながら、SIGMAは探索的な研究目的のためのオープンソースのテストベッドであり、商用アプリケーション開発には使用されません。
研究者はSIGMAの利用にあたって、そのシステムと限界、リスクを理解し、ユーザースタディの文脈での使用に伴うリスクを考慮し、適切な機関での倫理委員会のレビューを受けることが推奨されます。
出典:Microsoft