AI総合研究所

SHARE

X(twiiter)にポストFacebookに投稿はてなブックマークに登録URLをコピー

【動画生成AI】OpenAI Soraとは?主要機能や使い方、料金体系を解説!

この記事のポイント

  • Soraはテキスト入力から高品質動画を生成できるOpenAIの最新AI
  • 物理世界のシミュレーションを目指し、リアルな動画生成や映像の結合が可能
  • Text-to-Video、Image-to-Video、Video-to-Videoなど多様な入力方式に対応
  • 高度な物理シミュレーションや世界認識能力を持ち、AGI実現への重要な一歩
  • 新たな編集機能も多数追加され、より実用的なAIになった

監修者プロフィール

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

OpenAIから「Sora」という革新的な動画生成AIが公式に発表されました。

OpenAIから発表されたこの革新的な動画生成AIは、テキストの入力だけで写実的かつハイクオリティな動画を生成可能です。
絵画のような画像からシミュレーションゲーム風の映像まで、Soraは数行の文章に基づいて瞬時に映像を作り出し、世界中の生成AI関係者を驚かせています。

本記事では、「Sora」とは何か、その驚くべき機能と実用化に向けた課題について、詳細にわたり解説していきます。

「画像・動画生成を企業で活用したいけど、具体的な方法がわからない」とお悩みではありませんか?
AI総合研究所なら、企業の画像動画生成環境のご提供、企業活用を一気通貫で支援いたします。
画像動画生成の企業活用事例を見てみる

Sora(OpenAI Sora)とは

2024年12月に「OpenAI」から正式に動画生成AIの「Sora」が公開されました。
Soraの一般公開は多くの注目を集めています。本記事ではSoraの性能の高さ、編集機能の多様化、使いやすさを多用な事例とともにご紹介いたします。

Sora_IMG.2
Soraのイメージ

画像動画生成の企業導入、自社モデルの作成のご相談はAI総合研究所にお気軽にご相談ください。

画像生成研修

Soraの衝撃

ここでは、OpenAIが出している公式のレポートの冒頭を見てみましょう。
文末の「Our results...」に注目です。

Sora_TechReport.1
Sora TechReport (参考:OpenAI)

「我々の結果は、ビデオ生成モデルのスケーリングが、物理世界の汎用シミュレータを構築するための有望な道であることを示唆している。」


つまり、「物理世界をシミュレーション」 するのだと公言しています。
冒頭では映画やゲーム画面ような動画を作れると記載しましたが、OpenAIが見据えているビジョンはもっと先にあるようです。

例えば、NVIDIAの研究者・科学者であり、OpenAIの元社員のジム・ファン氏の「Sora」に向けられたコメントを見てみます。

もし、Soraが、今までの画像生成AIのような、おもしろい画像や綺麗な動画出すだけのオモチャと思ってるなら、考え直してほしい。
Soraはデータ駆動型の物理エンジンです。それは多くの世界、現実のものや空想上のもののシミュレーションです。

引用した部分は、約1500文字ある内容の内、冒頭の300文字だけですが、「Sora」が単なる「コンテンツ作成ツール」に止まらない可能性を秘めていることがわかります。


Sora(OpenAI Sora)の主軸技術

「Sora」は、既存の技術を組み合わせて構成されています。
有識者によると、特段新しい技術を使っているわけではなく、計算量とデータ量を上げていった結果、このようなクオリティの映像が生み出されたようです。

OpenAIの公式レポートでは以下の様に説明されています。

大規模にトレーニングすると、多くの興味深い創発的な機能を示すことがわかりました。
これらの機能により、Sora は物理世界から人、動物、環境の一部の側面をシミュレートできます。
これらの特性は、3D、オブジェクトなどに対する明示的な誘導バイアスなしで出現します。これらは純粋にスケールの現象です。

Sora_TechReport.2

Soraの主軸の技術は以下の3つです。


1.動画データを潜在空間に圧縮した後、Transformerがトークンとして利用できる「時空潜在パッチ」に変換する技術

2.Transoformerベースのビデオ拡散モデル

3.DALLE3を用いた高精度なビデオキャプショニングによるデータセット作成


Sora(OpenAI Sora)の主要機能

12月の一般公開に伴い発表された機能については、【2024年12月】一般公開に伴い公開された新機能・改善点をご覧ください

動画同士をシームレスに結合

ここに、2つのシーンがあります。
一方には、古代遺跡の上空をドローンが滑空する様子がうつされています。

Sora_IMG.3

他方では、蝶々が海中を優雅に飛び回っています。

Sora_IMG.4

すでに、どちらの映像も物理法則の支配するこの世界では、「ありえない」様子が映されています。
この二つの動画を「Sora」に与えれば、一つの動画として結合してくれるようです。

さて、この二つのカオスに対して、どのような一つの秩序を与えることができるのでしょうか。
結合した動画がこちらになります。


代遺跡を探索するかのように舞っていた「ドローン」は、一瞬にして「蝶々」に生成変化してしまいました。
そして、遺跡の奥深くへと、カメラのアングルが変化した瞬間、もう既にそこには海中が広がっています。

このシームレスさ。この驚き。
違和感がなさすぎて、いつ海中に変化したのかがよくわかりませんでした。

被写体やシーンの構図が全く異なる二つの映像に、シームレスなトランジションを与えてしまう技術には驚きを隠せません。

➡️Blend機能

動画の展開を自在に生成

Sora_Case.2

また、ある動画に対して、その「前後の映像」を違和感なく作成することが可能です。

例えば、以下の動画をご覧ください。

これらの3つの動画は、すべて異なる始まり方をしていますが、終わり方はどれも同じです。

つまり、ここでは「最後の終わる部分の動画」がまずあり、そこに至るまでの映像を「Sora」が作っています。
現時点では違和感のある繋ぎ方になっていますが、ワンクリック程度の操作で作ってくれるのはすごいです。

映像の作り方が根本から変わりそうな予感がしますね。
また、この方法を活用して動画の前後両方を拡張し、ループ動画も作ることが可能です。

➡️Re-cut機能
➡️Loop機能

デジタル世界のシミュレート

シミュレーション(ゲーム空間)のシミュレーションも軽々やってのけるのが「Sora」です。
その一例として、ゲーム「Minecraft」のシミュレートが紹介されています。

ここでは、ただデジタル空間が再現されているだけではありません。FPS(一人称視点)まで、ほとんど完璧と言っていい水準で再現されています。

先ほどの2つの事例は、「Sora」に動画をアップロードしていましたが、この事例はテキスト入力のみです。
ゲーム「Minecraft」についてのプロンプトを入力すれば、このような動画が瞬時に生成されるようです。

Video to Videoの応用

動画同士を繋げる技術を使って、先ほど紹介したMinecraftのゲーム画面と、実写のオートバイの映像を繋げることもできます。

Minecraftの低解像度の森林が開け、写実風な世界へと変化していきます。

「低解像度なデジタル風」と「写実風」という異なるものの間に、ザラザラしたCGの表面が入ることで、見事にシームレスにつながっています。

そして、実写オートバイの映像は、Minecraftの一人称視点として翻訳されています。
そろそろ、顎が外れそうです。


Soraへのログイン方法

  1. Soraは、以下のURLにアクセスすることで利用可能です。(アカウントが必要です)
    ➡️Sora

  2. 登録しているアカウント情報でログインすると
    ユーザーネームを入力します。

ユーザーネームの入力欄
ユーザーネームの入力欄

  1. これでSoraの利用が開始できます。

Soraの開始画面
Soraの開始画面


Soraの使い方

ログインを行ったら、早速動画の生成に移行したいところですが、
右上にある設定の画面をチェックすることをお勧めします。

設定画面の確認
設定画面の確認

こちらには、生成したものを学習するかどうか、生成物を公開するかどうかの選択が可能です。
開始時はどちらも「オン」の設定になっていますので、
公開したくない場合、学習データとして使われたくない場合には「オフ」にした後に使用することをお勧めします。

生成物の設定画面
生成物の設定画面

また、現在の使用状況、プランの確認をしたい場合には、設定のMy planから確認できます。

使用状況の確認
使用状況の確認


では早速実際に生成していきましょう。

生成の方法は大きく2つでプロンプト(テキスト)のみで動画生成をする方法と、
画像を添付してその添付画像を元に生成する方法があります。

テキストから動画生成(Text to Video)

今回はまずプロンプトに入力をしてみます。

  1. 「砂糖とコーヒーがワルツを踊る」と入力してみました。日本語の入力も可能ですが動画生成は英語で入力する方が精度が良いことが多いので翻訳した後に入れることをお勧めします。
    プロンプトの入力画像
    プロンプトの入力画像

  2. すると以下の画像ように生成されました。動画の一部の画像ですがコーヒーが非常にリアルに描写されました。
    2種類の動画が生成されて選べるのも良いですね。この生成数も調整することが可能です。

実際の生成画像
実際の生成画像

  1. 今回は人間のように踊って欲しかったので人間を模擬して踊って欲しいことをプロンプトに追加しました。生成結果は以下のとおりです。

https://www.youtube.com/watch?v=cgP58pjLyfU


本当に踊ってくれていますね!

画像からの動画生成(Image to Video)

次に画像から生成してみます。

  1. このように可愛い犬の画像を入れました。
    犬の画像
    犬の画像

  2. 画像をもとにプロンプトが自動生成されます。このプロンプトもStoryboardで自由に編集することが可能です。
    Storyboardを利用した編集
    Storyboardを利用した編集

  3. 実際の生成物は以下のとおりです。

https://youtu.be/dKuNiK3mP_c

非常に可愛いですね。

画像動画生成の企業導入、自社モデルの作成のご相談はAI総合研究所にお気軽にご相談ください。
画像生成研修


Soraの一般公開に伴い公開された新機能・改善点

2024年2月の発表から約10ヶ月、OpenAIはついにSoraを一般ユーザー向けに公開しました。
この一般公開版では、映像生成エンジンの大幅な強化と、多彩なクリエイティブツールを統合する新しいユーザーインターフェースが登場し、単なる「テキストから動画生成」を超えた包括的な制作環境として進化しています。

【Sora Turbo】動画生成スピードと品質の向上

従来のプレビュー版で議論されていた生成品質や処理速度の制約は、今回の「Sora Turbo」で大きく緩和されました。

Sora Turboは、高度な並列処理と最新のモデル最適化技術を組み合わせ、

  • 最大1080p解像度:高精細な映像品質で、プロフェッショナルな映像演出が可能
  • 最大20秒の生成長:よりストーリー性のあるシーン構築に対応
  • 自由なアスペクト比選択:ワイドスクリーン、縦長、正方形など、配信先メディアやデバイスに最適化した映像フォーマットを生成可能


これらの機能向上により、クリエイターはより本格的なビジュアルコンテンツを短時間で生み出せるようになり、広告制作、ソーシャルメディアでのビジュアルキャンペーン、学習教材など、幅広い領域での応用が期待されます。

【新UI・操作性強化:「Remix」・「Re-cut」・「Storyboard」「Loop」・「Blend」機能

一般公開版では、Sora専用インターフェースが大幅に刷新され、テキストだけでなく、画像・動画といった異なるメディアを自在に組み合わせてプロンプトを構築できるようになりました。
主な新機能は以下のとおりです。

Remix機能

既存の生成映像内の要素(背景、被写体、オブジェクト)を即座に差し替えることが可能。
これにより、細かな修正やイメージの差し替えを繰り返し行えるため、クリエイティブな試行錯誤が容易になります。

https://youtu.be/tC2ZELc4bOA?si=G158_GgeaCVan8Bl

Re-cut機能

狙ったフレームを基点に、その前後へ映像シーンを拡張可能。
シーンの流れを後から調整できるため、動画の物語性やテンポを柔軟に再設計できます。

https://youtu.be/jC0i_0wnly8?si=jC5JAd1pd5Cogjuf

Storyboard

各フレーム単位で詳細なプロンプト指示を与えることで、ユーザーは映像全体の構成を精密にコントロール可能。
フレームごとに演出意図や構図を調整することで、映像制作プロセスがより計画的・戦略的なものへと進化します。

https://youtu.be/6PXWAvUG8Sg?si=m8Cy53gu9NtYVxJZ

Loop機能

フレームを前後に延長してシームレスな繰り返し動画を作成可能。
特定のシーンや動きをループさせることで、動画の連続性やリズム感を高めることができます。

https://youtu.be/7BVx1PNfIRk?si=mfRNd5f1SdveaSad

Blend機能

2つのビデオを1つのシームレスなクリップに結合。
異なるシーンやスタイルを自然に融合させ、一貫性のある映像ストーリーを構築します。

https://youtu.be/OXapuT2iVqM?si=bLzXQ9IdYU9eHUmg


これらの新機能群によって、Soraでの動画制作は「一度の生成で完結する」単発作業から、継続的な微調整や改善を伴う発展的なクリエイティブプロセスへと変化しました。
結果として、専門的な動画編集スキルがないユーザーでも、発想力次第で高度なコンテンツを生み出すことが可能となり、映像制作の敷居が大きく下がっています。

AI_Marketerバナー


Sora(OpenAI Sora)の機能の特徴

Soraには多くの動画生成のための生成機能・編集機能が追加されました。
以下にわかりやすくご紹介いたします。

Text-To-Video

そもそも、「Sora」は、対話型AIと呼ばれるものの一種です。

そのため、文章や言葉をAIに渡し、それに応じて動画を出力してくれるといったラリー風に進んでいきます。
そこで渡す文章や言葉のことを、一般的に、「プロンプト」と呼ぶことになっています。

プロンプトとは、動画についての説明文のことです。具体例を見ていきます。


例えばこの動画の「プロンプト」は、以下のようになります。

 赤いウールのニット、バイク、ヘルメットをかぶった 30 歳の宇宙飛行士の冒険を特集した映画予告編。
 青い空、塩の砂漠、映画のようなスタイル、35 mm フィルムで撮影、鮮やかな色。


テキストから画像や動画を生成する技術は今までにもありました。
しかし、今までのどの技術よりも、クオリティが高く、5-20秒の映像を出力できます。

また、ユーザーが入力する情報(プロンプト)を詳細に補完する技術(GPT)も搭載されているようです。

これによって、ユーザーのプロンプトに正確に従う高品質のビデオを生成できるようになるようです。
もちろん、動画に限らず、画像も生成することができます。

OpenAI.img

この画像のプロンプトは、以下のようになります。

リンゴの木の下にいる若いトラのデジタル アート。豪華なディテールを備えたマット ペイント スタイルで描かれています。

Image-to-Video・Video-to-Video

Soraはテキスト入力に限りません。画像、動画、音声など、様々な方法で情報を受け取ることができます。

先ほどの「Case.1」と「Case.2」は、まさに「入力された動画」を元に「新しい動画」を生成していました。

また、テキストと画像や動画を組み合わせることも可能なようです。

例えば、下の画像と、テキストを渡すだけで、静止画でしかなかった画像が動画へと生まれ変わります。
Sora img

「華麗で歴史的なホールで、大規模な津波がピークに達し、砕け始めます。2 人のサーファーがその瞬間を捉え、巧みに波面を移動します。」


Sora(OpenAI Sora)の料金体系

Soraは、ChatGPT Plus もしくは ChatGPT Pro プランに加入することで利用可能です。
以下は、各プランにおけるSora関連の料金・機能をまとめたものです。

プラン名 月額料金 優先動画生成本数(クレジット) 動画最大解像度 動画最大長さ 同時生成数 ウォーターマーク除去
ChatGPT Plus $20.00/月 50本 (1,000クレジット) 最大720p 最大5秒 1本 なし
ChatGPT Pro $200.00/月 500本 (10,000クレジット)+無制限のリラックス動画 最大1080p 最大20秒 5本まで同時生成可能 ダウンロード時のウォーターマークなし


ChatGPT Plusプランでは、ビデオ生成機能を追加し、720p・5秒といった短尺かつ手軽な映像制作が可能です。

ChatGPT Plusプランでは、ビデオ生成機能が手軽に利用でき、比較的短尺で基本的な品質の映像を素早く生成できます。
一方、ChatGPT Proプランでは、より多くのクレジット、長尺・高解像度の映像、複数同時生成、ウォーターマーク無しでのダウンロード など、ビジネスや本格的な制作環境でも活用できる高度な機能が揃っています。

同時生成の様子
同時生成の様子

Soraの商用利用について

2024年12月現在、Soraは正式リリース直後の段階であり、Sora固有の商用利用ガイドラインや規約が公式に明記されていません
しかし、OpenAIが提供する他の生成AIサービス(たとえばChatGPTやDALL·E)の利用規約を見る限り、ユーザーは生成物(テキスト、画像)に対する権利を保持し、商用を含む幅広い活用が可能となっています。

そのため、Soraが同一規約下でサービス提供される場合(現時点でSora固有の規約が提示されていないため予測になりますが)、Soraによる生成物(動画)に関しても同様の商用利用が可能になると考えられます。

現行の利用規約中で商用利用について明確に言及している箇所は「本コンテンツの所有権限」という項目です。
該当部分(抜粋)は以下のような内容です。

お客様とOpenAIの間において、適用法令で認められる範囲で、お客様は、(a)インプットの所有権限は保持し、(b)アウトプットについての権利を有するものとします。当社はアウトプットに関する権利、権原、及び利益がある場合、これらすべての権限をお客様に譲渡します。


この規定は、ユーザーが生成物(アウトプット)に関する権利を取得し、OpenAIがそれをユーザーに譲渡することを明示しています。
つまり、現行規約では「アウトプットの商用利用」を制限する明確な文言はなく、むしろユーザーがアウトプットを用いて事業活動や営利目的で利用する権利が担保されていると解釈できます。

また、他者の権利侵害や法令違反となる利用は禁じられていますので、商用利用の際は第三者の知的財産権や肖像権など、法的・倫理的観点も遵守する必要があります。


OpenAI Sora実際の導入事例

ついに一般公開されたSoraですが、アメリカでは企業における利用ケースが報告されています。

トイザらスの事例(ToysRus)

https://www.youtube.com/watch?v=F_WfIzYGlg4

タイトルイメージ:「夢をかなえる物語:トイザらスとキリンのジェフリーの誕生を見る」

トイザらスの創業者であるチャールズ・ラザルスが、1930年代初頭にトイザらスの象徴的なブランドかつ愛すべきマスコットである
「キリンのジェフリー」に抱いた夢を、若き日のチャールズ・ラザルスとして創り上げたときの興奮をイメージして制作されているようです。

SoraだけでなくVFXも組み合わされて制作されているとのことです。音楽や音声とも組み合わさりなんとも素敵な印象を受けますね。

CMコマの一部
CMコマの一部

SNSでの生成の事例10選

  • 歴史的な場面のフェイク動画

  • 勇者とドラゴンの戦闘シーン

  • Blend機能の活用

  • ゴールデンレトリーバのサーフィン動画

  • アリの巣の中を進む視点映像

  • 目をアップした動画

  • アニメの生成

Soraと他の動画生成サービスとの比較

  • Sora vs kling

  • Sora vs Runway Gen3 alpha

  • Sora、Runway、Kling、Hailuo


Soraの動画生成AIにおける安全性・透明性への新アプローチ

Soraの一般公開にあたり、OpenAIは映像生成技術がもたらす社会的影響やリスクにも積極的に向き合っています。

2024年2月のプレビュー時から指摘されていた安全性・透明性の課題に対し、今回の一般公開では一連の新対策が打ち出されました。

C2PAメタデータと透過的なコンテンツ管理

Soraで生成された動画にはC2PAメタデータが自動的に付与され、コンテンツの出所特定や真正性の検証が可能になります。C2PA(Coalition for Content Provenance and Authenticity)の技術を活用することで、ディープフェイクや偽情報を拡散しにくい生態系を目指しています。

加えて、初期出力時にはウォーターマークが挿入され、Proプラン以外でのダウンロード時は常時ウォーターマーク付きとなるなど、SNS拡散や二次利用時にも「Sora由来」であることが直ちに判別できる仕組みが整っています。

厳格な有害コンテンツ対策と将来のエコシステム構築

児童性的虐待コンテンツや悪意ある深度映像(性的ディープフェイク)など、特に社会的被害を生む映像生成は厳しく規制され、生成前にブロックされます。このほか、人物アップロード機能の提供対象を限定し、より厳格な管理下でテストを行うなど、段階的かつ慎重な展開を行っています。

OpenAIは将来、NGOや研究機関との連携を深め、C2PAメタデータによるコンテンツの真正性検証エコシステムを強化すると明言しています。
これにより、動画生成技術の高度化が進む中でも、社会的合意形成やルール策定に基づく「責任ある使用」が促進されることが期待されます。

地理的・年齢的制限と今後の展望

一般公開段階では、Soraは英国、スイス、欧州経済地域(EEA)を除くChatGPT利用可能地域で利用可能となっています。
一方で、18歳未満のユーザーはアクセスできない仕組みが導入され、未成年者利用に関する倫理的・法的課題への対応が示唆されています。

OpenAIは今後数カ月以内にさらなる地域拡大に向けて調整を進めており、将来的には世界中で誰もがSoraの先端映像生成を楽しめる環境が整う可能性が高まっています。

AI駆動開発


まとめ

本記事では、OpenAIの動画生成AI「Sora」について、その基本的な概要から2024年12月の一般公開時点で追加・改善された機能、安全性・透明性確保への取り組み、料金体系、商用利用の可能性、さらにはSoraが描く未来像までを詳しく解説してきました。

Soraは、わずかなテキスト記述でリアルな映像世界を創出できる革新的技術であり、当初のテクニカルプレビュー時よりも、処理速度や品質、UIの操作性、安全・透明性対策が大幅に強化されています。C2PAメタデータやウォーターマーク、厳格なコンテンツフィルタリングなど、社会的懸念への対応も進められています。

本質的に、Soraは「コンテンツを生成するツール」という域を超え、物理世界のシミュレーションやAGI(汎用人工知能)の実現へとつながるマイルストーンとしても位置付けられています。テキストから生み出す映像は単なるビジュアル表現を超え、世界理解・知識表現の新たな地平を拓く可能性を秘めています。

画像動画生成の企業導入、自社モデルの作成のご相談はAI総合研究所にお気軽にご相談ください。

AI活用のノウハウ集「AI総合研究所」サービスご紹介資料

「AI総合研究所 サービス紹介資料」は、AI導入のノウハウがないというお客様にも使いやすい最先端のAI導入ノウハウを知れる資料です。

資料ダウンロード
監修者

坂本 将磨

Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。

関連記事

AI導入の最初の窓口。

お悩み・課題に合わせて活用方法をご案内いたします。
お気軽にお問合せください。

AI総合研究所 Bottom banner

ご相談
お問い合わせは
こちら!