Soraは、OpenAIが2024年に発表したテキストから動画を生成するモデルです。Stable Diffusionが1枚の絵を描くのに対し、Soraは時間が流れる映像——フレームの連続——を生成する。拡散モデルとTransformerを組み合わせ、空間と時間の両方を扱う——本記事は内部パッチの細部より、「なぜ動画生成はText-to-Imageの延長ではないか」に焦点を当てます。
試験で問われる見方
Sora単独の過去問は少ない一方、辞典の定義は「テキストから動画を生成する拡散トランスフォーマーモデル」です。生成AIパスポートでは動画生成AIの定義——「テキストや画像などをもとに動画を生成するAI」——が繰り返し問われます(TF-0219、HQ-0344)。
誤答では、Sora=Text-to-Imageだけ、Sora=LLM(文章生成)(HQ-0333)、Sora=動画の切り抜き編集など、別タスクとのすり替えに注意します。
時間軸という難所
静止画生成は「1枚の画素配列」をノイズから復元すればよい——動画はフレームの連続であり、時間方向の一貫性が追加の難題です。
- 空間 — 各フレーム内の人物・背景・物体の形
- 時間 — フレーム間で動きが自然につながること
- 指示 — テキストが「何がどう動くか」を伝えること
Soraは、映像を空間と時間をまとめたパッチ列として扱い、Transformerで長い依存関係を学習する——という発想で、Text-to-Imageの「1枚」から一歩進んだ動画生成の代表として注目されました。
Soraとは
SoraはOpenAIが2024年2月頃に発表した動画生成モデルです。入力は主にテキストプロンプト——「雪の中を歩く女性の映像」など——で、出力は短い動画クリップです。画像や既存動画を条件に拡張・編集する用途も示されました。
試験では細かい仕様より、「OpenAIのテキスト→動画生成モデル」と「拡散+Transformer系」——という位置づけを押さえれば十分なことが多いです。公開状況や利用範囲は時期により変わるため、最新情報は公式発表で確認してください(2026年6月時点)。
拡散+Transformer
Soraの技術的な系譜は、生成AIの二大潮流——拡散モデルとTransformer——の合流です。
| 部品 | 役割 | 試験向け |
|---|---|---|
| 拡散モデル | ノイズから徐々に映像を復元 | TF-0184の画像生成系譜 |
| Transformer | パッチ列の長距離依存を学習 | 時間方向のつながりにも応用 |
| テキスト条件 | プロンプトで内容を制御 | プロンプト設計が重要 |
Stable Diffusionが潜在空間で画像を拡散復元するのと同系統ですが、Soraは時間次元を含むデータを対象にする——モダリティが「画」から「動画」へ広がった、と整理すると他モデルとの違いが明確です。
静止画生成との対比
| 観点 | Text-to-Image(SD等) | Sora |
|---|---|---|
| 出力 | 静止画1枚 | 動画(フレーム列) |
| 時間 | なし | 動き・一貫性が課題 |
| 試験定義 | TF-0190 | 動画生成AI(TF-0219) |
| 代表例 | Stable Diffusion、DALL·E | Sora、Runway、Pikaなど |
マルチモーダルAIの文脈では、テキスト・画像に加え動画が生成対象に入る——Soraはその最前線のモデル名として試験・実務の両方で名前が出ます。
活用とリスク
- 企画・プレゼン 映像のラフ案を短時間で作る——広告・教育・プロトタイピング
- クリエイティブ支援 実写撮影の前段階としての素材生成
- リスク 偽映像・ディープフェイク的悪用、著作権・肖像権、事実誤認——TF-0211の権利確認が必須
動画編集ツール(既存動画の切り抜き・字幕付け)と混同しないこと——生成は新しい映像を作る、編集は既存映像を加工する——別カテゴリです(TF-0219の定義)。
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| Sora=Text-to-Image | 動画生成 vs 静止画生成 |
| Sora=GPT/LLM | 映像生成 vs テキスト生成(HQ-0333) |
| Sora=動画編集AI | 新規生成 vs 既存動画の加工 |
| Sora=GAN | 拡散トランスフォーマー系 vs 敵対的生成 |
| Sora=画像認識 | 生成 vs 認識・分類タスク |
| 動画生成=文章要約 | 別モダリティの生成タスク(HQ-0333) |
よくある質問
Soraは何をするモデルですか?
OpenAIが2024年に発表した、テキストプロンプトなどから短い動画クリップを生成するモデルです。拡散モデルとTransformerを組み合わせ、空間だけでなく時間方向も含めた映像の連続を生成します。
SoraとStable Diffusionは同じですか?
同じではありません。どちらも拡散モデル系の生成AIですが、Stable Diffusionは主に静止画(Text-to-Image)の生成に使われる代表例です。Soraは動画(時間軸つき映像)の生成を目的としたモデルとして位置づけられます。
SoraはLLMですか?
いいえ。Soraは動画生成モデルです。GPTのような大規模言語モデルは主にテキストの理解・生成を扱います。Soraは映像という別モダリティの生成が主目的であり、動画生成AIとして整理します。