テキスト動画生成(Text-to-Video、T2V)は、テキストや画像などを入力として、AIが短い動画クリップを生成する生成AIのタスクです。2024〜2026年にSora、Runway、Kling、Veoなどが相次いで登場し、試験でも「動画生成AI」の定義が頻出になりました。本記事はフレーム予測の数式より、時間軸という追加の難しさ、LLM・画像生成・動画編集との混同、証拠映像として扱えない理由——生成AIパスポート第3章で点を取る切り口——に絞って整理します(2026年6月時点)。
試験で問われる見方
生成AIパスポートの定番は、「動画生成AIは、テキストや画像などをもとに動画を生成するAI」(○:TF-0219、HQ-0344)。逆に、生成映像を現実の証拠として必ず扱えるは×(TF-0220)。
選択肢の罠は3パターンに集約されます。①LLMの説明を動画生成AIに当てる(文章作成・要約・翻訳——×:HQ-0421)。②Text-to-Imageの説明を当てる(プロンプトから画像——×)。③ディープフェイク=動画生成AIだけ——関連はあるが同一ではありません。
演習で確認する
生成AIパスポート:TF-0219(定義)、TF-0220(証拠映像×)、TF-0148(Soraと生成AI)、HQ-0344、HQ-0366、HQ-0421
姉妹記事:テキスト画像生成(Text-to-Image) · 関連ツール:Sora 2、Runway
Text-to-Videoとは
Text-to-Videoは、入力がテキスト(+場合により画像)、出力が動画という方向の生成タスクです。「海辺を走る犬、スローモーション、映画風」のようなプロンプトから、数秒〜十数秒のクリップが得られるイメージです。
試験用語では動画生成AI(サービス・システム全般)とText-to-Video(タスク名)が近い文脈で使われます。Text-to-Image記事と同様、製品名はツール記事、本記事は入出力の概念として読み分けてください。
静止画との決定的な差:時間軸
Text-to-Imageが「1枚の絵を良くする」問題なら、Text-to-Videoは連続するフレーム間の一貫性(temporal consistency)も同時に満たす必要があります。
物体の形が崩れる
手の指がフレームごとに本数が変わる、顔が溶ける——T2Iより目立ちやすい。
物理・因果の破綻
液体の流れ、重力、衝突——Sora 2以降「物理改善」が売りにされる背景。
カメラ・被写体の動き
パン/ズーム/被写体 motion をプロンプトで指定——解釈の幅が大きい。
そのため多くの商用サービスは短尺クリップ(5〜20秒程度)に限定され、長編映画1本をワンショット生成するイメージとは距離があります(2026年6月時点の一般像)。
入力パターンとモダリティ
| パターン | 入力 → 出力 | 例 |
|---|---|---|
| Text-to-Video | テキスト → 動画 | プロンプトのみから生成 |
| Image-to-Video | 画像 → 動画 | 静止画に動きを付ける(I2V) |
| Text + Image → Video | 両方 → 動画 | 構図は画像、動きはテキスト指示 |
| Text-to-Image | テキスト → 画像 | 出力に時間軸なし——混同× |
| Video-to-Text | 動画 → テキスト | キャプション・要約——方向が逆 |
近い用語との違い
| 用語 | 焦点 | 試験での整理 |
|---|---|---|
| Text-to-Video | テキスト等から新規動画を生成するタスク | 本記事の主題 |
| 動画生成AI | 動画を生成するシステム・サービス全般 | TF-0219の「動画生成AI」 |
| LLM | テキスト生成が中心 | 動画生成AIの説明に使うと× |
| 動画編集ソフト | 既存素材のカット・合成 | 生成AIとは別カテゴリ |
| ディープフェイク | なりすまし・合成メディアの悪用 | T2V技術が悪用され得るが、用語は別 |
| アバター動画(HeyGen等) | テンプレ人物+音声で説明動画 | 用途が「プレゼン動画」寄り——T2Vと部分重複 |
技術の輪郭(試験レベル)
実装は急速に変化します。試験では家族の名前と「なぜ動画は難しいか」が問われます。
- 拡散モデルの時間拡張 — 画像生成の拡散をフレーム列に拡張(Video Diffusion、Latent Video Diffusion等)
- Transformer / DiT — パッチ列+時間次元を扱うアーキテクチャ(Soraはspacetime patchesとして説明)
- World model 志向 — 物理シミュレーションに近い内部表現(研究・製品説明で登場)
- 音声・効果音の同期 — Sora 2以降、映像と同期音声が一体提供される例も(製品依存)
いずれも生成AIの応用であり、判別型の「動画分類AI」とは目的が異なります。
利用時の注意
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| 動画生成AI=LLM(要約・翻訳) | 出力モダリティが違う(HQ-0421) |
| 動画生成AI=画像生成AI | 静止画 vs 時間軸付き動画 |
| 生成動画=撮影した証拠 | 出所・生成有無を確認(TF-0220) |
| Text-to-Video=動画編集 | 新規生成 vs 既存素材編集 |
| Sora終了=OpenAIが動画生成を放棄 | 消費者アプリ/API終了と研究・他製品は別(Sora 2記事参照) |
よくある質問
Text-to-Videoとは何ですか?
テキストや画像などを入力として、AIが短い動画クリップを生成するタスク・技術です。生成AIパスポートでは「動画生成AIは、テキストや画像などをもとに動画を生成するAI」と定義されます。
Text-to-VideoとText-to-Imageの違いは?
Text-to-Imageは静止画1枚、Text-to-Videoは時間軸を持つ連続フレーム(動画)を出力します。試験では「画像を生成するAI」の説明を動画生成AIに当てはめる選択肢が罠になります。
生成した動画は現実の証拠映像として使えますか?
いいえ。動画生成AIの映像は現実を撮影した証拠とは限りません。出所・生成の有無を確認する必要があります(TF-0220)。
Text-to-VideoとLLMは同じですか?
同じではありません。LLMは主にテキスト生成、Text-to-Videoは動画生成です。「文章作成・要約・翻訳を行う生成AI」という説明はLLM向けで、動画生成AIの定義ではありません。