テキスト動画生成（Text-to-Video）とは？タスク・技術・リスク

テキスト動画生成（Text-to-Video、T2V）は、テキストや画像などを入力として、AIが短い動画クリップを生成する生成AIのタスクです。2024〜2026年にSora、Runway、Kling、Veoなどが相次いで登場し、試験でも「動画生成AI」の定義が頻出になりました。本記事はフレーム予測の数式より、時間軸という追加の難しさ、LLM・画像生成・動画編集との混同、証拠映像として扱えない理由——生成AIパスポート第3章で点を取る切り口——に絞って整理します（2026年6月時点）。

試験で問われる見方

生成AIパスポートの定番は、「動画生成AIは、テキストや画像などをもとに動画を生成するAI」（○：TF-0219、HQ-0344）。逆に、生成映像を現実の証拠として必ず扱えるは×（TF-0220）。

選択肢の罠は3パターンに集約されます。①LLMの説明を動画生成AIに当てる（文章作成・要約・翻訳——×：HQ-0421）。②Text-to-Imageの説明を当てる（プロンプトから画像——×）。③ディープフェイク＝動画生成AIだけ——関連はあるが同一ではありません。

演習で確認する

生成AIパスポート：TF-0219（定義）、TF-0220（証拠映像×）、TF-0148（Soraと生成AI）、HQ-0344、HQ-0366、HQ-0421

姉妹記事：テキスト画像生成（Text-to-Image） · 関連ツール：Sora 2、Runway

Text-to-Videoとは

Text-to-Videoは、入力がテキスト（＋場合により画像）、出力が動画という方向の生成タスクです。「海辺を走る犬、スローモーション、映画風」のようなプロンプトから、数秒〜十数秒のクリップが得られるイメージです。

試験用語では動画生成AI（サービス・システム全般）とText-to-Video（タスク名）が近い文脈で使われます。Text-to-Image記事と同様、製品名はツール記事、本記事は入出力の概念として読み分けてください。

静止画との決定的な差：時間軸

Text-to-Imageが「1枚の絵を良くする」問題なら、Text-to-Videoは連続するフレーム間の一貫性（temporal consistency）も同時に満たす必要があります。

物体の形が崩れる

手の指がフレームごとに本数が変わる、顔が溶ける——T2Iより目立ちやすい。

物理・因果の破綻

液体の流れ、重力、衝突——Sora 2以降「物理改善」が売りにされる背景。

カメラ・被写体の動き

パン/ズーム/被写体 motion をプロンプトで指定——解釈の幅が大きい。

そのため多くの商用サービスは短尺クリップ（5〜20秒程度）に限定され、長編映画1本をワンショット生成するイメージとは距離があります（2026年6月時点の一般像）。

入力パターンとモダリティ

パターン	入力 → 出力	例
Text-to-Video	テキスト → 動画	プロンプトのみから生成
Image-to-Video	画像 → 動画	静止画に動きを付ける（I2V）
Text + Image → Video	両方 → 動画	構図は画像、動きはテキスト指示
Text-to-Image	テキスト → 画像	出力に時間軸なし——混同×
Video-to-Text	動画 → テキスト	キャプション・要約——方向が逆

近い用語との違い

用語	焦点	試験での整理
Text-to-Video	テキスト等から新規動画を生成するタスク	本記事の主題
動画生成AI	動画を生成するシステム・サービス全般	TF-0219の「動画生成AI」
LLM	テキスト生成が中心	動画生成AIの説明に使うと×
動画編集ソフト	既存素材のカット・合成	生成AIとは別カテゴリ
ディープフェイク	なりすまし・合成メディアの悪用	T2V技術が悪用され得るが、用語は別
アバター動画（HeyGen等）	テンプレ人物＋音声で説明動画	用途が「プレゼン動画」寄り——T2Vと部分重複

技術の輪郭（試験レベル）

実装は急速に変化します。試験では家族の名前と「なぜ動画は難しいか」が問われます。

拡散モデルの時間拡張 — 画像生成の拡散をフレーム列に拡張（Video Diffusion、Latent Video Diffusion等）
Transformer / DiT — パッチ列＋時間次元を扱うアーキテクチャ（Soraはspacetime patchesとして説明）
World model 志向 — 物理シミュレーションに近い内部表現（研究・製品説明で登場）
音声・効果音の同期 — Sora 2以降、映像と同期音声が一体提供される例も（製品依存）

いずれも生成AIの応用であり、判別型の「動画分類AI」とは目的が異なります。

利用時の注意

証拠性 — 生成映像は現実の記録ではない（TF-0220）。ニュース・法廷・監視映像としての誤用に注意
ディープフェイク・肖像 — 実在人物のlikeness生成は規約・法律の対象
著作権・学習データ — 商用利用・再配布はサービス規約と権利確認が必要（T2Iと同系）
ラベリング・透明性 — AI生成であることの表示（AI表示関連のガバナンス）
プロンプト設計 — プロンプトの具体性は品質に直結するが、安全担保にはならない

すり替えに注意

誤った説明	正しい理解
動画生成AI＝LLM（要約・翻訳）	出力モダリティが違う（HQ-0421）
動画生成AI＝画像生成AI	静止画 vs 時間軸付き動画
生成動画＝撮影した証拠	出所・生成有無を確認（TF-0220）
Text-to-Video＝動画編集	新規生成 vs 既存素材編集
Sora終了＝OpenAIが動画生成を放棄	消費者アプリ/API終了と研究・他製品は別（Sora 2記事参照）

よくある質問

Text-to-Videoとは何ですか？

テキストや画像などを入力として、AIが短い動画クリップを生成するタスク・技術です。生成AIパスポートでは「動画生成AIは、テキストや画像などをもとに動画を生成するAI」と定義されます。

Text-to-VideoとText-to-Imageの違いは？

Text-to-Imageは静止画1枚、Text-to-Videoは時間軸を持つ連続フレーム（動画）を出力します。試験では「画像を生成するAI」の説明を動画生成AIに当てはめる選択肢が罠になります。

生成した動画は現実の証拠映像として使えますか？

いいえ。動画生成AIの映像は現実を撮影した証拠とは限りません。出所・生成の有無を確認する必要があります（TF-0220）。

Text-to-VideoとLLMは同じですか？

同じではありません。LLMは主にテキスト生成、Text-to-Videoは動画生成です。「文章作成・要約・翻訳を行う生成AI」という説明はLLM向けで、動画生成AIの定義ではありません。