生成AI活用

テキスト動画生成(Text-to-Video)とは?タスク・技術・リスク

読み:てきすとどうがせいせい / 英:Text-to-Video

更新日: 読了目安:約8分

テキスト動画生成(Text-to-Video、T2V)は、テキストや画像などを入力として、AIが短い動画クリップを生成する生成AIのタスクです。2024〜2026年にSora、Runway、Kling、Veoなどが相次いで登場し、試験でも「動画生成AI」の定義が頻出になりました。本記事はフレーム予測の数式より、時間軸という追加の難しさLLM・画像生成・動画編集との混同証拠映像として扱えない理由——生成AIパスポート第3章で点を取る切り口——に絞って整理します(2026年6月時点)。

試験で問われる見方

生成AIパスポートの定番は、「動画生成AIは、テキストや画像などをもとに動画を生成するAI」(○:TF-0219HQ-0344)。逆に、生成映像を現実の証拠として必ず扱えるは×(TF-0220)。

選択肢の罠は3パターンに集約されます。①LLMの説明を動画生成AIに当てる(文章作成・要約・翻訳——×:HQ-0421)。②Text-to-Imageの説明を当てる(プロンプトから画像——×)。③ディープフェイク=動画生成AIだけ——関連はあるが同一ではありません。

演習で確認する

生成AIパスポート:TF-0219(定義)TF-0220(証拠映像×)TF-0148(Soraと生成AI)HQ-0344HQ-0366HQ-0421

姉妹記事:テキスト画像生成(Text-to-Image) · 関連ツール:Sora 2Runway

Text-to-Videoとは

Text-to-Videoは、入力がテキスト(+場合により画像)、出力が動画という方向の生成タスクです。「海辺を走る犬、スローモーション、映画風」のようなプロンプトから、数秒〜十数秒のクリップが得られるイメージです。

試験用語では動画生成AI(サービス・システム全般)とText-to-Video(タスク名)が近い文脈で使われます。Text-to-Image記事と同様、製品名はツール記事本記事は入出力の概念として読み分けてください。

静止画との決定的な差:時間軸

Text-to-Imageが「1枚の絵を良くする」問題なら、Text-to-Videoは連続するフレーム間の一貫性(temporal consistency)も同時に満たす必要があります。

物体の形が崩れる

手の指がフレームごとに本数が変わる、顔が溶ける——T2Iより目立ちやすい。

物理・因果の破綻

液体の流れ、重力、衝突——Sora 2以降「物理改善」が売りにされる背景。

カメラ・被写体の動き

パン/ズーム/被写体 motion をプロンプトで指定——解釈の幅が大きい。

そのため多くの商用サービスは短尺クリップ(5〜20秒程度)に限定され、長編映画1本をワンショット生成するイメージとは距離があります(2026年6月時点の一般像)。

入力パターンとモダリティ

パターン 入力 → 出力
Text-to-Video テキスト → 動画 プロンプトのみから生成
Image-to-Video 画像 → 動画 静止画に動きを付ける(I2V)
Text + Image → Video 両方 → 動画 構図は画像、動きはテキスト指示
Text-to-Image テキスト → 画像 出力に時間軸なし——混同×
Video-to-Text 動画 → テキスト キャプション・要約——方向が逆

近い用語との違い

用語 焦点 試験での整理
Text-to-Video テキスト等から新規動画を生成するタスク 本記事の主題
動画生成AI 動画を生成するシステム・サービス全般 TF-0219の「動画生成AI」
LLM テキスト生成が中心 動画生成AIの説明に使うと×
動画編集ソフト 既存素材のカット・合成 生成AIとは別カテゴリ
ディープフェイク なりすまし・合成メディアの悪用 T2V技術が悪用され得るが、用語は別
アバター動画(HeyGen等) テンプレ人物+音声で説明動画 用途が「プレゼン動画」寄り——T2Vと部分重複

技術の輪郭(試験レベル)

実装は急速に変化します。試験では家族の名前と「なぜ動画は難しいか」が問われます。

  • 拡散モデルの時間拡張 — 画像生成の拡散をフレーム列に拡張(Video Diffusion、Latent Video Diffusion等)
  • Transformer / DiT — パッチ列+時間次元を扱うアーキテクチャ(Soraはspacetime patchesとして説明)
  • World model 志向 — 物理シミュレーションに近い内部表現(研究・製品説明で登場)
  • 音声・効果音の同期 — Sora 2以降、映像と同期音声が一体提供される例も(製品依存)

いずれも生成AIの応用であり、判別型の「動画分類AI」とは目的が異なります。

利用時の注意

  • 証拠性 — 生成映像は現実の記録ではない(TF-0220)。ニュース・法廷・監視映像としての誤用に注意
  • ディープフェイク・肖像 — 実在人物のlikeness生成は規約・法律の対象
  • 著作権・学習データ — 商用利用・再配布はサービス規約と権利確認が必要(T2Iと同系)
  • ラベリング・透明性 — AI生成であることの表示(AI表示関連のガバナンス)
  • プロンプト設計プロンプトの具体性は品質に直結するが、安全担保にはならない

すり替えに注意

誤った説明 正しい理解
動画生成AI=LLM(要約・翻訳) 出力モダリティが違う(HQ-0421)
動画生成AI=画像生成AI 静止画 vs 時間軸付き動画
生成動画=撮影した証拠 出所・生成有無を確認(TF-0220)
Text-to-Video=動画編集 新規生成 vs 既存素材編集
Sora終了=OpenAIが動画生成を放棄 消費者アプリ/API終了と研究・他製品は別(Sora 2記事参照)

よくある質問

Text-to-Videoとは何ですか?

テキストや画像などを入力として、AIが短い動画クリップを生成するタスク・技術です。生成AIパスポートでは「動画生成AIは、テキストや画像などをもとに動画を生成するAI」と定義されます。

Text-to-VideoとText-to-Imageの違いは?

Text-to-Imageは静止画1枚、Text-to-Videoは時間軸を持つ連続フレーム(動画)を出力します。試験では「画像を生成するAI」の説明を動画生成AIに当てはめる選択肢が罠になります。

生成した動画は現実の証拠映像として使えますか?

いいえ。動画生成AIの映像は現実を撮影した証拠とは限りません。出所・生成の有無を確認する必要があります(TF-0220)。

Text-to-VideoとLLMは同じですか?

同じではありません。LLMは主にテキスト生成、Text-to-Videoは動画生成です。「文章作成・要約・翻訳を行う生成AI」という説明はLLM向けで、動画生成AIの定義ではありません。