モデル・技術

LSTMとは?ゲートで記憶を選別——長期依存の救命筏

読み:えるえすてぃーえむ / 英:LSTM(Long Short-Term Memory/長・短期記憶)

更新日: 読了目安:約7分

LSTM(Long Short-Term Memory/長・短期記憶)は、RNN改良版です。素朴なRNNが長い系列で勾配消失により「遠い過去を忘れる」問題に対し、LSTMはゲートで記憶の保持と破棄を制御し、長期依存を扱いやすくしました。本記事はゲートの数式暗記ではなく、「なぜRNNの次にLSTMが必要だったか」——系列史の救命筏——に焦点を当てます。

試験で問われる見方

定義の骨格は「RNNの一種で、長期的な依存関係を扱いやすくする仕組みを持つモデル」HQ-0329)。

導入目的は「RNNで長期依存関係を扱う際の勾配消失問題を緩和するため」G-242)。ゲート機構の説明として、長期依存を扱うRNN系である、と整理します(G-401)。

LSTMはCNNの畳み込みでもGANの対戦学習でもありません。説明文の主語と仕組みの対応を確認します。

演習で確認する

生成AIパスポート:HQ-0329(定義)

G検定:G-242(導入目的)G-401(ゲート機構)TF-415(GRUとの関係)

LSTMとは

LSTMは1990年代に提案され、2010年代の深層学習ブームで機械翻訳・音声認識・時系列予測などに広く使われました。Transformer登場以前は、長い文章や系列を扱うタスクの定番の一つでした。

名前の Long Short-Term Memory は、短期の計算ループの中で長期に保持すべき情報を選び分ける——という設計思想を表します。試験ではゲートの細部よりRNNの改良・長期依存・勾配消失の緩和の三つ組で答えられることが重要です。

RNNの限界と導入目的

RNNは内部状態で過去を覚えますが、系列が長くなると誤差逆伝播の勾配が指数関数的に小さくなる——勾配消失——ため、遠い過去の情報が学習に届きにくくなります。

課題素朴なRNNLSTM
長期依存苦手セル状態で保持しやすい
勾配消失起こりやすいゲートで緩和(G-242)
系列の扱い順次ループ順次ループ(RNN系)

LSTMは万能の終着点ではありません。現代の大規模言語モデルはTransformerが主役ですが、LSTMは「RNNがどこで詰まり、どう改良されたか」を理解するための重要な中継点です。

ゲートとセル状態

LSTMの核心はセル状態(Cell State)——長期記憶のレール——と、それを制御するゲートです。試験向けに役割だけ整理します。

要素役割(試験向け)
忘却ゲート過去の記憶のどれを捨てるか
入力ゲート新しい情報のどれを記憶に入れるか
出力ゲート記憶のどれを今の出力に使うか
セル状態長期に渡って運ばれる情報の通路

隠れ状態は「今の出力用の要約」、セル状態は「長く保ちたい記憶」——とイメージすると、ゲートの意味が掴みやすくなります。数式やシグモイドの詳細は試験範囲外のことも多いです。

「長期」と「短期」の意味

「長・短期記憶」は人間の心理学そのものではなく、ネットワーク設計の比喩です。

  • 短期 各時刻の隠れ状態——直近の文脈の要約
  • 長期 セル状態——系列のはるか昔の情報も保持しうる通路

例:「彼は1990年に東京で働き始め、……(長い文)……その都市に戻った」——「その都市」が東京であることは、遠い過去の情報への依存です。LSTMはこうした長距離の参照を学習しやすくするために設計されました。

GRU・Transformerとの位置

モデル位置づけ試験向け
LSTMゲート付きRNNの代表長期依存・勾配消失緩和
GRULSTMより単純なゲート構造同じくRNN系(TF-415)
TransformerSelf-Attentionで系列を処理現代LLMの基盤。RNNを使わない

Transformerは「遠い位置を直接つなぐ」ことで長期依存に挑みます(G-294)。LSTMは「ループの中で記憶を選別する」路線——系列史の二つの回答として並べて覚えると整理がつきます。

すり替えに注意

誤った説明正しい理解
LSTM=TransformerRNN系 vs Attention系
LSTM=CNNのプーリングG-242の誤答パターン
LSTM=GAN系列モデル vs 生成の枠組み
ゲート=特徴量重要度(Permutation Importance)G-401のすり替え
LSTM=現代LLMの標準Transformerが主役

よくある質問

LSTMの定義として正しいのは?

RNNの一種で、長期的な依存関係を扱いやすくする仕組みを持つモデル、と整理します。ゲート機構とセル状態により、通常のRNNが苦手とする長期依存と勾配消失問題の緩和を目指します。

LSTMが導入された主な目的は?

RNNで長期依存関係を扱う際の勾配消失問題を緩和するため、が試験向けの整理です。ゲートで「何を覚え、何を忘れるか」を制御します。

LSTMとTransformerは同じですか?

いいえ。LSTMはRNN系の改良モデル、TransformerはSelf-Attentionを中核とする別アーキテクチャです。現代LLMの主役はTransformer側です。