LSTM(Long Short-Term Memory/長・短期記憶)は、RNNの改良版です。素朴なRNNが長い系列で勾配消失により「遠い過去を忘れる」問題に対し、LSTMはゲートで記憶の保持と破棄を制御し、長期依存を扱いやすくしました。本記事はゲートの数式暗記ではなく、「なぜRNNの次にLSTMが必要だったか」——系列史の救命筏——に焦点を当てます。
試験で問われる見方
定義の骨格は「RNNの一種で、長期的な依存関係を扱いやすくする仕組みを持つモデル」(HQ-0329)。
導入目的は「RNNで長期依存関係を扱う際の勾配消失問題を緩和するため」(G-242)。ゲート機構の説明として、長期依存を扱うRNN系である、と整理します(G-401)。
LSTMとは
LSTMは1990年代に提案され、2010年代の深層学習ブームで機械翻訳・音声認識・時系列予測などに広く使われました。Transformer登場以前は、長い文章や系列を扱うタスクの定番の一つでした。
名前の Long Short-Term Memory は、短期の計算ループの中で長期に保持すべき情報を選び分ける——という設計思想を表します。試験ではゲートの細部よりRNNの改良・長期依存・勾配消失の緩和の三つ組で答えられることが重要です。
RNNの限界と導入目的
RNNは内部状態で過去を覚えますが、系列が長くなると誤差逆伝播の勾配が指数関数的に小さくなる——勾配消失——ため、遠い過去の情報が学習に届きにくくなります。
| 課題 | 素朴なRNN | LSTM |
|---|---|---|
| 長期依存 | 苦手 | セル状態で保持しやすい |
| 勾配消失 | 起こりやすい | ゲートで緩和(G-242) |
| 系列の扱い | 順次ループ | 順次ループ(RNN系) |
LSTMは万能の終着点ではありません。現代の大規模言語モデルはTransformerが主役ですが、LSTMは「RNNがどこで詰まり、どう改良されたか」を理解するための重要な中継点です。
ゲートとセル状態
LSTMの核心はセル状態(Cell State)——長期記憶のレール——と、それを制御するゲートです。試験向けに役割だけ整理します。
| 要素 | 役割(試験向け) |
|---|---|
| 忘却ゲート | 過去の記憶のどれを捨てるか |
| 入力ゲート | 新しい情報のどれを記憶に入れるか |
| 出力ゲート | 記憶のどれを今の出力に使うか |
| セル状態 | 長期に渡って運ばれる情報の通路 |
隠れ状態は「今の出力用の要約」、セル状態は「長く保ちたい記憶」——とイメージすると、ゲートの意味が掴みやすくなります。数式やシグモイドの詳細は試験範囲外のことも多いです。
「長期」と「短期」の意味
「長・短期記憶」は人間の心理学そのものではなく、ネットワーク設計の比喩です。
- 短期 各時刻の隠れ状態——直近の文脈の要約
- 長期 セル状態——系列のはるか昔の情報も保持しうる通路
例:「彼は1990年に東京で働き始め、……(長い文)……その都市に戻った」——「その都市」が東京であることは、遠い過去の情報への依存です。LSTMはこうした長距離の参照を学習しやすくするために設計されました。
GRU・Transformerとの位置
| モデル | 位置づけ | 試験向け |
|---|---|---|
| LSTM | ゲート付きRNNの代表 | 長期依存・勾配消失緩和 |
| GRU | LSTMより単純なゲート構造 | 同じくRNN系(TF-415) |
| Transformer | Self-Attentionで系列を処理 | 現代LLMの基盤。RNNを使わない |
Transformerは「遠い位置を直接つなぐ」ことで長期依存に挑みます(G-294)。LSTMは「ループの中で記憶を選別する」路線——系列史の二つの回答として並べて覚えると整理がつきます。
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| LSTM=Transformer | RNN系 vs Attention系 |
| LSTM=CNNのプーリング | G-242の誤答パターン |
| LSTM=GAN | 系列モデル vs 生成の枠組み |
| ゲート=特徴量重要度(Permutation Importance) | G-401のすり替え |
| LSTM=現代LLMの標準 | Transformerが主役 |
よくある質問
LSTMの定義として正しいのは?
RNNの一種で、長期的な依存関係を扱いやすくする仕組みを持つモデル、と整理します。ゲート機構とセル状態により、通常のRNNが苦手とする長期依存と勾配消失問題の緩和を目指します。
LSTMが導入された主な目的は?
RNNで長期依存関係を扱う際の勾配消失問題を緩和するため、が試験向けの整理です。ゲートで「何を覚え、何を忘れるか」を制御します。
LSTMとTransformerは同じですか?
いいえ。LSTMはRNN系の改良モデル、TransformerはSelf-Attentionを中核とする別アーキテクチャです。現代LLMの主役はTransformer側です。