GRU(Gated Recurrent Unit)は、LSTMを薄くしたRNNです。長い系列で起きる勾配消失への対策という目的はLSTMと同じなのに、セル状態を分離せずゲートを2つに絞る——本記事はゲート名の暗記より、「LSTMの次に何を削ったか」——系列モデルの軽量化——に焦点を当てます。
RNNが抱える問題
RNNは系列を時間方向に順番処理し、内部状態に過去を圧縮して保持します(HQ-0328)。しかし系列が長いと勾配消失で遠い過去の情報が学習に届きにくくなります(G-242)。
ゲート付きRNNはこの課題への応答です。G-279が示すように、LSTMとGRUは畳み込みのストライドなど別概念の説明ではありません。
LSTMが足したもの
LSTMはセル状態という長期記憶のレーンと、入力・忘却・出力の3つのゲートで「何を覚え、何を捨てるか」を細かく制御します(G-401)。
| 観点 | LSTM |
|---|---|
| 記憶の構造 | セル状態+隠れ状態の二系統 |
| ゲート | 入力・忘却・出力の3つ |
| 試験の整理 | 長期依存の救命筏(G-242) |
GRUが削ったもの
GRUはLSTMの役割を保ちつつ、構造を統合・簡略化しました。
| 観点 | LSTM | GRU |
|---|---|---|
| 状態 | セル状態+隠れ状態 | 隠れ状態に統合 |
| ゲート数 | 3(入力・忘却・出力) | 2(更新・リセット) |
| パラメータ | 多め | 少なめ・計算が軽い |
| 試験の一言 | セル状態と複数ゲート | LSTMの簡略化(G-279) |
- 更新ゲート — 過去の状態をどれだけ新情報に置き換えるか
- リセットゲート — 過去の影響をどれだけ切るか
どちらのゲートも0〜1の連続的な制御——「覚える/忘れる」を学習で決める点はLSTMと同じ思想です。
いつGRUが選ばれるか
タスクによってLSTMとGRUの優劣は変わりますが、試験では系譜の整理が中心です。音声・時系列の小〜中規模モデル、学習コストを抑えたい場面でGRUが選ばれることがあります。
一方、現代の大規模言語モデルの主役はTransformerです(G-294)。GRUは系列深層学習の歴史——RNN→LSTM/GRU→Transformer——を理解するピースとして押さえます。
試験で押さえるポイント
- 定義 — LSTMを簡略化したゲート付きRNN(G-279)
- 目的 — 長期依存・勾配消失の緩和(G-242)
- 対比 — LSTM=セル状態+3ゲート、GRU=2ゲートで軽量
- すり替え回避 — 決定木・CNN・Transformerではない(TF-416)
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| GRU=LSTM | 簡略化版 vs セル状態あり |
| GRU=決定木 | NN系列モデル vs ルールベース(TF-416) |
| GRU=CNN | 時間系列 vs 画像格子 |
| GRU=Transformer | 再帰型 vs Self-Attention |
| GRU=畳み込みストライド | ゲート付きRNN vs CNN用語(G-279) |
よくある質問
GRU(Gated Recurrent Unit)とは何ですか?
RNNの改良版で、ゲート機構により長期的な依存関係を扱いやすくする系列モデルです。LSTMを簡略化した形として説明され、更新ゲートとリセットゲートで何を覚え何を忘れるかを制御します。
GRUとLSTMは同じですか?
同じではありません。どちらもゲート付きRNNですが、LSTMはセル状態と複数のゲートを持つ一方、GRUはゲート数を減らし構造を単純化したモデルです。目的は共通で、長期依存と勾配消失の緩和です。
GRUは決定木のようなルールベース手法ですか?
いいえ。GRUはニューラルネットワークの系列モデルであり、データからパラメータを学習します。人間が分岐条件を手入力する決定木やルールベース手法ではありません。