モデル・技術

GRUとは?ゲートを絞った軽量版——LSTMの冗長さを削った系列モデル

読み:ジーアールユー / 英:GRU(Gated Recurrent Unit)

更新日: 読了目安:約6分

GRU(Gated Recurrent Unit)は、LSTM薄くしたRNNです。長い系列で起きる勾配消失への対策という目的はLSTMと同じなのに、セル状態を分離せずゲートを2つに絞る——本記事はゲート名の暗記より、「LSTMの次に何を削ったか」——系列モデルの軽量化——に焦点を当てます。

RNNが抱える問題

RNNは系列を時間方向に順番処理し、内部状態に過去を圧縮して保持します(HQ-0328)。しかし系列が長いと勾配消失で遠い過去の情報が学習に届きにくくなります(G-242)。

ゲート付きRNNはこの課題への応答です。G-279が示すように、LSTMとGRUは畳み込みのストライドなど別概念の説明ではありません。

LSTMが足したもの

LSTMセル状態という長期記憶のレーンと、入力・忘却・出力の3つのゲートで「何を覚え、何を捨てるか」を細かく制御します(G-401)。

観点LSTM
記憶の構造セル状態+隠れ状態の二系統
ゲート入力・忘却・出力の3つ
試験の整理長期依存の救命筏(G-242)

GRUが削ったもの

GRUはLSTMの役割を保ちつつ、構造を統合・簡略化しました。

観点LSTMGRU
状態セル状態+隠れ状態隠れ状態に統合
ゲート数3(入力・忘却・出力)2(更新・リセット)
パラメータ多め少なめ・計算が軽い
試験の一言セル状態と複数ゲートLSTMの簡略化(G-279)
  • 更新ゲート — 過去の状態をどれだけ新情報に置き換えるか
  • リセットゲート — 過去の影響をどれだけ切るか

どちらのゲートも0〜1の連続的な制御——「覚える/忘れる」を学習で決める点はLSTMと同じ思想です。

いつGRUが選ばれるか

タスクによってLSTMとGRUの優劣は変わりますが、試験では系譜の整理が中心です。音声・時系列の小〜中規模モデル、学習コストを抑えたい場面でGRUが選ばれることがあります。

一方、現代の大規模言語モデルの主役はTransformerです(G-294)。GRUは系列深層学習の歴史——RNN→LSTM/GRU→Transformer——を理解するピースとして押さえます。

試験で押さえるポイント

  • 定義LSTMを簡略化したゲート付きRNN(G-279)
  • 目的 — 長期依存・勾配消失の緩和(G-242)
  • 対比 — LSTM=セル状態+3ゲート、GRU=2ゲートで軽量
  • すり替え回避 — 決定木・CNN・Transformerではない(TF-416)

演習で確認する

G検定:G-279G-291G-242TF-416

生成AIパスポート:HQ-0328(RNNの前提)

すり替えに注意

誤った説明正しい理解
GRU=LSTM簡略化版 vs セル状態あり
GRU=決定木NN系列モデル vs ルールベース(TF-416)
GRU=CNN時間系列 vs 画像格子
GRU=Transformer再帰型 vs Self-Attention
GRU=畳み込みストライドゲート付きRNN vs CNN用語(G-279)

よくある質問

GRU(Gated Recurrent Unit)とは何ですか?

RNNの改良版で、ゲート機構により長期的な依存関係を扱いやすくする系列モデルです。LSTMを簡略化した形として説明され、更新ゲートとリセットゲートで何を覚え何を忘れるかを制御します。

GRUとLSTMは同じですか?

同じではありません。どちらもゲート付きRNNですが、LSTMはセル状態と複数のゲートを持つ一方、GRUはゲート数を減らし構造を単純化したモデルです。目的は共通で、長期依存と勾配消失の緩和です。

GRUは決定木のようなルールベース手法ですか?

いいえ。GRUはニューラルネットワークの系列モデルであり、データからパラメータを学習します。人間が分岐条件を手入力する決定木やルールベース手法ではありません。