モデル・技術

QLoRAとは?ビットを削ってLoRAを載せる——VRAMの二重の節約

読み:キューロラ / 英:QLoRA(Quantized LoRA)

更新日: 読了目安:約6分

QLoRAは、量子化した巨大LLMの上にLoRAだけを載せて学習する省メモリ微調整です。LoRAが「更新するパラメータを減らす」なら、QLoRAは「載せるモデル自体のビット数も減らす」——VRAMを二方向から押さえる——本記事は論文の数式より、量子化とPEFTがどう噛み合うかに焦点を当てます。

二重の節約

70B級のLLMを1枚のGPUでファインチューニングしようとすると、VRAM(GPUメモリ)が最初の壁になります。対策は大きく二つあります。

節約の方向手法何を減らすか
学習する量LoRA / PEFT更新パラメータ・勾配の保存
載せる重みの精度量子化基底モデルのメモリ占有(G-404

QLoRAはこの二つを同時に使う。凍結した基底を4bitなどの低精度でGPUに載せ、LoRAアダプタだけを高精度で学習する——「巨大モデルを1枚の消費者向けGPUでも微調整できる」という実務的なブレークスルーとして知られています。

ざっくり仕組み

試験レベルでは、次の流れで十分です。

  • 1. 基底を凍結 — 事前学習済みLLMの重みは更新しない(TF-177
  • 2. 基底を量子化 — 16bit→4bitなどでメモリを圧縮(G-404の「量子化」)
  • 3. LoRAを追加 — 低ランクの差分行列だけを学習対象に
  • 4. 推論 — 量子化基底+学習済みLoRAで用途に適応した出力

量子化には精度低下のリスクがありますが、QLoRAでは学習するLoRA部分を高精度に保つことで品質を取り戻す設計が典型です。細部のアルゴリズム名(NF4等)は試験範囲外であることが多く、「量子化+LoRAの組み合わせ」と覚えれば足ります。

LoRA単体との違い

観点LoRAQLoRA
更新対象低ランクの追加パラメータ同じ(LoRA部分)
基底の載せ方通常は16bit等で載せる低ビット量子化で載せる
VRAMLoRAより軽いが基底は大きい基底も軽く、さらに抑えやすい
試験の整理PEFTの代表(TF-177)LoRA+量子化の拡張

QLoRA=LoRAと答えるのは誤りです。LoRAはPEFTの一手法、QLoRAはその上に量子化を重ねた組み合わせです。

量子化単体との違い

G-404の量子化は、重みや演算のビット数を減らして軽量化する手法です。推論の高速化・エッジ展開(G-408G-409)でも重要です。

観点量子化(推論軽量化)QLoRA
主目的推論コスト・サイズ削減微調整時のVRAM削減
重み更新学習しないことも多いLoRA部分を学習する
FTとの関係圧縮手法ファインチューニング手法

プルーニングや蒸留(G-025)も軽量化の仲間ですが、QLoRAは「圧縮しつつ微調整する」という独自の立ち位置です。

PEFTの地図での位置

PEFTは、全パラメータを更新しないファインチューニングの総称です(G-383)。

手法PEFTか量子化との関係
LoRAはい別手法。組み合わせ可
QLoRAはい(LoRA系)量子化を内包
Full Fine-tuningいいえ量子化とは独立
量子化のみいいえ(FTではない)単体の軽量化

TF-0127HQ-0193のファインチューニング定義——事前学習済みモデルの追加学習——に、QLoRAも含まれます。ただし人手で出力を直す作業TF-434)ではありません。

試験で押さえるポイント

  • 定義量子化+LoRAの省メモリ微調整
  • 目的 — 巨大LLMを少ないVRAMでファインチューニング
  • 二重の節約 — 載せる基底を量子化+学習はLoRAだけ
  • 対比 — LoRA単体、量子化単体、Full FT、プロンプトのみ、RAG

演習で確認する

G検定:TF-177G-383G-404G-409G-025TF-434

生成AIパスポート:TF-0127TF-0164HQ-0193TF-0128

すり替えに注意

誤った説明正しい理解
QLoRA=LoRALoRA+量子化 vs LoRA単体
QLoRA=量子化微調整手法 vs 軽量化手法(G-404)
QLoRA=Full Fine-tuning一部更新 vs 全パラメータ更新
QLoRA=PEFT全体LoRA系の一実装 vs PEFT総称
QLoRA=RAG重み更新 vs 外部検索で知識を渡す
QLoRA=人手修正モデル学習 vs 出力の手直し(TF-434)

よくある質問

QLoRAは何をする手法ですか?

事前学習済みLLMの基底重みを4bitなどの低精度で保持し、LoRAの追加パラメータだけを高精度で学習する省メモリ微調整です。量子化でVRAMを節約しつつ、LoRAで用途に適応させる二段構えの効率化が特徴です。

QLoRAとLoRAは同じですか?

同じではありません。LoRAは低ランク行列を追加して学習するPEFT手法です。QLoRAはその上に量子化を組み合わせ、凍結した基底モデルを低ビットで載せることでさらにメモリを削る拡張です。QLoRA=LoRA+量子化、と整理します。

QLoRAと量子化は同じですか?

同じではありません。量子化は重みや演算のビット数を減らして軽量化する手法全般です。QLoRAは量子化した基底の上でLoRA微調整を行う具体的な組み合わせ手法です。推論だけの量子化と、学習まで含むQLoRAは目的が異なります。