ALiBi(Attention with Linear Biases)は、TransformerのSelf-Attentionに、トークン間の距離に比例する線形バイアスを加えることで語順を伝える手法です。本記事はAttentionの計算式の細部ではなく、「学習済みの位置ベクトルを置かず、距離だけで順序を刻む」——位置情報の設計思想——に焦点を当てます。
なぜ語順が要るのか
TransformerのSelf-Attentionは、文内の語同士の関係を重み付けで捉えますが、どちらが先に来たかという順序情報は、そのままでは持ちません。だから「猫が魚を食べた」と「魚が猫を食べた」を区別するには、位置・順序をモデルに渡す仕組みが必要です。
古典的な解は位置エンコーディング——各位置にベクトルを足し込む方式です。ALiBiはその代わりに、Attentionのスコア計算の段階で距離ペナルティを入れる別ルートを取ります。
ALiBiの仕組み(概念)
試験では数式より設計の要点が問われます。ALiBiの核心は次の3点です。
- 線形バイアス — クエリとキーの位置が離れるほど、Attentionスコアに一定の傾きで減点(または加点)する
- 学習不要の位置表現 — 位置ごとに学習する埋め込み行列を別途持たない(ヘッドごとの傾きなどはハイパーパラメータとして設定)
- Attentionの中に組み込む — 入力ベクトルへの加算ではなく、注意重みの計算時に距離情報を反映
イメージとしては、近い語ほど注目しやすく、遠い語ほど注目が薄れる——という「距離の物差し」をAttentionに直接刻む設計です。LLMの文脈長を伸ばす研究の文脈でも名前が出ることがあります。
位置エンコーディングとの対比
| 観点 | 位置エンコーディング(典型) | ALiBi |
|---|---|---|
| 位置情報の与え方 | 各トークン表現に位置ベクトルを加算 | Attentionスコアに距離バイアスを加算 |
| 学習パラメータ | 学習可能な位置埋め込みが多い | 位置埋め込み層を省略しやすい |
| 試験での整理 | 「系列内の位置情報を与える」(TF-423) | 位置エンコーディングの代替設計として理解 |
| 共通目的 | Self-Attentionだけでは持たない語順・位置を補う | |
どちらも「匿名加工」「法律上の制度」ではありません(TF-0112)。位置情報の技術的な付与方法の話です。
長文外挿の話
固定長で学習した位置埋め込みは、学習時より長い入力にそのまま当てはめると性能が落ちやすい——という課題があります。ALiBiは距離に基づく単純で連続的なルールなので、学習長を超えた位置でもバイアスを計算でき、長文外挿(extrapolation)に有利とされることが多いです。
試験では「ALiBi=必ず無限長で完璧」まで暗記する必要はありません。位置設計の選択肢の一つで、長文への拡張を意識した手法——と整理すれば十分です。
試験で押さえるポイント
- 目的 — Transformerに語順・位置情報を与える(位置エンコーディングと同じ大目的)
- 手法 — Attentionに線形な位置バイアスを加える。別名の頭文字は Attention with Linear Biases
- 特徴 — 学習済み位置埋め込みを使わない設計。長文外挿の改善が狙いとして挙げられる
- すり替え回避 — 位置エンコーディング=匿名加工(×)、ALiBi=RNNのゲート(×)など
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| ALiBi=位置エンコーディングそのもの | 位置情報を与える別手法。目的は近いが実装は異なる |
| 位置エンコーディング=個人情報の匿名加工 | 系列の位置情報を与える技術(TF-0112) |
| Self-Attentionだけで語順が分かる | 順序情報を別途補う必要がある(G-312) |
| ALiBi=学習率の適応的手法 | 最適化(Adamなど)とは別レイヤーの話 |
よくある質問
ALiBiと位置エンコーディングの違いは?
位置エンコーディングは各トークンに位置ベクトルを足し込む方式が典型です。ALiBiはAttentionスコアにトークン間距離に比例する線形バイアスを加えるだけで、別途学習する位置埋め込みを置かない設計です。どちらも語順をモデルに伝える目的は同じです。
ALiBiは個人情報の匿名加工ですか?
いいえ。ALiBiはTransformer系モデルの位置情報付与手法です。位置エンコーディングを匿名加工の制度と混同する誤答は試験でも出題されます(TF-0112)。
長文外挿とは何ですか?
学習時より長い入力長で推論しても性能が極端に落ちにくい性質のことです。ALiBiは距離に基づく単純なバイアス設計により、固定長で学習した位置埋め込みより外挿しやすいと報告されています。