アルゴリズムバイアス(Algorithmic Bias)は、AIやアルゴリズムが特定の属性・集団に不利(または不当に有利)な結果を偏って生む現象です。本記事は公平性の原則解説ではなく、偏りがどこから生じるか——データから運用までの因果チェーン——に焦点を当てます。
試験で問われる見方
G検定では、バイアスは学習データだけでなく、ラベル付け、問題設定、特徴量選択、評価指標、運用からも生じうる、という全体像が問われます(TF-283)。
「学習データの件数を増やせば偏りは必ず消える」「Human-in-the-loopを入れればバイアスは完全除去」——こうした言い切りは×です(TF-284、TF-200)。また、データシートを作れば偏りが自動的に消える、という説明も×(TF-0414)。
演習で確認する
G検定:TF-283(原因の多様性)、TF-284(データ量の神話)、TF-200(Human-in-the-loop)
生成AIパスポート:TF-0414(データシート)、TF-264(公平性との接続)
アルゴリズムバイアスとは
アルゴリズムバイアスは、モデルの予測・分類・生成が、性別・年齢・人種・地域・障害などの属性に関連して系統的に偏る状態を指します。意図せず差別的な結果につながることがあり、公平性の観点から問題視されます。
統計学の「バイアス(推定の偏り)」と日常語の「偏見」が混ざって語られることもありますが、試験ではAIの結果が特定集団に不利になっていないかという実務的な意味で押さえれば十分なことが多いです。
偏りの発生源(ライフサイクル)
偏りは「データが悪い」だけでは説明できません。開発・運用の各段階で入り込みます。
| 段階 | 偏りの例 |
|---|---|
| 問題設定 | 何を予測対象とするかで、既存の社会的不平等を再現する |
| データ収集 | 特定地域・層だけが多く、欠落集団がある |
| ラベル付け | アノテーターの主観・ステレオタイプがラベルに反映 |
| 特徴量・モデル | 代理変数(郵便番号など)が属性を間接的に表す |
| 評価指標 | 全体精度のみで評価し、少数集団の誤りを見逃す |
| 運用・利用 | 閾値設定や人間の解釈で偏りが増幅 |
原因を分解して確認することが、対策の第一歩です(TF-283)。
「データを増やせば解決」神話
データ量の増加は性能向上に寄与することがありますが、収集方法が偏ったままでは偏りは残ります。例えば、ある性別のサンプルだけを大量に追加しても、他の属性の代表性は自動的には改善しません(TF-284)。
確認すべきは件数だけでなく、次のような点です。
- データは対象集団を代表しているか
- ラベルの品質・一貫性は十分か
- 欠落している集団・条件はないか
- 属性別の性能・影響を評価したか(公平性)
生成AI特有の偏り
LLMはインターネット規模のテキストで学習するため、社会に存在する偏見・ステレオタイプを出力に反映しやすい側面があります。画像生成でも職業と性別の固定化などが指摘されています。
プロンプトで「偏りのない出力を」と指示するだけでは不十分なことも多く、出力のレビュー、ガバナンス、モデル提供者の安全調整が組み合わされます。
対策の方向性
単一の技法で完全解消は難しく、試験でも「これだけで十分」は疑ってください。