問題
モデル評価におけるデータリーケージに関する説明として、最も不適切な選択肢を1つ選べ。
- A. 本来は学習時に利用できない情報が訓練データに混入すると、評価が過大になることがある
- B. 前処理を行う際にも、検証データの情報を学習側へ漏らさないよう注意が必要である
- C. データリーケージが起きると、実運用では期待した性能が出ない可能性がある
- D. データリーケージは評価を厳しくするため、モデルの性能を常に低く見積もる原因になる
G検定 実践演習の問題です。解説付きで個別に学習できます。
モデル評価におけるデータリーケージに関する説明として、最も不適切な選択肢を1つ選べ。
正解はD。データリーケージは、検証時や本番運用時には使えない情報が学習に混入することで、評価性能が不自然に高く見える原因になりやすい。実運用ではその情報が使えないため、期待した性能が出ないことがある。AからCはいずれもデータリーケージに関する適切な説明である。評価問題では、訓練データと検証データの分離を強く意識する。