問題
データリーケージを防ぐ対応として、最も適切な選択肢を1つ選べ。
- A. 前処理や特徴量作成を行う際に、評価データの情報が訓練側へ漏れないようにする
- B. 評価データの正解ラベルを訓練中に積極的に使う
- C. 本番時に使えない未来情報を特徴量に入れる
- D. テストデータで最も良くなるまで何度もモデルを調整する
G検定 実践演習の問題です。解説付きで個別に学習できます。
データリーケージを防ぐ対応として、最も適切な選択肢を1つ選べ。
正解はA。データリーケージは、本来学習時や本番時に使えない情報が訓練に混入する問題である。前処理や特徴量作成でも訓練データと評価データの分離を意識する必要がある。BからDはいずれもリーケージや評価の過大評価につながる。