G検定のシラバス10分野のうち、「機械学習の概要」は出題比率が高く、教師あり学習と教師なし学習の区別、評価指標、過学習対策などが四肢択一で繰り返し問われます。本記事では、試験範囲・シラバスの機械学習分野を、学習の種類・代表的アルゴリズム・評価指標・汎化と過学習・頻出問題パターンに分けて整理します。最新の出題範囲は日本ディープラーニング協会 G検定公式ページでご確認ください。
分野の位置づけ
機械学習分野は、AIの技術的コアのひとつです。シラバス10分野では「機械学習の概要」として独立しており、数理・統計(domain-01)の知識を土台に、ディープラーニング分野へつながります。
- 機械学習とは 明示的なルールではなく、データからパターンを学習して予測・分類・クラスタリングを行う手法の総称(用語辞典)
- ディープラーニングとの関係 ディープラーニングは機械学習の一分野。多層ニューラルネットを使う深層学習は別分野としても出題される
- 出題の傾向 定義の暗記より「どの手法をいつ使うか」「指標の意味と限界」が問われやすい
学習の種類
G検定で最も頻出するのが、3つの学習パラダイムの区別です。
| 種類 | データの特徴 | 主なタスク例 |
|---|---|---|
| 教師あり学習 | 正解ラベル付き | 分類・回帰 |
| 教師なし学習 | ラベルなし | クラスタリング・次元削減 |
| 強化学習 | 報酬・罰によるフィードバック | 方策学習・ゲームAI |
問題文に「正解データがある」「ラベルがない」「エージェントが環境と相互作用する」などのキーワードが出たら、どの学習に該当するかを即座に判断できるようにしておきましょう。
代表的アルゴリズム
実装の詳細より、特徴と適用場面の理解が試験では重要です。
- 線形回帰・ロジスティック回帰 教師あり学習の基礎。回帰は連続値、ロジスティックは二値分類に使う
- 決定木・ランダムフォレスト 条件分岐でデータを分割。ランダムフォレストは複数の木を組み合わせて精度と汎化を改善
- SVM(サポートベクターマシン) マージン最大化で分類境界を求める。カーネル法で非線形にも対応
- k-means法 教師なしの代表的手法。データをk個のクラスタに分割
- 主成分分析(PCA) 次元削減の代表例。分散の大きい方向へ射影して特徴を圧縮
評価指標
分類タスクの評価指標はG検定の定番です。混同行列(TP・FP・TN・FN)とセットで覚えましょう。
- 精度(Accuracy) 全体のうち正しく予測した割合。クラス不均衡があると誤解を招きやすい
- 適合率(Precision) 陽性と予測したうち、実際に陽性だった割合。誤検知を抑えたいとき重視
- 再現率(Recall) 実際の陽性のうち、正しく検出できた割合。見逃しを減らしたいとき重視
- F値(F1スコア) 適合率と再現率の調和平均。両者のバランスを一つの数値で表す
- ROC曲線・AUC 閾値を変えたときの性能を評価。AUCが1に近いほど判別性能が高い
「スパムメール検出で見逃しを減らしたい」→再現率重視、「誤って重要メールをスパムにしたくない」→適合率重視、といったケース問題に慣れておきましょう。
汎化・過学習・正則化
訓練データにだけ適合し、未知データで性能が落ちる過学習は頻出テーマです。
頻出問題パターン
四肢択一で繰り返し登場するパターンをまとめます。
- 学習手法の分類 「ラベル付きデータで分類モデルを学ぶ」→教師あり、「顧客をグループ分けする」→教師なし(クラスタリング)
- 指標の選択 不均衡データで精度だけを見ると危険、という文脈でF値や再現率を選ぶ
- 過学習の対策 正則化・早期終了・データ増強・モデル簡素化のうち、文脈に合うものを選ぶ
- バイアス・バリアンス モデルが単純すぎるとバイアスが高く、複雑すぎるとバリアンスが高い、というトレードオフ
- 特徴量エンジニアリング 生データからモデルに有効な特徴を作る工程。精度に大きく影響する
分野別演習で定着させる
G検定 一問一答「機械学習の概要」 — この分野に特化した演習問題
学習の進め方
- 用語の土台を固める 頻出用語50選の機械学習カテゴリと用語辞典で定義を確認
- 一問一答で理解度チェック domain-10を50問以上解き、正答率70%を目標に
- 評価指標は具体例で 混同行列を自分で書いてPrecision・Recallを計算する練習を1回でもすると定着しやすい
- ディープラーニングと接続 機械学習の基礎が固まったらディープラーニング分野へ進む
よくある質問
G検定の機械学習分野はどのシラバスに該当する?
「機械学習の概要」に該当します。最新の出題範囲は公式シラバスで確認してください。
機械学習とディープラーニングの違いは試験で問われる?
はい。機械学習は手法全般、ディープラーニングは多層ニューラルネットを使う深層学習です。ディープラーニング分野の解説もあわせて参照してください。
評価指標はどこまで覚える必要がある?
精度・適合率・再現率・F値の定義と使い分けは頻出です。不均衡データでは精度だけでは判断できない理由も問われます。
この分野の演習はどこでできる?
一問一答 domain-10で分野別に演習できます。当サイトの模擬問題は本番・過去問想定であり、公式の過去問ではありません。