G検定「自然言語処理」分野の全要点と頻出問題

Q: G検定の自然言語処理はどのシラバスに該当する？

主に「ディープラーニングの応用例」に含まれます。RNN・トランスフォーマー・LLMなどの言語処理技術が出題されます。最新の出題範囲は日本ディープラーニング協会の公式シラバスで確認してください。

Q: RNNとトランスフォーマー、どちらが重要？

両方とも重要です。RNNは系列データの文脈保持の基礎として、トランスフォーマーは現代のLLMの基盤として頻出します。使い分けと特徴の違いを押さえましょう。

Q: LLMの知識はどこまで必要？

大規模言語モデルの概要、事前学習とファインチューニングの違い、ハルシネーションなどの課題が問われます。実装の詳細より概念理解が中心です。

Q: この分野の演習はどこでできる？

一問一答「ディープラーニングの応用例」（domain-05）が中心です。系列モデルの基礎はdomain-07も参照してください。模擬試験は本番形式であり、公式の過去問ではありません。

自然言語処理（NLP）は、コンピュータが人間の言語を理解・生成する技術です。G検定では「ディープラーニングの応用例」を中心に、形態素解析から大規模言語モデル（LLM）まで幅広く出題されます。本記事では、ディープラーニング分野の知識を前提に、NLPの基本タスク・前処理・表現学習・系列モデル・LLM・頻出問題パターンを整理します。最新の出題範囲は日本ディープラーニング協会 G検定公式ページでご確認ください。

分野の位置づけ

NLPはシラバス10分野のうち、主にディープラーニングの応用例（domain-05）に該当します。基盤技術はディープラーニングの概要・要素技術（RNN・トランスフォーマー）と重なります。

古典的NLP 形態素解析・品詞タグ付け・構文解析など、ルールや統計に基づく言語処理
ニューラルNLP 単語埋め込み・RNN/LSTM・トランスフォーマーによる深層学習ベースの言語処理
生成AI時代のNLP LLMによる文章生成・要約・翻訳・対話。ChatGPTなどの基盤技術

NLPの基本タスク

G検定で問われる代表的なNLPタスクと、その性質です。

タスク	内容	例
形態素解析	文を意味の最小単位（形態素）に分割	「自然言語処理」→「自然/言語/処理」
品詞タグ付け	各単語に品詞（名詞・動詞など）を付与	文法構造の把握に利用
感情分析	テキストのポジティブ・ネガティブを判定	レビュー分析・SNS監視
固有表現抽出	人名・地名・組織名などを抽出	情報検索・要約の前処理
機械翻訳	ある言語の文を別の言語に変換	系列変換タスクの代表例
テキスト分類	文書をカテゴリに分類	スパム判定・トピック分類
質問応答	質問に対する回答を生成・抽出	チャットボット・検索支援

前処理と表現

テキストをモデルが扱える形式に変換する工程です。

トークン化 テキストをトークン（単語やサブワード単位）に分割。言語によって手法が異なる
ストップワード除去 「は」「の」など意味の薄い語を除去し、ノイズを減らす
正規化 表記ゆれの統一（全角・半角、大文字・小文字など）
Bag of Words（BoW） 単語の出現頻度ベクトルで文書を表現。語順の情報は失われる
TF-IDF 単語の重要度を頻度と文書全体での希少性で重み付け
単語埋め込み（Word Embedding） 単語を低次元の密なベクトルで表現。埋め込みにより意味的に近い語が近いベクトルになる

系列モデルとトランスフォーマー

文脈を考慮した言語処理のためのモデル構造です。

RNN（リカレントニューラルネットワーク） 過去の状態を保持し、時系列・文脈を逐次処理。長文では勾配消失の課題
LSTM・GRU ゲート機構で長期依存を学習しやすくしたRNNの改良版
Seq2Seq（系列変換） エンコーダ・デコーダ構造で入力系列から出力系列を生成。機械翻訳に応用
アテンション 入力のどの部分に注目すべきかを重み付け。長い文脈の処理を改善
トランスフォーマー アテンション機構のみで系列を処理。並列計算に適し、現代LLMの基盤
BERT・GPT トランスフォーマーベースの事前学習モデル。BERTは双方向、GPTは左から右への生成に特化

LLMと生成AI

近年のG検定では生成AI関連の出題が増えています。

大規模言語モデル（LLM） 大量のテキストで事前学習された大規模な言語モデル。ChatGPTの基盤
事前学習とファインチューニング 汎用知識を事前学習で獲得し、特定タスク用に追加学習する二段階の流れ
プロンプトエンジニアリング 適切な指示文でLLMの出力品質を高める技法
ハルシネーション LLMがもっともらしいが事実と異なる内容を生成する現象
RAG（検索拡張生成） 外部データを検索してから生成することで、回答の正確性を高める手法

頻出問題パターン

タスクと手法の対応 「機械翻訳」→系列変換、「感情分析」→テキスト分類
BoWと埋め込みの違い BoWは疎ベクトルで語順を無視、埋め込みは密ベクトルで意味的類似を表現
RNNとトランスフォーマーの比較 RNNは逐次処理で長文に弱い、トランスフォーマーは並列処理とアテンションで長距離依存を捉える
LLMの課題 ハルシネーション・偏り・著作権・個人情報など、生成AI特有のリスク
前処理の目的 ノイズ除去・表記統一・トークン化など、モデル入力の品質向上

分野別演習で定着させる

G検定一問一答「ディープラーニングの応用例」 — NLP・生成AIを含む応用分野の演習

学習の進め方

ディープラーニングの基礎を確認 DL分野でRNN・トランスフォーマーの概要を押さえる
用語を整理 LLM・埋め込み・トークンなど関連用語を用語辞典で確認
domain-05で演習 応用例の一問一答を50問以上解き、NLP・生成AIの問題パターンに慣れる
生成AIの倫理も接続 ハルシネーションやバイアスは倫理・法律分野とも関連

よくある質問

G検定の自然言語処理はどのシラバスに該当する？

主に「ディープラーニングの応用例」（domain-05）に含まれます。最新の出題範囲は公式シラバスで確認してください。

RNNとトランスフォーマー、どちらが重要？

両方とも重要です。RNNは系列処理の基礎、トランスフォーマーは現代LLMの基盤として頻出します。ディープラーニング分野もあわせて学習しましょう。

LLMの知識はどこまで必要？

概要・事前学習とファインチューニングの違い・ハルシネーションなどの課題が問われます。実装の詳細より概念理解が中心です。

この分野の演習はどこでできる？

domain-05が中心です。当サイトの模擬問題は本番形式であり、公式の過去問ではありません。