自然言語処理(NLP)は、コンピュータが人間の言語を理解・生成する技術です。G検定では「ディープラーニングの応用例」を中心に、形態素解析から大規模言語モデル(LLM)まで幅広く出題されます。本記事では、ディープラーニング分野の知識を前提に、NLPの基本タスク・前処理・表現学習・系列モデル・LLM・頻出問題パターンを整理します。最新の出題範囲は日本ディープラーニング協会 G検定公式ページでご確認ください。
分野の位置づけ
NLPはシラバス10分野のうち、主にディープラーニングの応用例(domain-05)に該当します。基盤技術はディープラーニングの概要・要素技術(RNN・トランスフォーマー)と重なります。
- 古典的NLP 形態素解析・品詞タグ付け・構文解析など、ルールや統計に基づく言語処理
- ニューラルNLP 単語埋め込み・RNN/LSTM・トランスフォーマーによる深層学習ベースの言語処理
- 生成AI時代のNLP LLMによる文章生成・要約・翻訳・対話。ChatGPTなどの基盤技術
NLPの基本タスク
G検定で問われる代表的なNLPタスクと、その性質です。
| タスク | 内容 | 例 |
|---|---|---|
| 形態素解析 | 文を意味の最小単位(形態素)に分割 | 「自然言語処理」→「自然/言語/処理」 |
| 品詞タグ付け | 各単語に品詞(名詞・動詞など)を付与 | 文法構造の把握に利用 |
| 感情分析 | テキストのポジティブ・ネガティブを判定 | レビュー分析・SNS監視 |
| 固有表現抽出 | 人名・地名・組織名などを抽出 | 情報検索・要約の前処理 |
| 機械翻訳 | ある言語の文を別の言語に変換 | 系列変換タスクの代表例 |
| テキスト分類 | 文書をカテゴリに分類 | スパム判定・トピック分類 |
| 質問応答 | 質問に対する回答を生成・抽出 | チャットボット・検索支援 |
前処理と表現
テキストをモデルが扱える形式に変換する工程です。
系列モデルとトランスフォーマー
文脈を考慮した言語処理のためのモデル構造です。
LLMと生成AI
近年のG検定では生成AI関連の出題が増えています。
- 大規模言語モデル(LLM) 大量のテキストで事前学習された大規模な言語モデル。ChatGPTの基盤
- 事前学習とファインチューニング 汎用知識を事前学習で獲得し、特定タスク用に追加学習する二段階の流れ
- プロンプトエンジニアリング 適切な指示文でLLMの出力品質を高める技法
- ハルシネーション LLMがもっともらしいが事実と異なる内容を生成する現象
- RAG(検索拡張生成) 外部データを検索してから生成することで、回答の正確性を高める手法
頻出問題パターン
- タスクと手法の対応 「機械翻訳」→系列変換、「感情分析」→テキスト分類
- BoWと埋め込みの違い BoWは疎ベクトルで語順を無視、埋め込みは密ベクトルで意味的類似を表現
- RNNとトランスフォーマーの比較 RNNは逐次処理で長文に弱い、トランスフォーマーは並列処理とアテンションで長距離依存を捉える
- LLMの課題 ハルシネーション・偏り・著作権・個人情報など、生成AI特有のリスク
- 前処理の目的 ノイズ除去・表記統一・トークン化など、モデル入力の品質向上
分野別演習で定着させる
G検定 一問一答「ディープラーニングの応用例」 — NLP・生成AIを含む応用分野の演習
学習の進め方
よくある質問
G検定の自然言語処理はどのシラバスに該当する?
主に「ディープラーニングの応用例」(domain-05)に含まれます。最新の出題範囲は公式シラバスで確認してください。
RNNとトランスフォーマー、どちらが重要?
両方とも重要です。RNNは系列処理の基礎、トランスフォーマーは現代LLMの基盤として頻出します。ディープラーニング分野もあわせて学習しましょう。
LLMの知識はどこまで必要?
概要・事前学習とファインチューニングの違い・ハルシネーションなどの課題が問われます。実装の詳細より概念理解が中心です。
この分野の演習はどこでできる?
domain-05が中心です。当サイトの模擬問題は本番・過去問想定であり、公式の過去問ではありません。