モデル・技術

NLPとは?言葉の処理圏——テキスト専門の応用ドメイン

読み:えぬえるぴー / 英:NLP(Natural Language Processing/自然言語処理)

更新日: 読了目安:約7分

NLP(Natural Language Processing/自然言語処理)は、人間の言語をコンピュータで扱う技術分野です。画像認識や音声処理と並ぶAIの応用ドメインの一つで、翻訳・要約・感情分析・質問応答などが含まれます。LLMChatGPTはその最新の道具ですが、NLPそのものではありません。本記事は手法の網羅ではなく、「分野・タスク・モデル」の三層地図に焦点を当てます。

試験で問われる見方

定義の骨格は「人間が使う言語をコンピュータで処理する技術分野」TF-126)。形態素解析、機械翻訳、質問応答、文書要約、感情分析などが含まれる、とセットで覚えます。

機械翻訳は「ある言語の文を別の言語の文へ変換するNLPタスク」G-340)。セグメンテーション(画像)や話者識別(音声)とは別です。

NLPモデルの評価では、自動指標だけで品質・事実性を完全に測れないことがある——人手評価や安全性の確認が重要、という論点も出ます(G-350)。

演習で確認する

G検定:TF-126(定義)G-340(機械翻訳)G-350(評価)

関連:G-337(BERT)

NLPとは

NLPは分野名——単一のモデルや製品ではありません。人間が日常使う「自然言語」(日本語、英語など)を、コンピュータが理解・変換・生成するための技術全体を指します。

ルールベースの辞書照合から統計的手法、深層学習、そして基盤モデル時代のLLMまで、中身の技術は時代とともに変わりますが、対象が言語であることは不変です。

主要タスク

タスク内容試験での例
機械翻訳言語A→言語BG-340
文書要約長文を短く要約TF-126の解説
質問応答文書から答えを抽出BERTの得意領域
感情分析ポジ/ネガ判定分類タスクの代表
形態素解析語の切り出し・品詞前処理の基本

タスクは何をしたいか、モデル(BERT、GPT等)はどう実現するか——この分離が試験の整理のコツです。

古典からLLMまでの層

NLPの歴史を試験向けに三層で俯瞰します。細部の暗記より時代の流れが目的です。

時代代表的手法特徴
古典BoW、n-gram語の出現情報を数値化(TF-127)
深層学習RNNLSTMCNN(文分類)系列・文脈の学習
Transformer期BERTGPTAttentionによる飛躍
基盤モデル期LLMChatGPT汎用対話・生成

LLMはNLPの最新章であり、NLP=LLMだけ、とは答えません。BoWもNLPの歴史の一部です。

画像・音声との境界

分野対象データ試験向け
NLPテキスト・自然言語翻訳・要約など
コンピュータビジョン画像・動画CNNが典型
音声処理音声波形MFCC、CTC、話者識別など

TF-126の解説にあるように、扱う対象が異なる——この一言で多くのすり替えを防げます。

評価の注意点

翻訳にはBLEUなどの自動指標、分類には正解率やF値——タスクごとに評価方法は異なります。とくに文章生成・要約では、自動指標だけでは品質や事実性を完全に測れないことがあります(G-350)。

  • 自動評価の限界 もっともらしいが事実と異なる出力を見逃すことがある
  • 人手評価 自然さ・有用性・安全性の確認
  • 安全性・偏り 有害出力や差別的表現のチェック

LLM時代になっても、評価データを用いる必要がないは×(G-350の誤答)——という整理は有効です。

すり替えに注意

誤った説明正しい理解
NLP=LLM分野 vs モデルクラス
NLP=ChatGPT分野 vs サービス
機械翻訳=画像セグメンテーションG-340の誤答パターン
NLP=CNN言語 vs 画像
評価不要G-350の誤答

よくある質問

NLPの定義として正しいのは?

人間が使う言語をコンピュータで処理する技術分野、と整理します。機械翻訳、質問応答、文書要約、感情分析などが含まれます。

NLPとLLMは同じですか?

同じではありません。NLPは言語を扱う応用分野全体の名称であり、LLMはその中で使われる大規模言語モデルの一種です。分野 vs モデルクラスの関係です。

NLP=画像認識ですか?

いいえ。NLPはテキスト・言語が対象です。画像認識は別分野(コンピュータビジョン)であり、扱うデータが異なります。