OCRとは？ピクセルの中の字を読む——画像認識がテキスト化を担う古典応用

OCR（光学文字認識）は、画像に写った文字を読み取り、テキストデータに戻す技術です。LLMが文章を生成する流れと逆に、紙や写真から既にある文字列を復元する——Text-to-Imageとも方向が正反対——本記事は製品名の羅列より、画像認識タスクとしてのOCRに焦点を当てます。

生成とは逆方向の変換

デジタル文書はテキストとして扱えますが、紙の契約書・レシート・看板の写真は最初は画像です。OCRはそこに写った文字そのものを検出・認識し、Unicodeの文字列へ変換します。

G-390のImage Captioningは「犬が公園で走っている」といった説明文を生成——OCRは「請求書No.12345」のように写っている文字をそのまま転写——出力の性質が根本的に異なります。

典型的な処理の流れ

OCRは単一のボタンではなく、だいたい次の段階で構成されます。

1. 前処理 — 傾き補正、二値化、ノイズ除去で文字を読みやすくする
2. 文字領域検出 — 画像のどこに文字があるかを特定（行・単語・文字ボックス）
3. 文字認識 — 各領域の画素パターンを文字クラスへ（CNNなど）
4. 後処理 — 辞書照合、言語モデルで誤認識を補正

深層学習以前から実用化されていますが、現代でもHQ-0298が示す畳み込みによる局所特徴——文字のストロークや部品——の捉え方はOCRの核です。

画像認識タスクとの位置づけ

タスク	出力	OCRとの差
画像分類	画像全体の1ラベル	「請求書」かどうか vs 中の文字列
物体検出	種類＋位置（G-021）	物体の箱 vs 文字の読取
OCR	文字列テキスト	ピクセル→編集可能な文字
Image Captioning	説明文章（G-390）	内容の言語化 vs 文字の転写

G-316が扱う「画像中のどこに何があるか」——OCRも位置（どこに字があるか）と内容（何の字か）の両方を扱う点で物体検出に近い面がありますが、目的はテキスト化です。

古典応用とマルチモーダル時代

請求書処理、名刺デジタル化、書籍スキャン、交通標識の読取——OCRは弱いAI（特定タスク特化）の典型応用のひとつです（弱いAI）。

マルチモーダルのLLMが画像を入力に文字を答える場合もあります（HQ-0267）——ただし試験ではOCR＝画像から文字をテキスト化する技術と、マルチモーダル＝複数種類の情報を扱える性質を混同しないことが重要です。

OCR結果はRAGの検索対象や、NLPパイプラインの入力にもなります——画像→テキストの出口でOCRが終わり、以降はテキスト処理の世界に入ります。

試験で押さえるポイント

定義 — Optical Character Recognition＝画像中の文字を認識してテキスト化
分野 — コンピュータビジョンの応用（画像認識）
対比 — 形態素解析（NLP）、Image Captioning、Text-to-Image、音声認識
すり替え回避 — LLMそのもの・文書のトピック分析（LDA）ではない

演習で確認する

G検定：G-316、G-390、G-021、G-023

生成AIパスポート：HQ-0298、HQ-0267

すり替えに注意

誤った説明	正しい理解
OCR＝Image Captioning	文字の転写 vs 内容の説明文（G-390）
OCR＝Text-to-Image	画像→テキスト vs テキスト→画像
OCR＝形態素解析	画像から文字抽出 vs テキストの分割（G-021 C）
OCR＝LLM	CV応用タスク vs 大規模言語モデル
OCR＝MFCC	文字の画像認識 vs 音声特徴量（G-023）

よくある質問

OCRは何をする技術ですか？

画像やスキャンデータに写っている文字を検出し、機械が扱えるテキスト（文字列）に変換する技術です。紙の文書をデジタル化したり、写真に写った文字を抽出したりする用途で使われます。

OCRとImage Captioningは同じですか？

同じではありません。OCRは画像に写った文字そのものを読み取りテキスト化します。Image Captioningは画像の内容を自然言語の説明文として生成するタスクです。前者は文字の復元、後者は内容の要約・説明であり、出力の性質が異なります。

OCRとLLMは同じですか？

同じではありません。OCRは画像から文字を読み取るコンピュータビジョンの応用タスクです。LLMは大規模なテキストデータで学習した言語モデルです。マルチモーダルLLMが画像内の文字を読める場合もありますが、OCRはタスク名、LLMはモデルクラスとして区別します。