OCR(光学文字認識)は、画像に写った文字を読み取り、テキストデータに戻す技術です。LLMが文章を生成する流れと逆に、紙や写真から既にある文字列を復元する——Text-to-Imageとも方向が正反対——本記事は製品名の羅列より、画像認識タスクとしてのOCRに焦点を当てます。
生成とは逆方向の変換
デジタル文書はテキストとして扱えますが、紙の契約書・レシート・看板の写真は最初は画像です。OCRはそこに写った文字そのものを検出・認識し、Unicodeの文字列へ変換します。
G-390のImage Captioningは「犬が公園で走っている」といった説明文を生成——OCRは「請求書No.12345」のように写っている文字をそのまま転写——出力の性質が根本的に異なります。
典型的な処理の流れ
OCRは単一のボタンではなく、だいたい次の段階で構成されます。
- 1. 前処理 — 傾き補正、二値化、ノイズ除去で文字を読みやすくする
- 2. 文字領域検出 — 画像のどこに文字があるかを特定(行・単語・文字ボックス)
- 3. 文字認識 — 各領域の画素パターンを文字クラスへ(CNNなど)
- 4. 後処理 — 辞書照合、言語モデルで誤認識を補正
深層学習以前から実用化されていますが、現代でもHQ-0298が示す畳み込みによる局所特徴——文字のストロークや部品——の捉え方はOCRの核です。
画像認識タスクとの位置づけ
| タスク | 出力 | OCRとの差 |
|---|---|---|
| 画像分類 | 画像全体の1ラベル | 「請求書」かどうか vs 中の文字列 |
| 物体検出 | 種類+位置(G-021) | 物体の箱 vs 文字の読取 |
| OCR | 文字列テキスト | ピクセル→編集可能な文字 |
| Image Captioning | 説明文章(G-390) | 内容の言語化 vs 文字の転写 |
G-316が扱う「画像中のどこに何があるか」——OCRも位置(どこに字があるか)と内容(何の字か)の両方を扱う点で物体検出に近い面がありますが、目的はテキスト化です。
古典応用とマルチモーダル時代
請求書処理、名刺デジタル化、書籍スキャン、交通標識の読取——OCRは弱いAI(特定タスク特化)の典型応用のひとつです(弱いAI)。
マルチモーダルのLLMが画像を入力に文字を答える場合もあります(HQ-0267)——ただし試験ではOCR=画像から文字をテキスト化する技術と、マルチモーダル=複数種類の情報を扱える性質を混同しないことが重要です。
OCR結果はRAGの検索対象や、NLPパイプラインの入力にもなります——画像→テキストの出口でOCRが終わり、以降はテキスト処理の世界に入ります。
試験で押さえるポイント
- 定義 — Optical Character Recognition=画像中の文字を認識してテキスト化
- 分野 — コンピュータビジョンの応用(画像認識)
- 対比 — 形態素解析(NLP)、Image Captioning、Text-to-Image、音声認識
- すり替え回避 — LLMそのもの・文書のトピック分析(LDA)ではない
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| OCR=Image Captioning | 文字の転写 vs 内容の説明文(G-390) |
| OCR=Text-to-Image | 画像→テキスト vs テキスト→画像 |
| OCR=形態素解析 | 画像から文字抽出 vs テキストの分割(G-021 C) |
| OCR=LLM | CV応用タスク vs 大規模言語モデル |
| OCR=MFCC | 文字の画像認識 vs 音声特徴量(G-023) |
よくある質問
OCRは何をする技術ですか?
画像やスキャンデータに写っている文字を検出し、機械が扱えるテキスト(文字列)に変換する技術です。紙の文書をデジタル化したり、写真に写った文字を抽出したりする用途で使われます。
OCRとImage Captioningは同じですか?
同じではありません。OCRは画像に写った文字そのものを読み取りテキスト化します。Image Captioningは画像の内容を自然言語の説明文として生成するタスクです。前者は文字の復元、後者は内容の要約・説明であり、出力の性質が異なります。
OCRとLLMは同じですか?
同じではありません。OCRは画像から文字を読み取るコンピュータビジョンの応用タスクです。LLMは大規模なテキストデータで学習した言語モデルです。マルチモーダルLLMが画像内の文字を読める場合もありますが、OCRはタスク名、LLMはモデルクラスとして区別します。