GPT-4は、OpenAIが2023年に公開したマルチモーダル対応の大規模言語モデルです。本記事はベンチマークの細部より、GPT-3.5からの2つの飛躍——マルチモーダル入力と推論性能——を試験で押さえる整理に焦点を当てます。
試験で問われる見方
生成AIパスポートでは、GPT-4はGPTモデル系列の発展を学ぶ際に扱われるモデルの一つとして出題されます(TF-0139)。正解のポイントは「GPT-3.5以前との流れ」とマルチモーダル化の文脈を結び付けることです。
マルチモーダル自体も第2章・第3章で問われます(TF-0192、HQ-0219)。GPT-4を覚えるときは、「テキスト・画像・音声など複数形式を扱える性質」の代表例の一つとして系列に位置づけると整理しやすいです。
演習で確認する
生成AIパスポート:TF-0139(GPT-4)、TF-0192(マルチモーダルAI)、HQ-0219(マルチモーダルの定義)
系列の流れ:TF-0138(GPT-3.5) · TF-0140(GPT≠GAN)
マルチモーダルという飛躍
GPT-3.5までは主にテキスト入出力が中心でした。GPT-4は画像を入力として扱えるマルチモーダル対応が大きな話題となり、チャートの読み取り・写真の説明など、テキストだけでは難しかったタスクが可能になりました。
試験でのマルチモーダルAIの定義は「テキスト、画像、音声など複数種類の情報を扱える性質」です。GPT-4はこの概念をChatGPTの実利用に結び付けた転換点の一つとして覚えます。
| 整理 | GPT-3.5 | GPT-4 |
|---|---|---|
| 入力の幅 | 主にテキスト | テキスト+画像など |
| 試験の焦点 | インストラクション追従・普及 | マルチモーダル化の進展 |
| 混同注意 | モデル≠サービス | マルチモーダル入力≠画像生成モデル |
マルチモーダル利用では、画像に写り込んだ個人情報や機密情報にも注意が必要です(TF-0288)。入力データの確認はテキストだけの利用時と同様に重要です。
推論性能の強化
GPT-4は、複雑な指示の理解・論理的な推論・コード生成などでGPT-3.5より高い性能が報告されました。試験では「常に正確」「ハルシネーションゼロ」とは扱わず、能力の向上と限界の残存をセットで理解します。
- 複雑タスク — 多段階の指示や長い文脈での整合性が改善
- 専門分野 — 法律・医学などの試験問題で高得点が話題に(ベンチマーク文脈)
- 限界 — ハルシネーションや知識の鮮度問題は残る。出力の検証は依然必要
2026年6月時点では、ChatGPTのデフォルトモデルは世代更新されています。試験では「GPT-4=今使っているモデル」と固定せず、系列の中でマルチモーダル・推論が強化された世代として答えるのが安全です。
GPT系列の中での位置
| モデル | 試験で覚えるポイント |
|---|---|
| GPT-3 | 大規模化+Few-shot。API提供の転換点 |
| GPT-3.5 | インストラクション追従。ChatGPT普及の基盤 |
| GPT-4 | マルチモーダル+推論強化の次世代 |
| GPT-4 Turbo | 高速・低コスト化と128Kコンテキスト |
| GPT-4o | テキスト・画像・音声のオムニ統合 |
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| GPT-4=画像生成モデル(GAN) | GPTはTransformer言語モデル系列。GANとは別(TF-0140) |
| GPT-4=GPT-4o | 系列内の別世代。4oはオムニ統合の後続モデル |
| マルチモーダル=マルチエージェント | 複数データ形式の処理 vs 複数AIの協調。別概念 |
| 高性能=常に正確 | 性能向上とハルシネーションリスクの残存は両立 |
| GPT-4=ChatGPT | モデル vs サービス。ChatGPTは複数世代のモデルを切り替え可能 |
よくある質問
GPT-4の最大の特徴は何ですか?
試験ではマルチモーダル対応——テキストに加え画像など複数形式の入力を扱える点——と、GPT-3.5より推論・複雑タスクで性能が向上した次世代モデルとして整理するのが中心です。ベンチマーク数値の暗記より系列の位置づけを優先してください。
GPT-4とGPT-4oの違いは?
GPT-4は2023年に登場した次世代モデルとして系列の中で扱われます。GPT-4oはその後のオムニモデルで、テキスト・画像・音声を統合処理する世代です。試験では「最新=GPT-4o」と固定せず、それぞれが系列の変遷として扱われる項目かどうかを確認します。
GPT-4は画像生成モデルですか?
いいえ。GPT-4はTransformerベースの言語モデル系列の一つであり、GANの生成器・識別器で構成される画像生成専用モデルではありません。画像を入力として理解するマルチモーダル対応と、画像を新規生成するモデルは別概念です。