モデル・技術

GPT-4とは?マルチモーダル対応と推論性能の次世代

読み:じーぴーてぃーよん / 英:GPT-4

更新日: 読了目安:約6分

GPT-4は、OpenAIが2023年に公開したマルチモーダル対応大規模言語モデルです。本記事はベンチマークの細部より、GPT-3.5からの2つの飛躍——マルチモーダル入力と推論性能——を試験で押さえる整理に焦点を当てます。

試験で問われる見方

生成AIパスポートでは、GPT-4はGPTモデル系列の発展を学ぶ際に扱われるモデルの一つとして出題されます(TF-0139)。正解のポイントは「GPT-3.5以前との流れ」とマルチモーダル化の文脈を結び付けることです。

マルチモーダル自体も第2章・第3章で問われます(TF-0192HQ-0219)。GPT-4を覚えるときは、「テキスト・画像・音声など複数形式を扱える性質」の代表例の一つとして系列に位置づけると整理しやすいです。

マルチモーダルという飛躍

GPT-3.5までは主にテキスト入出力が中心でした。GPT-4は画像を入力として扱えるマルチモーダル対応が大きな話題となり、チャートの読み取り・写真の説明など、テキストだけでは難しかったタスクが可能になりました。

試験でのマルチモーダルAIの定義は「テキスト、画像、音声など複数種類の情報を扱える性質」です。GPT-4はこの概念をChatGPTの実利用に結び付けた転換点の一つとして覚えます。

整理GPT-3.5GPT-4
入力の幅主にテキストテキスト+画像など
試験の焦点インストラクション追従・普及マルチモーダル化の進展
混同注意モデル≠サービスマルチモーダル入力≠画像生成モデル

マルチモーダル利用では、画像に写り込んだ個人情報や機密情報にも注意が必要です(TF-0288)。入力データの確認はテキストだけの利用時と同様に重要です。

推論性能の強化

GPT-4は、複雑な指示の理解・論理的な推論・コード生成などでGPT-3.5より高い性能が報告されました。試験では「常に正確」「ハルシネーションゼロ」とは扱わず、能力の向上限界の残存をセットで理解します。

  • 複雑タスク — 多段階の指示や長い文脈での整合性が改善
  • 専門分野 — 法律・医学などの試験問題で高得点が話題に(ベンチマーク文脈)
  • 限界ハルシネーションや知識の鮮度問題は残る。出力の検証は依然必要

2026年6月時点では、ChatGPTのデフォルトモデルは世代更新されています。試験では「GPT-4=今使っているモデル」と固定せず、系列の中でマルチモーダル・推論が強化された世代として答えるのが安全です。

GPT系列の中での位置

モデル試験で覚えるポイント
GPT-3大規模化+Few-shot。API提供の転換点
GPT-3.5インストラクション追従。ChatGPT普及の基盤
GPT-4マルチモーダル+推論強化の次世代
GPT-4 Turbo高速・低コスト化と128Kコンテキスト
GPT-4oテキスト・画像・音声のオムニ統合

すり替えに注意

誤った説明正しい理解
GPT-4=画像生成モデル(GAN)GPTはTransformer言語モデル系列。GANとは別(TF-0140
GPT-4=GPT-4o系列内の別世代。4oはオムニ統合の後続モデル
マルチモーダル=マルチエージェント複数データ形式の処理 vs 複数AIの協調。別概念
高性能=常に正確性能向上とハルシネーションリスクの残存は両立
GPT-4=ChatGPTモデル vs サービス。ChatGPTは複数世代のモデルを切り替え可能

よくある質問

GPT-4の最大の特徴は何ですか?

試験ではマルチモーダル対応——テキストに加え画像など複数形式の入力を扱える点——と、GPT-3.5より推論・複雑タスクで性能が向上した次世代モデルとして整理するのが中心です。ベンチマーク数値の暗記より系列の位置づけを優先してください。

GPT-4とGPT-4oの違いは?

GPT-4は2023年に登場した次世代モデルとして系列の中で扱われます。GPT-4oはその後のオムニモデルで、テキスト・画像・音声を統合処理する世代です。試験では「最新=GPT-4o」と固定せず、それぞれが系列の変遷として扱われる項目かどうかを確認します。

GPT-4は画像生成モデルですか?

いいえ。GPT-4はTransformerベースの言語モデル系列の一つであり、GANの生成器・識別器で構成される画像生成専用モデルではありません。画像を入力として理解するマルチモーダル対応と、画像を新規生成するモデルは別概念です。