Whisper · 音声・動画・音楽

Whisperとは?OpenAI音声認識の機能・料金・使い方を解説

99言語以上に対応するオープンソースのSpeech-to-Textモデル。APIでも自社ホストでも利用可能

オープンソース Speech-to-Text API従量課金
対応環境
  • Python(OSS)
  • OpenAI API
  • macOS / Linux / Windows
OpenAI Whisperの公式ドキュメントイメージ
出典:OpenAI公式(developers.openai.com)
更新日: 読了目安:約8分

Whisperは、OpenAIが2022年に公開した音声認識(Speech-to-Text)モデルです。オープンソースとして無料で利用でき、OpenAI API経由でも従量課金で呼び出せます。NottaやOtter.aiのような会議アプリとは異なり、開発者向けの基盤技術として位置づけられます。本記事では、API料金会議アプリとの違い試験での誤解を整理します。料金とモデル名は2026年6月時点の情報です。

試験で問われる見方

生成AIパスポートでは、Speech-to-TextとText-to-Speechの区別、音声データの個人情報リスク、オープンソースモデルの活用が論点になります。Whisperは「音声→テキスト」の代表例として押さえると整理しやすいです。

「Whisper=ChatGPT」「Whisper=会議アプリ(Notta等)」と混同しないことが重要です。Whisperはモデル/APIであり、会議メモSaaSとはレイヤーが異なります。

Whisperとは

Whisperは、雑音の多い環境や多言語の音声でも比較的高精度に文字起こしできると評価される音声認識モデルです。2022年9月にOpenAIが論文とともにオープンソースとして公開しました。

利用形態は大きく2つあります。自社ホストではGitHub上のモデルウェイトをダウンロードし、GPUサーバーやローカルPCで実行します。OpenAI APIでは/audio/transcriptionsエンドポイント経由でクラウド処理し、分単位の従量課金となります。

2026年時点では、APIには従来のwhisper-1に加え、gpt-4o-transcribegpt-4o-mini-transcribe、話者分離対応のgpt-4o-transcribe-diarizeなどが案内されています。モデルの提供状況は更新されるため、利用前に公式ドキュメントで確認してください。

できること(主な機能)

多言語文字起こし

99言語以上の音声をテキスト化。日本語を含む多言語コンテンツの処理に使われる。

翻訳モード

非英語の音声を英語テキストに翻訳しながら書き起こすモード(APIのtranslateエンドポイント)。

タイムスタンプ

APIではセグメント単位のタイムスタンプを取得可能。字幕生成の前処理に使える。

話者分離(Diarize)

gpt-4o-transcribe-diarizeで話者ラベル付きの文字起こしが可能(2026年6月時点)。

自社ホスト

オープンソース版を社内サーバーで実行し、データを外部に出さない構成が可能。

アプリ組み込み

API経由で自社サービスにSTT機能を追加。会議アプリとは別レイヤーの開発用途。

よくある誤解

代表的な誤解は「Whisper=ChatGPTの音声モード」です。Whisperは音声認識モデル(STT)であり、ChatGPTの音声会話は対話型の生成AI機能です。関連技術ではありますが同一製品ではありません。

もう1つは「Whisper=NottaやOtter.ai」です。後者は会議メモの完成されたSaaS、Whisperは開発者が組み込む音声認識エンジンです。エンドユーザーがそのまま会議に参加させるツールではありません。

料金(2026年6月時点)

Whisperには「月額プラン」はなく、利用形態ごとにコスト構造が異なります。以下は2026年6月時点の整理です。

OSS(自社ホスト)

$0

モデル自体は無料

OpenAI API

$0.006/分

whisper-1 / gpt-4o-transcribe

Mini API

$0.003/分

gpt-4o-mini-transcribe

利用形態 料金(2026年6月時点) 主な条件
オープンソース(自社ホスト)モデル$0+インフラ費GPU・運用コストは自社負担。ファイルサイズ制限なし
whisper-1 / gpt-4o-transcribe$0.006/分($0.36/時)1ファイル25MB上限・秒単位課金(API)
gpt-4o-mini-transcribe$0.003/分($0.18/時)コスト重視のバッチ処理向け
gpt-4o-transcribe-diarizeトークン課金(公式Pricing参照)話者分離付き文字起こし
gpt-realtime-whisper(ストリーミング)$0.017/分リアルタイム文字起こし(公式Pricing)

1,000分の処理は whisper-1 で約$6.00、mini-transcribe で約$3.00の目安です。自社ホストは処理量が多いほどAPIより安くなる場合がありますが、GPU・運用の固定費がかかります。モデルの提供終了スケジュールも更新されるため、本番利用前に記事末尾の公式リンクからモデル一覧を確認してください。

はじめ方・基本的な使い方

  1. 用途を決める会議メモならNotta等のSaaS、自社アプリ組み込みならWhisper APIまたは自社ホストを選びます。
  2. API利用の場合OpenAIアカウントを作成し、APIキーを取得。音声ファイルを/audio/transcriptionsにPOSTします。
  3. モデルを選択精度重視ならgpt-4o-transcribe、コスト重視ならgpt-4o-mini-transcribe、話者分離ならdiarizeモデルを選びます。
  4. 自社ホストの場合GitHubのopenai/whisperリポジトリからモデルを取得し、Python環境で実行します。
  5. 結果を活用得られたテキストを議事録、字幕、検索インデックスなどに渡します。
OpenAI Whisperの公式ドキュメントイメージ
出典:OpenAI公式(developers.openai.com)

ビジネスでの活用例

自社サービスへのSTT組み込み

  • 社内ポータルに音声入力機能を追加
  • コールセンター録音のテキスト化
  • APIで従量課金、少量なら運用が簡単

データガバナンス重視の処理

  • オープンソース版を社内GPUで実行
  • 機密音声を外部クラウドに送らない
  • 運用・スケーリングのコストは自社負担

試験・資格の学習

  • Speech-to-Textの基盤モデルとして整理
  • SaaS(Notta等)とのレイヤー差を理解
  • 音声データの個人情報リスクを併せて学習

メリット・デメリット

メリットデメリット
オープンソースで無料利用可能自社ホストはGPU・運用が必要
APIは$0.003〜0.006/分と比較的安価APIは1ファイル25MB上限
99言語以上に対応会議連携・要約UIは別途開発が必要
多くのSTTサービスの基盤技術モデル提供状況は更新・廃止があり得る

主要ツールとの比較

項目WhisperNottaElevenLabs
種類音声認識モデル/API会議STTのSaaS音声生成AIプラットフォーム
技術分類Speech-to-TextSpeech-to-Text主にText-to-Speech
料金形態OSS無料 or API従量月額サブスク月額サブスク+従量
主なユーザー開発者・エンジニアビジネスユーザークリエイター・開発者
試験での位置づけSTT基盤モデルの例日本語議事録AIの例音声生成AIの例

会議メモをすぐ使うならNotta、音声認識を自社製品に組み込むならWhisper、ナレーション生成ならElevenLabsという使い分けが一般的です。OpenAI全体像はChatGPT記事も参照してください。

こんな人におすすめ

  • 自社アプリに文字起こし機能を組み込みたい開発者
  • 機密音声を社内だけで処理したいインフラ担当
  • 試験対策でSpeech-to-Textの基盤技術を押さえたい受験生

あえて向いていないのは、会議の議事録をすぐ自動化したい一般ビジネスユーザー(NottaOtter.ai向け)や、テキストから音声を生成したいケース(ElevenLabs向け)です。

よくある質問

無料で使えますか?

オープンソースモデルは無料です。OpenAI APIは従量課金(例:$0.006/分)です。自社ホストにはGPUなどのインフラ費がかかります。

音声合成ツールですか?

いいえ。Speech-to-Text(音声→テキスト)のモデルです。Text-to-Speechとは別カテゴリです。

ChatGPTと同じですか?

いいえ。Whisperは音声認識モデル、ChatGPTは対話型生成AIです。関連技術ですが別製品です。

APIの料金は?

2026年6月時点の公式Pricingでは whisper-1 / gpt-4o-transcribe が$0.006/分、gpt-4o-mini-transcribe が$0.003/分です。

NottaやOtter.aiとの関係は?

Notta等は会議向けSaaS、Whisperは開発者向けの音声認識基盤です。レイヤーが異なります。