Whisperは無料で使えますか？

オープンソースモデルは無料でダウンロードし、自社サーバーやPC上で実行できます。ただしGPUなどのインフラ費用は別途かかります。OpenAI API経由では従量課金（例：$0.006/分）です（2026年6月時点）。

Whisperは音声合成（Text-to-Speech）ですか？

いいえ。WhisperはSpeech-to-Text（音声からテキスト）のモデルです。テキストから音声を生成するText-to-Speechとは入出力が逆です。

WhisperとChatGPTの音声機能は同じですか？

いいえ。Whisperは音声認識モデル（STT）であり、ChatGPTアプリの音声会話は対話型の生成AI機能です。Whisperは多くのサービスの文字起こし基盤として使われますが、ChatGPTそのものではありません。

WhisperとNotta・Otter.aiの関係は？

NottaやOtter.aiは会議向けの文字起こしアプリ（SaaS）です。Whisperは音声認識の基盤モデルであり、開発者がAPIや自社ホストで組み込む用途が中心です。エンドユーザーが会議メモを取るならSaaS、自社システムにSTTを組み込むならWhisper APIが向くことが多いです。

Whisperとは？OpenAI音声認識の機能・料金・使い方を解説

Q: Whisper APIの料金はいくらですか？

2026年6月時点のOpenAI API公式Pricingでは、whisper-1およびgpt-4o-transcribeが$0.006/分、gpt-4o-mini-transcribeが$0.003/分と案内されています。最新のモデル名と価格は契約前に公式で確認してください。

Whisper（ウィスパー）は、OpenAIが2022年に公開した音声認識（Speech-to-Text）モデルです。オープンソースとして無料で利用でき、OpenAI API経由でも従量課金で呼び出せます。NottaやOtter.aiのような会議アプリとは異なり、開発者向けの基盤技術として位置づけられます。本記事では、API料金、会議アプリとの違い、試験での誤解を整理します。料金とモデル名は2026年6月時点の情報です。

試験で問われる見方

生成AIパスポートでは、Speech-to-TextとText-to-Speechの区別、音声データの個人情報リスク、オープンソースモデルの活用が論点になります。Whisperは「音声→テキスト」の代表例として押さえると整理しやすいです。

「Whisper＝ChatGPT」「Whisper＝会議アプリ（Notta等）」と混同しないことが重要です。Whisperはモデル/APIであり、会議メモSaaSとはレイヤーが異なります。

このサイトの演習で確認する

生成AIパスポート：一問一答 TF-0195（Speech-to-TextとTTSの区別）、TF-0447（文字起こしから議事録下書き）、TF-0289（音声データの個人情報リスク）

G検定：一問一答 TF-170（生成AI）

Whisperとは

Whisperは、雑音の多い環境や多言語の音声でも比較的高精度に文字起こしできると評価される音声認識モデルです。2022年9月にOpenAIが論文とともにオープンソースとして公開しました。

利用形態は大きく2つあります。自社ホストではGitHub上のモデルウェイトをダウンロードし、GPUサーバーやローカルPCで実行します。OpenAI APIでは/audio/transcriptionsエンドポイント経由でクラウド処理し、分単位の従量課金となります。

2026年時点では、APIには従来のwhisper-1に加え、gpt-4o-transcribeやgpt-4o-mini-transcribe、話者分離対応のgpt-4o-transcribe-diarizeなどが案内されています。モデルの提供状況は更新されるため、利用前に公式ドキュメントで確認してください。

できること（主な機能）

多言語文字起こし

99言語以上の音声をテキスト化。日本語を含む多言語コンテンツの処理に使われる。

翻訳モード

非英語の音声を英語テキストに翻訳しながら書き起こすモード（APIのtranslateエンドポイント）。

タイムスタンプ

APIではセグメント単位のタイムスタンプを取得可能。字幕生成の前処理に使える。

話者分離（Diarize）

gpt-4o-transcribe-diarizeで話者ラベル付きの文字起こしが可能（2026年6月時点）。

自社ホスト

オープンソース版を社内サーバーで実行し、データを外部に出さない構成が可能。

アプリ組み込み

API経由で自社サービスにSTT機能を追加。会議アプリとは別レイヤーの開発用途。

よくある誤解

代表的な誤解は「Whisper＝ChatGPTの音声モード」です。Whisperは音声認識モデル（STT）であり、ChatGPTの音声会話は対話型の生成AI機能です。関連技術ではありますが同一製品ではありません。

もう1つは「Whisper＝NottaやOtter.ai」です。後者は会議メモの完成されたSaaS、Whisperは開発者が組み込む音声認識エンジンです。エンドユーザーがそのまま会議に参加させるツールではありません。

料金（2026年6月時点）

Whisperには「月額プラン」はなく、利用形態ごとにコスト構造が異なります。以下は2026年6月時点の整理です。

OSS（自社ホスト）

モデル自体は無料

OpenAI API

$0.006/分

whisper-1 / gpt-4o-transcribe

Mini API

$0.003/分

gpt-4o-mini-transcribe

利用形態	料金（2026年6月時点）	主な条件
オープンソース（自社ホスト）	モデル$0＋インフラ費	GPU・運用コストは自社負担。ファイルサイズ制限なし
whisper-1 / gpt-4o-transcribe	$0.006/分（$0.36/時）	1ファイル25MB上限・秒単位課金（API）
gpt-4o-mini-transcribe	$0.003/分（$0.18/時）	コスト重視のバッチ処理向け
gpt-4o-transcribe-diarize	トークン課金（公式Pricing参照）	話者分離付き文字起こし
gpt-realtime-whisper（ストリーミング）	$0.017/分	リアルタイム文字起こし（公式Pricing）

1,000分の処理は whisper-1 で約$6.00、mini-transcribe で約$3.00の目安です。自社ホストは処理量が多いほどAPIより安くなる場合がありますが、GPU・運用の固定費がかかります。モデルの提供終了スケジュールも更新されるため、本番利用前に記事末尾の公式リンクからモデル一覧を確認してください。

はじめ方・基本的な使い方

用途を決める会議メモならNotta等のSaaS、自社アプリ組み込みならWhisper APIまたは自社ホストを選びます。
API利用の場合OpenAIアカウントを作成し、APIキーを取得。音声ファイルを/audio/transcriptionsにPOSTします。
モデルを選択精度重視ならgpt-4o-transcribe、コスト重視ならgpt-4o-mini-transcribe、話者分離ならdiarizeモデルを選びます。
自社ホストの場合GitHubのopenai/whisperリポジトリからモデルを取得し、Python環境で実行します。
結果を活用得られたテキストを議事録、字幕、検索インデックスなどに渡します。

OpenAI Whisperの公式ドキュメントイメージ — 出典：OpenAI公式（developers.openai.com）

ビジネスでの活用例

自社サービスへのSTT組み込み

社内ポータルに音声入力機能を追加
コールセンター録音のテキスト化
APIで従量課金、少量なら運用が簡単

データガバナンス重視の処理

オープンソース版を社内GPUで実行
機密音声を外部クラウドに送らない
運用・スケーリングのコストは自社負担

試験・資格の学習

Speech-to-Textの基盤モデルとして整理
SaaS（Notta等）とのレイヤー差を理解
音声データの個人情報リスクを併せて学習

メリット・デメリット

メリット	デメリット
オープンソースで無料利用可能	自社ホストはGPU・運用が必要
APIは$0.003〜0.006/分と比較的安価	APIは1ファイル25MB上限
99言語以上に対応	会議連携・要約UIは別途開発が必要
多くのSTTサービスの基盤技術	モデル提供状況は更新・廃止があり得る

主要ツールとの比較

項目	Whisper	Notta	ElevenLabs
種類	音声認識モデル/API	会議STTのSaaS	音声生成AIプラットフォーム
技術分類	Speech-to-Text	Speech-to-Text	主にText-to-Speech
料金形態	OSS無料 or API従量	月額サブスク	月額サブスク＋従量
主なユーザー	開発者・エンジニア	ビジネスユーザー	クリエイター・開発者
試験での位置づけ	STT基盤モデルの例	日本語議事録AIの例	音声生成AIの例

会議メモをすぐ使うならNotta、音声認識を自社製品に組み込むならWhisper、ナレーション生成ならElevenLabsという使い分けが一般的です。OpenAI全体像はChatGPT記事も参照してください。

よくある質問

無料で使えますか？

オープンソースモデルは無料です。OpenAI APIは従量課金（例：$0.006/分）です。自社ホストにはGPUなどのインフラ費がかかります。

音声合成ツールですか？

いいえ。Speech-to-Text（音声→テキスト）のモデルです。Text-to-Speechとは別カテゴリです。

ChatGPTと同じですか？

いいえ。Whisperは音声認識モデル、ChatGPTは対話型生成AIです。関連技術ですが別製品です。

APIの料金は？

2026年6月時点の公式Pricingでは whisper-1 / gpt-4o-transcribe が$0.006/分、gpt-4o-mini-transcribe が$0.003/分です。

NottaやOtter.aiとの関係は？

Notta等は会議向けSaaS、Whisperは開発者向けの音声認識基盤です。レイヤーが異なります。