Whisper文字起こしの使い方・精度・無料で使う方法【2026年版】
OpenAIのWhisper Large-v3はクリーン音声でWER 2.7%の精度を達成。Large-v3 Turboは精度をほぼ維持しながら5.4倍高速化しており、実用的な選択肢として広がっている。API・無料ローカル利用・精度の限界を整理した。
3行まとめ
- Whisper Large-v3はクリーン音声でWER 2.7%、実世界の混在音声で7.88%の精度(Northflankベンチマーク)。低品質音声では17.7%まで上昇する。
- Large-v3 Turboはデコーダー層を32→4に削減し5.4倍高速化。精度差は1〜2%程度で、速度重視の用途に向く。
- GitHubオープンソースまたはHugging Faceで無料利用可。APIは$0.006/分(Whisper-1)から。
Whisperとは——OpenAIが公開した音声認識モデル
Whisperは、OpenAIが開発・公開した自動音声認識(ASR)モデルだ。68万時間以上のウェブ上の音声データで学習されており、多言語・多形式の音声に対応している(DIY AI Review)。
OpenAIはモデルの重みをGitHub上でオープンソースとして公開しており、ローカル環境で無料利用できる。また、OpenAI APIを経由してクラウドで処理することも可能だ。
2026年時点での現行主力モデルはWhisper Large-v3および高速版のWhisper Large-v3 Turboで、用途に応じた使い分けが広がっている。
Whisperの精度——WERデータで見る現実
文字起こしの精度を測る指標として**WER(Word Error Rate:単語誤り率)**が使われる。WERが低いほど正確で、0%が完全一致を意味する。
Whisper Large-v3のWER実測値
以下のデータはNorthflankおよびNovaScribeが公開したベンチマーク測定値に基づく。
| 音声条件 | WER(単語誤り率) |
|---|---|
| クリーン音声 | 2.7% |
| 実世界の混在音声 | 7.88% |
| 低品質コールセンター音声 | 17.7% |
(出典:Northflank benchmarks、VexaScribe/NovaScribe WER data)
クリーン音声での2.7%は商用ツールと比較しても高い水準だ。しかし、バックグラウンドノイズが混じる環境や電話音声のような低品質音声では誤り率が大幅に上昇する点に注意が必要だ。
日本語については英語・ヨーロッパ言語と比べて誤り率が高い傾向があるとされており(DIY AI Review)、固有名詞・専門用語・方言では特に誤認識が起きやすい。文字起こし後の確認作業は前提として組み込むことを推奨する。
Whisper Large-v3 Turbo——速度と精度のトレードオフ
Whisper Large-v3 TurboはOpenAIが公開した高速版で、デコーダー層数を32から4に削減することで大幅な高速化を実現している(Hugging Face: openai/whisper-large-v3-turbo)。
Large-v3 Turboの主な仕様
- デコーダー層:32 → 4(削減)
- 処理速度:Large-v3の5.4倍高速
- リアルタイム処理倍率:216倍速(1分の音声を約0.28秒で処理)
- 精度差:Large-v3と比較して1〜2%程度の差
(出典:Hugging Face モデルカード)
精度を大幅に落とさずに高速化できているため、以下のような用途では積極的に検討できる選択肢だ。
- 長時間の音声ファイルをローカルで一括処理したい
- リアルタイムに近い応答が必要
- GPUリソースや処理時間を節約したい
一方、高い精度が求められる場面(法的・医療的な書き起こしなど)では依然としてLarge-v3のフル版が適している場合が多い。
APIで使う——料金と使い分け
OpenAI APIを通じてWhisperを利用する場合、以下の料金体系が適用される(OpenAI API Pricing、2026年6月時点)。
音声文字起こしAPIの料金
| モデル | 料金(1分あたり) |
|---|---|
| Whisper-1 | $0.006 |
| GPT-4o Transcribe | $0.006 |
| GPT-4o Mini Transcribe | $0.003 |
| GPT-Realtime-Whisper | $0.017 |
(出典:OpenAI API Pricing)
GPT-4o Mini Transcribeは$0.003/分と最もコストが低い。リアルタイム処理向けのGPT-Realtime-Whisperは$0.017/分と割高で、リアルタイム性が必要でない場合は避けた方がコスト効率が良い。
実際のコスト感
1時間(60分)の音声をWhisper-1で処理した場合:60 × $0.006 = $0.36(約55円)。GPT-4o Mini Transcribeなら**$0.18**(約27円)になる計算だ。大量処理の場合はモデル選択が累計コストに影響するため、用途に合わせて選択したい。
無料で使う方法——ローカル実行とHugging Face
1. GitHubからダウンロードしてローカル実行
WhisperはOpenAIがGitHub上でオープンソースとして公開しており、モデルの重みを無料でダウンロードしてローカル実行できる(DIY AI Review)。
基本的な利用手順:
- Python環境を用意する(Python 3.8以上推奨)
pip install openai-whisperでパッケージをインストールwhisper audio.mp3 --model large-v3のようにコマンド実行
Large-v3のモデルサイズは約3GB程度あり、GPUがある環境では処理速度が大幅に向上する。CPU環境でも動作するが、長時間音声の処理には時間がかかる。
2. Hugging FaceでTurboモデルを使う
Whisper Large-v3 TurboはHugging Faceで公開されており、Transformersライブラリを通じて利用できる(Hugging Face: openai/whisper-large-v3-turbo)。Hugging Face推論エンドポイントを使えば、ローカル環境なしでもAPIのように利用できる。
3. 無料ツール・サービスでWhisperベースのUIを使う
Whisperをバックエンドに使った無料・低価格のWebサービスやローカルGUIアプリも多数存在する。処理自体はWhisperのオープンソースモデルが動いているものが多く、プログラミング不要で使えるのが利点だ。
日本語文字起こしにおける注意点
Whisperは日本語対応しているが、英語・ヨーロッパ言語と比較した場合の誤り率は高い(DIY AI Review)。具体的には以下の点で誤認識が起きやすい。
- 固有名詞:人名・地名・企業名などの誤認識
- 専門用語:医療・法律・技術系の語彙での誤り
- 話者が複数の場合:話者分離(ダイアライゼーション)はWhisper単体では対応していない
- 音声品質が低い場合:マイク品質・反響・ノイズによる誤り率の上昇
議事録や字幕など、精度が重要な用途では、文字起こし後に人が確認・修正する工程を前提として計画することを推奨する。
主な利用シーンと推奨モデルの整理
| 利用シーン | 推奨 |
|---|---|
| 精度最優先(法的・医療等) | Large-v3(ローカルまたはAPI) |
| 長時間音声を速く処理したい | Large-v3 Turbo(ローカル) |
| コスト最優先のAPI利用 | GPT-4o Mini Transcribe |
| 無料でとにかく試したい | ローカル実行(GitHub) |
| プログラミングなしで使いたい | Whisperベースの無料UIツール |
| リアルタイム処理が必要 | GPT-Realtime-Whisper(コスト高) |
他のAI音声認識ツールとの比較
Whisperの競合として、AssemblyAI・Deepgram・Revなどのサービスも存在する。これらは価格・話者分離・リアルタイム性などで独自の強みを持っており、Whisperが全方位で優位というわけではない。特に話者分離が必要な議事録用途では、専用サービスの方が使いやすい場面がある。
AI文章要約ツールとの組み合わせについてはAI要約ツールおすすめ5選【2026年版】も参照。Whisperで文字起こし→AI要約という組み合わせは実用的なワークフローとして多くのユーザーが活用している。
正直に書くと
Whisperのベンチマーク数値(WER)は測定条件・テストデータセット・モデルバージョンによって異なる。本記事で引用したNorthflankおよびNovaScribeのデータは特定の測定条件下での結果であり、実際の利用環境での精度は異なる可能性がある。
「216倍リアルタイム速度」という数値はHugging Faceのモデルカードに記載されている数値だが、実際の処理速度はハードウェア(GPU/CPU)・バッチサイズ・音声長によって大幅に変わる。
AI文章作成ツールの活用についても参考になる情報がAIライティングツール比較【2026年版】にある。
出典・但し書き
- WERベンチマーク(Large-v3):Northflank、NovaScribe
- Large-v3 Turbo仕様(デコーダー層数・速度):Hugging Face モデルカード
- API料金(2026年6月時点):OpenAI API Pricing
- ローカル実行・日本語評価:DIY AI Review
- 料金は記事作成時点の公開情報に基づく。最新料金はOpenAI公式で確認のこと
- 本記事はAI生成コンテンツを含む
📎 出典・一次ソース
このニュースの解説動画も作っています
解説動画はYouTube、速報はX(旧Twitter)で毎日更新中。
コメント
まだコメントはありません。最初のコメントを書いてみませんか?
AIについて聞きたいことはありますか?
質問箱で無料で受け付けています。回答は公開され、他の方の参考にもなります。
質問箱を見る →