Japanese ASR Benchmark Report

總覽

這次完整跑完五個日語 ASR 模型，每個模型覆蓋三個測試集，共 14,746 條音訊；總轉錄量 73,730 條，錯誤數為 0。主要排名使用三個資料集 normalized CER 的平均值，數值越低代表越接近參考文本。

總轉錄條目

73,730

5 models × 14,746 clips

錯誤條目

0

逐樣本結果 error 欄位全空

單模型音訊時長

21.85h

三資料集合計 78,673.46 秒

最快模型

64.58x

Parakeet 平均速度

最低 CER

6.41

Cohere normalized CER

結論

實時直播首選

Parakeet TDT-CTC 0.6B JA

準確度第二，但速度第一，p95 延遲只有 0.093s。對直播即時字幕來說，這是最穩的主力候選。

準確度優先

Cohere Transcribe 03-2026

平均 CER 最低，CommonVoice 與 ReazonSpeech 都是第一。延遲仍可用，但速度與 gated 部署條件要納入系統設計。

穩定基線

faster-whisper large-v3-turbo

生態成熟，速度和準確度都在中間。若要做 fallback 或跨環境部署，它仍是很好維護的基準模型。

不建議主力

Qwen / Nemotron

Qwen 在 ReazonSpeech 明顯掉分且延遲較高；Nemotron 在這套測試下 CER 偏高，可能需要更貼近 streaming prompt/decoder 的調校。

總排行

Normalized CER 排名

Rank	Model	CER	WER	Speed	Avg Latency	p95 Latency

準確度條形圖

越短越好 normalized CER

速度與準確度取捨

CER / 延遲散點圖

Cohere Parakeet faster-whisper Qwen Nemotron

延遲分佈

Model	p50	p90	p95	p99	Max

latency 是模型已載入後每條音訊的離線推理時間，不包含直播系統中的 VAD 等待、音訊緩衝、網路與翻譯耗時。

資料集級別分析

CommonVoice 8.0

Cohere 最強，CER 4.07；Parakeet 7.48 排第二。這組更接近朗讀/句子資料，Cohere 的文字修正能力吃到明顯優勢。

JSUT Basic5000

Parakeet 最強，CER 6.63；faster-whisper 7.27，Cohere 8.28。這組乾淨朗讀下，小模型速度優勢非常突出。

ReazonSpeech Test

Cohere 最強，CER 6.89；Parakeet 10.20。更接近日常節目語音時，Qwen 與 Nemotron 的錯誤率上升明顯。

Per Dataset Metrics

Model	Dataset	Samples	CER norm	WER norm	CER raw	Speed	Avg Latency

模型解讀

方法與限制

測試方法

資料集採用 Japanese-ASR 頁面同風格測試：`common_voice_8_0`、`jsut_basic5000`、`reazonspeech_test`。
每個模型各跑 14,746 條音訊，總計 73,730 條，沒有 error 行。
normalized 指標使用 Whisper `BasicTextNormalizer()` 後移除空格；主要排行依三資料集 normalized CER 的平均值排序。
WER 對日語連續文本的參考價值較弱，這份報告保留 WER，但實際選型主要看 CER、延遲和速度。

環境與解讀

完整測試使用 `NVIDIA L4`，模型快取與輸出集中保存在專案資料夾內。
這裡的速度是總音訊長度除以總推理時間；直播端還要加上 VAD 切片策略、翻譯模型與字幕推送延遲。
對直播即時字幕，建議優先做 Parakeet 主路、Cohere 高精修或回補、faster-whisper fallback 的架構。

檔案

File	用途
ranking.csv	模型總排名，按平均 normalized CER 排序。
summary.csv	每個模型在每個資料集上的 CER/WER/速度/延遲。
predictions.csv.gz	73,730 條逐樣本轉錄結果與原文欄位，已壓縮。
results.xlsx	Excel 版本，方便篩選和校對。
report.md	原始 Markdown 摘要。