實時直播首選
Parakeet TDT-CTC 0.6B JA
準確度第二,但速度第一,p95 延遲只有 0.093s。對直播即時字幕來說,這是最穩的主力候選。
五模型全量測試 · Japanese-ASR style · NVIDIA L4 · 2026-06-07
這次完整跑完五個日語 ASR 模型,每個模型覆蓋三個測試集,共 14,746 條音訊;總轉錄量 73,730 條,錯誤數為 0。 主要排名使用三個資料集 normalized CER 的平均值,數值越低代表越接近參考文本。
準確度第二,但速度第一,p95 延遲只有 0.093s。對直播即時字幕來說,這是最穩的主力候選。
平均 CER 最低,CommonVoice 與 ReazonSpeech 都是第一。延遲仍可用,但速度與 gated 部署條件要納入系統設計。
生態成熟,速度和準確度都在中間。若要做 fallback 或跨環境部署,它仍是很好維護的基準模型。
Qwen 在 ReazonSpeech 明顯掉分且延遲較高;Nemotron 在這套測試下 CER 偏高,可能需要更貼近 streaming prompt/decoder 的調校。
| Rank | Model | CER | WER | Speed | Avg Latency | p95 Latency |
|---|
| Model | p50 | p90 | p95 | p99 | Max |
|---|
latency 是模型已載入後每條音訊的離線推理時間,不包含直播系統中的 VAD 等待、音訊緩衝、網路與翻譯耗時。
Cohere 最強,CER 4.07;Parakeet 7.48 排第二。這組更接近朗讀/句子資料,Cohere 的文字修正能力吃到明顯優勢。
Parakeet 最強,CER 6.63;faster-whisper 7.27,Cohere 8.28。這組乾淨朗讀下,小模型速度優勢非常突出。
Cohere 最強,CER 6.89;Parakeet 10.20。更接近日常節目語音時,Qwen 與 Nemotron 的錯誤率上升明顯。
| Model | Dataset | Samples | CER norm | WER norm | CER raw | Speed | Avg Latency |
|---|
| File | 用途 |
|---|---|
| ranking.csv | 模型總排名,按平均 normalized CER 排序。 |
| summary.csv | 每個模型在每個資料集上的 CER/WER/速度/延遲。 |
| predictions.csv.gz | 73,730 條逐樣本轉錄結果與原文欄位,已壓縮。 |
| results.xlsx | Excel 版本,方便篩選和校對。 |
| report.md | 原始 Markdown 摘要。 |