Whisper Desktop：離線 AI 語音辨識將 .mp3 音訊檔轉成 .srt 字幕檔，支援多國語言及翻譯

■ 軟體檔案 ■

軟體名稱

Whisper Desktop

軟體類別

工具

軟體性質

開源軟體

官方網站

https://github.com/Const-me/Whisper/releases

軟體下載

請到官方網站下載！

支援系統

Windows

支援語言

英文

Whisper Desktop 是一款強大的語音辨識工具，能夠將 .mp3 等格式的音訊檔案迅速轉換成 .srt 字幕檔（當然也能轉成有時間軸的文字檔等），支援多種語言及翻譯功能。這款軟體基於 OpenAI 的 Whisper 自動語音辨識（ASR）模型，經過大量的訓練資料，使其在語音轉錄和翻譯方面表現出色。無論是處理英語還是其他多達 96 種語言，Whisper Desktop 都能提供高精度的識別和翻譯。此外，這款工具不僅能夠處理錄製的音訊檔案，還能即時捕捉並轉錄或翻譯來自麥克風的語音。透過利用先進的 GPGPU 技術和高效的 C++ 實作，Whisper Desktop 不僅速度快、效能高，還具備低記憶體使用量和強大的多媒體支援能力，是製作字幕和進行語音轉錄的理想選擇。

▲ 請先下載 GitHub 上釋出的最新版 WhisperDesktop.zip (點我)，接著將其解壓縮到喜歡的地方，如: C:/，再來去 Hugging Face 下載 AI 模型放在一起方便管理。這邊共提供五種語言模型，分為 tiny、base、small、medium 和 large，越大的模型理論越精準，但消耗的硬體資源也會越多。根據 Whisper Desktop 作者的建議，「ggml-medium.bin」這個模型有較高的準確率。雙擊「WhisperDesktop.exe」開啟程式。

▲ 首先選擇好模型檔案，這邊使用「ggml-medium.bin」，再來使用 GPU 演算，接著選擇輸出語言，這邊選中文，再來載入要辨識的音訊檔案。右上方黃色框住的「Debug Console」可以查看更多軟體運作的細節，好方便做更進階的除錯，一般人不用勾選。我這邊將「Place that file to the input folder」打勾，好讓輸出的檔案跟輸入的檔案放一起。綠色框住的選項是輸出格式，若要製作 CC 字幕，就是選「SubRip subtitles」輸出 .srt 字幕檔。點「Transcribe」開始執行語音辨識工作。

▲ 執行中的狀況，後方是「Debug Console」顯示的資訊，上面的亂碼不用在意，並不影響最終的輸出檔。

▲ 最終一個大約 9 分鐘的音訊檔花費 1 分鐘處理，這個音訊檔是清晰的人聲，語言是中文，來源是我以前錄製的一部教學影片。這台測試用電腦採用的 GPU 是 NVIDIA GeForce RTX 3070 Laptop 8GB。基本上中文語音辨識準確率相當高，有個八至九成，但一些專有名詞就需要再手動用文字編輯器修正，但時間軸基本上完全正確，能節省非常多的上字幕時間！這邊還沒用到它的翻譯功能，那就更厲害了！舉例來說，你可以拿英文的音訊製作中文翻譯的逐字稿，非常厲害，重點是完全離線，斷網也能使用。

贊助廣告 ‧ Sponsor advertisements

《上一篇》Docker Compose 快速安裝 PostgreSQL & pgAdmin 環境

《下一篇》Audiocraft-webui 體驗本地端 AI 音樂生成的樂趣！

萌芽站長

您好，我是萌芽系列網站（Mnya Series Website）的站長&創始人，可以稱呼我「萌芽站長」。我的興趣與專長有登山、觀察地形、攝影、旅遊、網頁設計＆架設＆經營、動畫製作、圖片處理、資料彙整等。有任何問題或建議請至萌芽論壇發表。網站業務、商業合作的聯絡方式在「關於本站 → 團隊介紹 → 站長介紹」，很高興認識您！請多指教！

留言區 / Comments

萌芽站長

熱門文章

近期文章

頁面

其他操作