Whisper Desktop:離線 AI 語音辨識將 .mp3 音訊檔轉成 .srt 字幕檔,支援多國語言及翻譯

2024/07/04 46 1 軟體介紹 , 軟體應用 , 人工智慧 , AI語音
■ 軟體檔案 ■
軟體名稱
Whisper Desktop
軟體類別
工具
軟體性質
開源軟體
軟體下載
請到官方網站下載!
支援系統
Windows
支援語言
英文

Whisper Desktop 是一款強大的語音辨識工具,能夠將 .mp3 等格式的音訊檔案迅速轉換成 .srt 字幕檔(當然也能轉成有時間軸的文字檔等),支援多種語言及翻譯功能。這款軟體基於 OpenAI 的 Whisper 自動語音辨識(ASR)模型,經過大量的訓練資料,使其在語音轉錄和翻譯方面表現出色。無論是處理英語還是其他多達 96 種語言,Whisper Desktop 都能提供高精度的識別和翻譯。此外,這款工具不僅能夠處理錄製的音訊檔案,還能即時捕捉並轉錄或翻譯來自麥克風的語音。透過利用先進的 GPGPU 技術和高效的 C++ 實作,Whisper Desktop 不僅速度快、效能高,還具備低記憶體使用量和強大的多媒體支援能力,是製作字幕和進行語音轉錄的理想選擇。


▲ 請先下載 GitHub 上釋出的最新版 WhisperDesktop.zip (點我),接著將其解壓縮到喜歡的地方,如: C:/,再來去 Hugging Face 下載 AI 模型放在一起方便管理。這邊共提供五種語言模型,分為 tiny、base、small、medium 和 large,越大的模型理論越精準,但消耗的硬體資源也會越多。根據 Whisper Desktop 作者的建議,「ggml-medium.bin」這個模型有較高的準確率。雙擊「WhisperDesktop.exe」開啟程式。

▲ 首先選擇好模型檔案,這邊使用「ggml-medium.bin」,再來使用 GPU 演算,接著選擇輸出語言,這邊選中文,再來載入要辨識的音訊檔案。右上方黃色框住的「Debug Console」可以查看更多軟體運作的細節,好方便做更進階的除錯,一般人不用勾選。我這邊將「Place that file to the input folder」打勾,好讓輸出的檔案跟輸入的檔案放一起。綠色框住的選項是輸出格式,若要製作 CC 字幕,就是選「SubRip subtitles」輸出 .srt 字幕檔。點「Transcribe」開始執行語音辨識工作。

▲ 執行中的狀況,後方是「Debug Console」顯示的資訊,上面的亂碼不用在意,並不影響最終的輸出檔。

▲ 最終一個大約 9 分鐘的音訊檔花費 1 分鐘處理,這個音訊檔是清晰的人聲,語言是中文,來源是我以前錄製的一部教學影片。這台測試用電腦採用的 GPU 是 NVIDIA GeForce RTX 3070 Laptop 8GB。基本上中文語音辨識準確率相當高,有個八至九成,但一些專有名詞就需要再手動用文字編輯器修正,但時間軸基本上完全正確,能節省非常多的上字幕時間!這邊還沒用到它的翻譯功能,那就更厲害了!舉例來說,你可以拿英文的音訊製作中文翻譯的逐字稿,非常厲害,重點是完全離線,斷網也能使用。

贊助廣告 ‧ Sponsor advertisements

留言區 / Comments

萌芽論壇