Rozpoznávání řeči a zpracování přirozeného jazyka zaznamenaly v posledních letech značný pokrok, díky pokrokům v strojovém učení a hlubokých neuronových sítích. Model Whisper od OpenAI je jeden z takových, který si získal popularitu díky schopnosti transkribovat audio soubory a provádět překlad jazyka. V tomto článku budeme prozkoumávat několik nástrojů instalovatelných lokálně pro práci s Faster-Whisper a Speech Note na Windows a Linux, které poskytují škálu možností pro transkribaci audio souborů a provádění překladu jazyka na vašem místním stroji. Tak můžete mít vlastní místní systém rozpoznávání řeči a transkripce up and running na Windows a Linux.
Model Whisper od OpenAI je schopný přepisovat zvukové soubory a provádět překlad jazyka. Nicméně má některé omezení týkající se rychlosti a využití paměti. K řešení těchto problémů byly vyvinuty dva další nástroje: Faster-Whisper a Speech Note.
Faster-Whisper je reimplementace modelu Whisper, která využívá CTranslate2, rychlý inference engine pro transformační modely. Tato implementace je až čtyřikrát rychlejší než openai/whisper a může dále snížit využití paměti pomocí kvantizace na obou CPU i GPU.
Speech Note je naopak desktopová aplikace pro Linux, která poskytuje snadno použitelné rozhraní pro rozpoznávání řeči a poznámky. Umí používat Whisper jako základní model, ale nabízí další funkce, jako je záznam mikrofonu, editace textu a jednoduché možnosti exportu.
Každý z těchto nástrojů má své jedinečné výhody a může být použit podle specifických potřeb uživatele. Faster-Whisper je ideální pro ty, kteří vyžadují rychlejší rychlosti přepisu a nižší využití paměti, zatímco Speech Note je vhodný pro uživatele Linuxu, kteří preferují více uživatelsky přívětivé rozhraní s dalšími funkcemieyond rozpoznávání řeči.
Pro uživatele Windows je níže samostatná sekce níže. Dále jsme věnovali samostatný článek separátnímu článku o nástrojích Speech-to-Text pro Windows, které jsou pohodlné instalovat a spouštět.
Instalace Faster-Whisper a Speech Note na Linuxu
Na Linuxu lze Faster-Whisper nainstalovat z PyPI pomocí pip.
pip install faster-whisper-cli
Aplikace Speech Note pro linuxový desktop lze stáhnout a nainstalovat z Flathub.
Instalace faster-whisperu ve Windows
Pokud pracujete s operačním systémem Windows, můžete si stáhnout standalone spustitelný soubor faster-whisper z toto místo. Další informace o jeho použití naleznete v následující části.
Práce s Faster-Whisperem
Faster-Whisper lze použít pro přepis zvukových souborů a překlad jazyka na místním počítači. Jedná se o přeimplementaci Whisper, která využívá CTranslate2, rychlý inference engine pro modely Transformer. Tato implementace je až 4krát rychlejší než openai/whisper a může dále snížit spotřebu paměti pomocí kvantizace na obou CPU a GPU.
Použití Faster-Whisperu v Linux
Z příkazového řádku můžete použít faster-whisper k přepisu zvukového souboru:
faster-whisper myaudio.mp3 > transcript.txt
Tento příkaz přepíše soubor myaudio.mp3 do textu ve souboru nazvaném transcript.txt. Můžete také specifikovat další možnosti, jako je jazyk a velikost svazku:
faster-whisper --language en --beam_size 5 myaudio.mp3 > transcript.txt
Použití Faster-Whisper ve Windows
- Otevřete Průzkumníka Windows a navigujte na cestu, kde jste stáhli soubor whisper-faster.exe.
- Kopírujte zvukový soubor, který chcete transkribovat, do stejné lokace.
- Vyberte Soubor -> Otevřít PowerShell Windows.
- Zadejte jméno spustitelného souboru s předponou tečkou a lomítkem:
.\whisper-faster.exe - Přidejte mezeru a připojte název zvukového souboru, také s předponou tečkou a lomítkem:
.\whisper-faster.exe .\myaudio.mp3 - Stiskněte Enter. Nyní se whisper-faster stáhne požadované modely a transkribuje váš zvukový soubor. Jelikož jsou modely khá velké (několik gigabajtů), může to trvat一些 čas. Ale stažení bude probíhat pouze při prvním spuštění, všechny následující běhy budou mnohem rychlejší.
- Můžete také použít pokročilé možnosti, jako je popsáno v odstavci výše.
Práce s Poznámky k řeči
Speech Note je desktopová aplikace pro rozpoznávání řeči a poznámky v systému Linux. Nabízí snadno použitelné rozhraní pro přepisování zvukových souborů a překlad jazyka.
Zde je, jak používat Speech Note:
- Spusťte aplikaci SpeechNote a vyberte si váš preferovaný jazykový model.
- Klikněte na tlačítko Poslouchejte a použijte vestavěný zvukový záznamník.
- Vaše hlasové vstupní údaje jsou automaticky přepisovány do textu.
- Upravte přepis podle potřeby pomocí vestavěného textového editoru.
- Exportujte nebo zkopírujte přepis do textového souboru.
Závěr
Faster-Whisper a Speech Note poskytují silný soubor místně instalovatelných nástrojů pro rozpoznávání řeči a zpracování přirozeného jazyka. Od příkazového řádku (CLI) až po desktopovou aplikaci tyto nástroje nabízejí škálu možností pro přepisování zvukových souborů a překlad jazyka na vašem místním stroji.
S vysokou přesností, rychlým vyhodnocováním a snadno použitelnými rozhraními jsou tyto nástroje vynikající volbou pro aplikace rozpoznávání řeči a zpracování přirozeného jazyka. Pokud přepisujete zvukové soubory, provádíte překlad jazyka nebo děláte poznámky pomocí Speech Note, existuje lokálně instalovatelný nástroj, který vám pomůže dokončit úkol.
Comments
2 komentáře: „Lokálně instalované nástroje pro přepis řeči do textu a překlad pomocí nástrojů Faster-Whisper a Speech Note v systémech Windows a Linux“
[…] our last article, we focused on Locally Installed Transcription Tools for both Windows and Linux. However, the instructions for those of you using Microsoft Windows were […]
[…] pueden utilizar estos hallazgos para tomar decisiones informadas sobre la asignación de recursos, el entrenamiento de personal y la optimización de procesos. Identificar áreas donde se puede […]