Místní přepis řeči do textu v systémech Windows a Linux • Online Speech to Text Cloud

Contents hide

1 Přehled nástrojů pro rozpoznávání řeči a transkripci Whisper, Faster-Whisper a Speech Note

2 Instalace Faster-Whisper a Speech Note na Linuxu

2.1 Instalace faster-whisperu ve Windows

3 Práce s Faster-Whisperem

4 Použití Faster-Whisperu v Linux

5 Použití Faster-Whisper ve Windows

6 Práce s Poznámky k řeči

7 Závěr

Rozpoznávání řeči a zpracování přirozeného jazyka zaznamenaly v posledních letech značný pokrok, díky pokrokům v strojovém učení a hlubokých neuronových sítích. Model Whisper od OpenAI je jeden z takových, který si získal popularitu díky schopnosti transkribovat audio soubory a provádět překlad jazyka. V tomto článku budeme prozkoumávat několik nástrojů instalovatelných lokálně pro práci s Faster-Whisper a Speech Note na Windows a Linux, které poskytují škálu možností pro transkribaci audio souborů a provádění překladu jazyka na vašem místním stroji. Tak můžete mít vlastní místní systém rozpoznávání řeči a transkripce up and running na Windows a Linux.

Přehled nástrojů pro rozpoznávání řeči a transkripci Whisper, Faster-Whisper a Speech Note

Model Whisper od OpenAI je schopný přepisovat zvukové soubory a provádět překlad jazyka. Nicméně má některé omezení týkající se rychlosti a využití paměti. K řešení těchto problémů byly vyvinuty dva další nástroje: Faster-Whisper a Speech Note.

Faster-Whisper je reimplementace modelu Whisper, která využívá CTranslate2, rychlý inference engine pro transformační modely. Tato implementace je až čtyřikrát rychlejší než openai/whisper a může dále snížit využití paměti pomocí kvantizace na obou CPU i GPU.

Speech Note je naopak desktopová aplikace pro Linux, která poskytuje snadno použitelné rozhraní pro rozpoznávání řeči a poznámky. Umí používat Whisper jako základní model, ale nabízí další funkce, jako je záznam mikrofonu, editace textu a jednoduché možnosti exportu.

Každý z těchto nástrojů má své jedinečné výhody a může být použit podle specifických potřeb uživatele. Faster-Whisper je ideální pro ty, kteří vyžadují rychlejší rychlosti přepisu a nižší využití paměti, zatímco Speech Note je vhodný pro uživatele Linuxu, kteří preferují více uživatelsky přívětivé rozhraní s dalšími funkcemieyond rozpoznávání řeči.

Pro uživatele Windows je níže samostatná sekce níže. Dále jsme věnovali samostatný článek separátnímu článku o nástrojích Speech-to-Text pro Windows, které jsou pohodlné instalovat a spouštět.

Instalace Faster-Whisper a Speech Note na Linuxu

Na Linuxu lze Faster-Whisper nainstalovat z PyPI pomocí pip.

pip install faster-whisper-cli

Aplikace Speech Note pro linuxový desktop lze stáhnout a nainstalovat z Flathub.

Instalace faster-whisperu ve Windows

Pokud pracujete s operačním systémem Windows, můžete si stáhnout standalone spustitelný soubor faster-whisper z toto místo. Další informace o jeho použití naleznete v následující části.

Práce s Faster-Whisperem

Faster-Whisper lze použít pro přepis zvukových souborů a překlad jazyka na místním počítači. Jedná se o přeimplementaci Whisper, která využívá CTranslate2, rychlý inference engine pro modely Transformer. Tato implementace je až 4krát rychlejší než openai/whisper a může dále snížit spotřebu paměti pomocí kvantizace na obou CPU a GPU.

Použití Faster-Whisperu v Linux

Z příkazového řádku můžete použít faster-whisper k přepisu zvukového souboru:

faster-whisper myaudio.mp3 > transcript.txt

Tento příkaz přepíše soubor myaudio.mp3 do textu ve souboru nazvaném transcript.txt. Můžete také specifikovat další možnosti, jako je jazyk a velikost svazku:

faster-whisper --language en --beam_size 5 myaudio.mp3 > transcript.txt

Použití Faster-Whisper ve Windows

Otevřete Průzkumníka Windows a navigujte na cestu, kde jste stáhli soubor whisper-faster.exe.
Kopírujte zvukový soubor, který chcete transkribovat, do stejné lokace.
Vyberte Soubor -> Otevřít PowerShell Windows.
Zadejte jméno spustitelného souboru s předponou tečkou a lomítkem:
.\whisper-faster.exe
Přidejte mezeru a připojte název zvukového souboru, také s předponou tečkou a lomítkem:
.\whisper-faster.exe .\myaudio.mp3
Stiskněte Enter. Nyní se whisper-faster stáhne požadované modely a transkribuje váš zvukový soubor. Jelikož jsou modely khá velké (několik gigabajtů), může to trvat一些 čas. Ale stažení bude probíhat pouze při prvním spuštění, všechny následující běhy budou mnohem rychlejší.
Můžete také použít pokročilé možnosti, jako je popsáno v odstavci výše.

Práce s Poznámky k řeči

Speech Note je desktopová aplikace pro rozpoznávání řeči a poznámky v systému Linux. Nabízí snadno použitelné rozhraní pro přepisování zvukových souborů a překlad jazyka.

Zde je, jak používat Speech Note:

Spusťte aplikaci SpeechNote a vyberte si váš preferovaný jazykový model.
Klikněte na tlačítko Poslouchejte a použijte vestavěný zvukový záznamník.
Vaše hlasové vstupní údaje jsou automaticky přepisovány do textu.
Upravte přepis podle potřeby pomocí vestavěného textového editoru.
Exportujte nebo zkopírujte přepis do textového souboru.

Závěr

Faster-Whisper a Speech Note poskytují silný soubor místně instalovatelných nástrojů pro rozpoznávání řeči a zpracování přirozeného jazyka. Od příkazového řádku (CLI) až po desktopovou aplikaci tyto nástroje nabízejí škálu možností pro přepisování zvukových souborů a překlad jazyka na vašem místním stroji.

S vysokou přesností, rychlým vyhodnocováním a snadno použitelnými rozhraními jsou tyto nástroje vynikající volbou pro aplikace rozpoznávání řeči a zpracování přirozeného jazyka. Pokud přepisujete zvukové soubory, provádíte překlad jazyka nebo děláte poznámky pomocí Speech Note, existuje lokálně instalovatelný nástroj, který vám pomůže dokončit úkol.

Share it

Comments

2 komentáře: „Lokálně instalované nástroje pro přepis řeči do textu a překlad pomocí nástrojů Faster-Whisper a Speech Note v systémech Windows a Linux“

Whisper-Faster.exe Alternative Speech-to-Text Conversion Tools
01/22/2024
[…] our last article, we focused on Locally Installed Transcription Tools for both Windows and Linux. However, the instructions for those of you using Microsoft Windows were […]
The Power of Live Transcription
08/07/2024
[…] pueden utilizar estos hallazgos para tomar decisiones informadas sobre la asignación de recursos, el entrenamiento de personal y la optimización de procesos. Identificar áreas donde se puede […]