Das Sprache-zu-Text-Transkriptionsverfahren und die natürliche Sprachverarbeitung haben in den letzten Jahren große Fortschritte gemacht, dank der Fortschritte im Machine Learning und tiefen neuronalen Netzen. OpenAIs Whisper ist ein solches Modell, das aufgrund seiner Fähigkeit, Audio-Dateien zu transkribieren und Sprachen zu übersetzen, Popularität erlangt hat. In diesem Artikel werden wir mehrere lokal installierbare Werkzeuge für die Arbeit mit Faster-Whisper und Speech Note unter Windows und Linux erkunden, die eine Vielzahl von Optionen für das Transkribieren von Audio-Dateien und das Übersetzen von Sprachen auf Ihrem lokalen Rechner bieten. So können Sie Ihr eigenes lokales Sprache-zu-Text-Transkriptionsverfahren unter Windows und Linux in Betrieb nehmen.
Überblick über die Sprache-zu-Text-Transkriptionswerkzeuge Whisper, Faster-Whisper und Speech Note
Das Spracherkennungsmodell Whisper von OpenAI kann Audiodateien transkribieren und Sprachübersetzungen durchführen. Es gibt jedoch Einschränkungen bei der Geschwindigkeit und dem Speicheraufwand. Um diese Probleme zu lösen, wurden zwei weitere Tools entwickelt: Faster-Whisper und Speech Note.
Faster-Whisper ist eine Neuausführung von Whisper, die den schnellen Inferenz-Motor CTranslate2 für Transformer-Modelle verwendet. Diese Implementierung ist bis zu 4 Mal schneller als openai/whisper und kann den Speicheraufwand durch Quantisierung auf beiden CPU und GPU weiter reduzieren.
Speech Note hingegen ist eine Linux-Desktop-Anwendung, die eine einfache Benutzeroberfläche für Spracherkennung und Notizen bietet. Sie kann Whisper als ihr zugrunde liegendes Modell verwenden, aber bietet zusätzliche Funktionen wie Mikrofon-Aufnahme, Textbearbeitung und einfache Exportoptionen an.
Jeder dieser Tools hat seine eigenen Vorteile und kann je nach den spezifischen Bedürfnissen des Benutzers eingesetzt werden. Faster-Whisper ist ideal für diejenigen, die schnellere Transkriptionsgeschwindigkeiten und einen geringeren Speicherverbrauch benötigen, während Speech Note für Linux-Benutzer geeignet ist, die ein benutzerfreundlicheres Interface mit zusätzlichen Funktionen jenseits der Spracherkennung bevorzugen.
Für Windows-Benutzer gibt es einen separaten Abschnitt unten. Wir haben auch einen separaten Artikel zu Sprach-zu-Text-Tools für Windows verfasst, die leicht zu installieren und auszuführen sind.
Die Installation von Faster-Whisper und Speech Note auf Linux
Auf Linux kann Faster-Whisper über PyPI mit pip installiert werden.
pip install faster-whisper-cli
Speech Note ist für Linux-Desktops verfügbar und kann von Flathub heruntergeladen und installiert werden.
Installation von Faster-Whisper auf Windows
Wenn Sie mit Windows arbeiten, können Sie ein standalone-Ausführungsprogramm für Faster-Whisper von hier (Faster-Whisper-XXL_r192.3.4_windows.7z) herunterladen. Lesen Sie mehr über die Verwendung in dem nächsten Abschnitt.
Arbeiten mit Faster-Whisper
Faster-Whisper kann verwendet werden, um Audio-Dateien zu transkribieren und Sprachübersetzungen auf Ihrem lokalen Rechner durchzuführen. Es ist eine Neuimplementierung von Whisper, die CTranslate2 verwendet, einen schnellen Inferenz-Motor für Transformer-Modelle. Diese Implementierung ist bis zu 4 Mal schneller als openai/whisper und kann den Speicheraufwand mit Quantisierung auf beiden CPU und GPU weiter reduzieren.
Verwendung von Faster-Whisper auf Linux
Von der Kommandozeile aus können Sie faster-whisper verwenden, um eine Audio-Datei zu transkribieren:
faster-whisper myaudio.mp3 > transcript.txt
Dieser Befehl wird die myaudio.mp3-Datei in eine Textdatei namens transcript.txt transkribieren. Sie können auch weitere Optionen angeben, wie beispielsweise die Sprache und die Strahlgröße:
faster-whisper --language en --beam_size 5 myaudio.mp3 > transcript.txt
Faster-Whisper unter Windows verwenden
- Öffnen Sie den Windows-Explorer und navigieren Sie zum Pfad, an dem Sie die Datei whisper-faster.exe heruntergeladen haben.
- Kopieren Sie die Audiodatei, die Sie transkribieren möchten, an denselben Ort.
- Wählen Sie Datei -> Öffnen Sie Windows PowerShell.
- Type in the name of the executable with a leading dot and backslash:
.\whisper-faster.exe - Geben Sie den Namen der ausführbaren Datei mit einem führenden Punkt und Enter ein:
.\whisper-faster.exe .\meinaudio.mp3 - Drücken Sie die Eingabetaste. Jetzt wird whisper-faster die erforderlichen Modelle herunterladen und Ihre Audiodatei transkribieren. Da die Modelle recht groß sind (mehrere Gigabyte), kann dies einige Zeit dauern. Aber der Download erfolgt nur bei dem ersten Lauf, alle nachfolgenden Läufe werden viel schneller sein.
- Sie können auch erweiterte Optionen wie im Absatz oben verwenden.
Arbeiten mit Speech Note
Die Anwendung Speech Note ist ein Desktop-Programm für die Spracherkennung und Notizen unter Linux. Es bietet eine einfache Benutzeroberfläche für die Transkription von Audio-Dateien und die Durchführung von Sprachübersetzungen.
Hier erfahren Sie, wie Sie Speech Note verwenden:
- Starten Sie SpeechNote und wählen Sie Ihr bevorzugtes Sprachmodell aus.
- Klicken Sie auf den Hören-Knopf, um den integrierten Audio-Aufnahmegerät zu verwenden.
- Ihre Stimme wird automatisch in Text transkribiert.
- Bearbeiten Sie die Transkript wie erforderlich mit dem integrierten Texteditor.
- Exportieren oder kopieren Sie die Transkript in eine Textdatei.
Zusammenfassung
Die Programme Faster-Whisper und Speech Note bieten ein leistungsfähiges Set an lokal installierbaren Tools für die Spracherkennung und natürliche Sprachverarbeitung. Von der Befehlszeile bis hin zur Desktop-Anwendung bieten diese Tools eine Vielzahl von Optionen für die Transkription von Audio-Dateien und die Durchführung von Sprachübersetzungen auf Ihrem lokalen Rechner.
Mit ihrer hohen Genauigkeit, schnellen Inferenz und einfach zu bedienenden Schnittstellen sind diese Werkzeuge eine hervorragende Wahl für Spracherkennung und natürliche Sprachverarbeitungsanwendungen. Egal, ob Sie Audio-Dateien transkribieren, Sprachen übersetzen oder Notizen mit Speech Note machen, gibt es ein lokal installierbares Tool, das Ihnen hilft, die Aufgabe zu erledigen.
Comments
2 Antworten zu „Lokal installierte Tools für die Transkription und Übersetzung von Sprache in Text mit Faster-Whisper und Speech Note unter Windows und Linux“
[…] our last article, we focused on Locally Installed Transcription Tools for both Windows and Linux. However, the instructions for those of you using Microsoft Windows were […]
[…] pueden utilizar estos hallazgos para tomar decisiones informadas sobre la asignación de recursos, el entrenamiento de personal y la optimización de procesos. Identificar áreas donde se puede […]