Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Lesedauer 2 Min.

Neue Funktionen für Deep Speech

Die kommende Deep-Speech-Version 0.2.0 soll die Möglichkeit enthalten, Sprache "live" in Text zu konvertieren – also noch während die Audiodaten gestreamt werden. Auf diese Weise lassen sich Vorträge, Telefongespräche, Fernseh- oder Radiosendungen und andere Live-Streams transkribieren, während sie stattfinden.
Es gibt bislang nur wenige, gut funktionierende Spracherkennungsdienste und die werden von einer kleinen Anzahl an Großunternehmen dominiert. Mit dem Projekt Deep Speech möchte das Machine Learning Team von Mozilla Research eine Open-Source-Alternative schaffen. Aktuell arbeitet das Entwicklerteam an einer Open-Source-Speech-to-Text-Engine (STT), die sich der von Nutzern erwarteten Performance annähert. Ziel des Projekts ist es, Sprachtechnologien für alle frei zugänglich zur Verfügung zu stellen – egal, ob es sich um Startups, Forschungsteams oder auch größere Unternehmen handelt, die ihre Produkte und Dienstleistungen mit Sprachaktivierung ausstatten möchten.In diesem Blog Post erklärt Reuben Morais, wie Mozilla Research die Architektur der STT-Engine geändert hat, um die Echtzeit-Transkription zu ermöglichen. Während die aktuelle Version der Engine ein bidirektionales Recurrent Neural Network (RNN) verwendet, das für das Transkribieren den kompletten Input kennen muss. Die neue Architektur setzt dagegen auf ein unidirektionales Modell, das keine Abhängigkeiten von zukünftigem Input hat.Als Performance-Vorteile gegenüber dem Vorgänger-Modell zählt Reuben Morais auf:
  • Die Größe des Modells schrumpft von 468 MByte auf 180 MByte.
  • Die Zeit für das Transkribieren einer 3-Sekunden-Datei schrumpft von 9 auf 1,5 Sekunden (auf einer Laptop-CPU).
  • Die Spitzenbelastung des Heap sinkt von 4 GByte auf 20 MByte.
  • Die Heap-Allokationen insgesamt schrumpfen von 12 GByte auf 264 MByte.
In einem kleinen Python-Programm zeigt Reuben in seinem Blog-Beitrag, wie man das Modell libSoX benutzt, um die vom Mikrophon aufgenommene Sprache in die Speech-to-Text-Engine füttert während das Audio-File noch aufgenommen wird.
Miscellaneous

Neueste Beiträge

Was Developer in Europa wirklich wollen – und was sie nervt - European Transparent IT Job Market Report
Über 23.000 Stellenanzeigen, mehr als 1.300 befragte IT-Fachleute, sechs europäische Länder: Der Job-Market-Report liefert handfeste Zahlen zu Gehältern, Recruiting-Frust und dem wachsenden Einfluss von KI auf den Arbeitsalltag. Was Developer wirklich wollen – und wo Unternehmen noch deutlich Luft nach oben haben.
3 Minuten
19. Mai 2026
HMAC mit C# und T-SQL - Neues in SQL Server 2025, Teil 3
Kompatible Signaturberechnung über Systemgrenzen hinweg.
4 Minuten
20. Mai 2026
JSON mit T-SQL auswerten - Neues in SQL Server 2025, Teil 2
Die JSON-Unterstützung in SQL Server 2025 erweitert das relationale Modell um die direkte Verarbeitung dokumentbasierter Daten.
6 Minuten
13. Mai 2026

Das könnte Dich auch interessieren

Elektronische Schaltkreise im Browser simulieren - Simulation
Statt mit Steckfeld oder Lötkolben kann man auf dieser Website Schaltungen per Drag and Drop zusammenstellen und deren Verhalten testen.
2 Minuten
26. Jul 2018
C#-.NET-Apps mit WinUI 3 - Komponentenbasierte Apps mit Fluent/FAST, Teil 3
Microsoft macht mit WinUI 3 ein natives User-Experience-Framework für Windows verfügbar, dessen Komponenten auf dem Microsoft-eigenen Design-System Fluent 2 basieren.
23 Minuten
13. Mai 2024
UIs für Linux - Bedienoberflächen entwickeln mithilfe von C#, .NET und Avalonia
Es gibt viele UI-Frameworks für .NET, doch nur sehr wenige davon unterstützen Linux. Avalonia schafft als etabliertes Open-Source-Projekt Abhilfe.
16 Minuten
16. Jun 2025
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige