Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige
Lesedauer 2 Min.

Neue Funktionen für Deep Speech

Die kommende Deep-Speech-Version 0.2.0 soll die Möglichkeit enthalten, Sprache "live" in Text zu konvertieren – also noch während die Audiodaten gestreamt werden. Auf diese Weise lassen sich Vorträge, Telefongespräche, Fernseh- oder Radiosendungen und andere Live-Streams transkribieren, während sie stattfinden.
Es gibt bislang nur wenige, gut funktionierende Spracherkennungsdienste und die werden von einer kleinen Anzahl an Großunternehmen dominiert. Mit dem Projekt Deep Speech möchte das Machine Learning Team von Mozilla Research eine Open-Source-Alternative schaffen. Aktuell arbeitet das Entwicklerteam an einer Open-Source-Speech-to-Text-Engine (STT), die sich der von Nutzern erwarteten Performance annähert. Ziel des Projekts ist es, Sprachtechnologien für alle frei zugänglich zur Verfügung zu stellen – egal, ob es sich um Startups, Forschungsteams oder auch größere Unternehmen handelt, die ihre Produkte und Dienstleistungen mit Sprachaktivierung ausstatten möchten.In diesem Blog Post erklärt Reuben Morais, wie Mozilla Research die Architektur der STT-Engine geändert hat, um die Echtzeit-Transkription zu ermöglichen. Während die aktuelle Version der Engine ein bidirektionales Recurrent Neural Network (RNN) verwendet, das für das Transkribieren den kompletten Input kennen muss. Die neue Architektur setzt dagegen auf ein unidirektionales Modell, das keine Abhängigkeiten von zukünftigem Input hat.Als Performance-Vorteile gegenüber dem Vorgänger-Modell zählt Reuben Morais auf:
  • Die Größe des Modells schrumpft von 468 MByte auf 180 MByte.
  • Die Zeit für das Transkribieren einer 3-Sekunden-Datei schrumpft von 9 auf 1,5 Sekunden (auf einer Laptop-CPU).
  • Die Spitzenbelastung des Heap sinkt von 4 GByte auf 20 MByte.
  • Die Heap-Allokationen insgesamt schrumpfen von 12 GByte auf 264 MByte.
In einem kleinen Python-Programm zeigt Reuben in seinem Blog-Beitrag, wie man das Modell libSoX benutzt, um die vom Mikrophon aufgenommene Sprache in die Speech-to-Text-Engine füttert während das Audio-File noch aufgenommen wird.
Miscellaneous

Neueste Beiträge

Ein Mantra für sauberes Softwaredesign
Drei einfache, aber fundamentale Regeln bilden den Einstieg in die Composite-Components-Architektur.
5 Minuten
27. Mai 2026
Interaktive Planung und integrierte AI-Code-Reviews mit Cursor - Die KI-IDE Cursor in der Praxis, Teil 1
Cursor kombiniert den Plan-Modus mit integrierten AI-Code-Reviews und verbindet so Planung mit Umsetzung und Qualitätssicherung in einem interaktiven Entwicklungsworkflow.
8 Minuten
3. Jun 2026
Security ist essenziell - Secure Boot: Sicherheit von Anfang an
Die beste Verschlüsselung wird ausgehebelt, wenn das Betriebssystem schon beim Bootvorgang kompromittiert wird.
8 Minuten
25. Mai 2026

Das könnte Dich auch interessieren

Schemio: Open-Source-Lösung für interaktive Diagramme - Diagrammsoftware
Schemio ist ein webbasiertes Diagrammtool, das Nutzern hilft, komplexe Ideen visuell darzustellen. Mit interaktiven Diagrammen, einem Animationseditor und einer innovativen Dokumentationsfunktion erleichtert Schemio die Kommunikation.
2 Minuten
18. Dez 2024
Drei Vorschläge das ODP-Format zu verbessern - SQLite
Die Vorteile der Verbesserungen wären kleinere Dateien, schnelleres Speichern und Laden, geringere Speicherbedarf und die Möglichkeit der Versionierung.
2 Minuten
26. Sep 2023
Open Source Workflow Engine in C# - Wexflow
Wexflow ist eine erweiterbare Open Source Workflow Multi-Thread-Engine, die in C# geschrieben wurde. Sie bietet einen Cross Platform Manager, der unter Windows, Mac OS, Linux und Android arbeitet.
3 Minuten
11. Okt 2017
Anzeige
Anzeige
Anzeige
Anzeige
Anzeige