Sehen, wann gesprochen wird

»Dialog Detection« unterstützt Tonschaffende durch eine zuverlässige
Identifikation von Sprache im Audiosignal

Neue Algorithmen des Fraunhofer IDMT bilden die Basis für die »Dialog
Detection« in Steinbergs neuster Version der Audio-Postproduktion-Software
Nuendo. Die Funktion erkennt zuverlässig Sprachanteile in der Tonspur und
ermöglicht dadurch Audioexpertinnen und -experten auf einfache Art und
Weise Passagen mit und ohne Sprache auf unterschiedliche Spuren
aufzuteilen. Für die vorherige Nuendo-Version lieferte das Fraunhofer IDMT
bereits Algorithmen für die Messung, Bewertung und Anzeige von
Sprachverständlichkeit.

Oldenburg, 23. Mai 2022. Passagen mit und ohne Gesprächsanteile nur anhand
des Audio-Levels zu identifizieren, kann für professionelle Tonschaffende
eine mühsame Aufgabe sein. Um zu erkennen, ob es sich jeweils um
gesprochenes Wort oder lediglich um Hintergrundgeräusche handelt, muss die
Audio-Passage beim Editieren angehört werden. In Zusammenarbeit mit dem
Fraunhofer-Institut für Digitale Medientechnologie IDMT will die Steinberg
Media Technologies GmbH die Arbeit von Profis in den Bereichen Sound-
Design, Dialog-Editing sowie Sprachsynchronisation erleichtern. Dazu hat
Steinberg im neuesten Update seiner digitalen Audioworkstation Nuendo das
Feature »Dialog Detection« integriert.

Dialog-Bearbeitung im Fokus

Bei den neuen Features in Nuendo 12 liegt der Schwerpunkt auf der Aufnahme
und dem Editieren von Dialogen. »Damit rücken speziell die Bedürfnisse von
Nuendo-Nutzenden in den Fokus, die sich beispielsweise beim
Synchronisieren und bei der Erstellung von Voice-Overs verstärkt auf
Sprache konzentrieren müssen. Besonders relevant ist dies bei der
Erstellung von Inhalten für Streaming-Dienste«, sagt Timo Wildenhain, Head
of ProAudio bei Steinberg. »Dialog Detection« setzt dabei auf Technologien
des Fraunhofer IDMT in Oldenburg. Algorithmen basierend auf maschinellen
Lernverfahren (neuronalen Netzen) erkennen unabhängig von
Hintergrundgeräuschen Sprachaktivität im Audiosignal. Tonschaffende können
die erkannten Passagen anhören und auf Wunsch Anteile ohne Sprache
automatisch in unterschiedliche Spuren aufteilen lassen. Das eigentliche
Editieren beginnen sie komfortabel und übersichtlich mit einer separierten
Dialogspur.

Sprachaktivitätserkennung vielseitig einsetzbar

Die im Feature eingesetzte Sprachaktivitätserkennung (»Speech Activity
Detection«, SAD) des Fraunhofer IDMT in Oldenburg wurde mit einer Vielzahl
an unterschiedlichen Daten trainiert, um zuverlässig Sprachaktivität bei
vorhandenen Hintergrundgeräuschen zu identifizieren. »Unsere SAD-
Algorithmen sind in unterschiedlichen Anwendungen im Einsatz. Als
eigenständiges Feature können sie den Workflow von Audio-Profis merklich
verbessern. Darüber hinaus dienen sie in weiteren Lösungen des Fraunhofer
IDMT als Vorverarbeitung für die hauseigene Sprach- und Sprechererkennung,
als Störgeräuschbefreiungsalgorithmen oder Privacy Filter«, erklärt
Christian Rollwage, Gruppenleiter Audiosignalverbesserung am Institutsteil
Hör-, Sprach- und Audiotechnologie HSA. Sei es im Smart Speaker im
heimischen Wohnzimmer, bei sprachbasierter Maschinensteuerung in der
Produktionshalle oder bei der Sprachdokumentation in der
Qualitätssicherung: Die SAD kann eingesetzt werden, damit für die
folgenden Verarbeitungsschritte bereits nichtsprachliche Anteile
herausgefiltert sind oder umgekehrt, damit Sprache gar nicht erst
aufgezeichnet wird und so die Privatsphäre von Nutzerinnen und Nutzern,
zum Beispiel im öffentlichen Raum, geschützt ist.

Erfolgreiche Zusammenarbeit von Steinberg und Fraunhofer IDMT

Bereits in der vorherigen Version Nuendo 11 setzte Steinberg Technologien
des Fraunhofer IDMT zur Messung, Bewertung und Darstellung von
Sprachverständlichkeit ein. Audio-Expertinnen und -Experten wurde mit dem
»Intelligibility Meter« ein Tool an die Hand gegeben, um Sprache im
finalen Mix optimal verständlich zu halten und zusätzlich den
demografischen Wandel sowie damit verbundene Hörverluste berücksichtigen
zu können.

Hör-, Sprach- und Audiotechnologie HSA am Fraunhofer IDMT
in Oldenburg

Der im Jahre 2008 unter der Leitung von Prof. Dr. Dr. Birger Kollmeier und
Dr. Jens-E. Appell gegründete Institutsteil Hör-, Sprach- und
Audiotechnologie HSA des Fraunhofer-Instituts für Digitale
Medientechnologie IDMT steht für marktnahe Forschung und Entwicklung mit
Schwerpunkten auf

- Sprach- und Ereigniserkennung
- Klangqualität und Sprachverständlichkeit sowie
- Mobile Neurotechnologie und Systeme für eine vernetzte
Gesundheitsversorgung.

Mit eigener Kompetenz in der Entwicklung von Hard- und Softwaresystemen
für Audiosystemtechnologie und Signalverbesserung setzen über 100
Mitarbeitende am Standort Oldenburg wissenschaftliche Erkenntnisse in
kundengerechte, praxisnahe Lösungen um.

Über wissenschaftliche Kooperationen ist der Institutsteil eng mit der
Carl von Ossietzky Universität, der Jade Hochschule und der Hochschule
Emden/Leer verbunden. Das Fraunhofer IDMT ist Partner im Exzellenzcluster
»Hearing4all«.

Weitere Informationen auf www.idmt.fraunhofer.de/hsa

Digital Ultras: Kompromisslose Choreo für deine Domain