Barrierefreie Kommunikation in Echtzeit mit 3D-Gebärdensprache-Avatar

Viele gehörlose Menschen können Informationen am besten aufnehmen, wenn
sie ihnen in Gebärdensprache übermittelt werden. Bei dynamischen Inhalten
wie Abfahrtszeiten an Bahnhöfen war dies bislang jedoch nicht möglich. Die
TH Köln hat jetzt im Projekt AVASAG mit mehreren Partnern einen 3D-Avatar
entwickelt, der Texte automatisiert in Gebärdensprache übersetzt.

„Gewöhnliche Schriftsprache ist für gehörlose Menschen wie eine
Fremdsprache, da sich die Deutsche Gebärdensprache in Grammatik und
Wortwahl vom gesprochenen und geschriebenen Deutsch unterscheidet. Müssen
Informationen aufgenommen werden, die sich schnell ändern, sind
schriftliche Angaben deshalb für viele Gehörlose nur bedingt hilfreich“,
erklärt Prof. Dr. Arnulph Fuhrmann vom Institut für Medien- und
Phototechnik der TH Köln.

Zwar erstellen Unternehmen oder staatliche Institutionen heute bereits
Gebärdensprachvideos, um mit dieser Zielgruppe zu kommunizieren – diese
sind bislang aber nur für statische Inhalte sinnvoll. „Videoproduktionen
sind aufwändig und die einmal erstellten Videos nur schwer editierbar.
Ändert sich der Inhalt, müssen sie manuell angepasst oder komplett neu
erstellt werden. Für Reiseinformationen wie Fahrplanänderungen,
Verspätungen oder Zugausfälle ist das keine Option. Wir setzen daher auf
eine Lösung, die Informationen in Gebärdensprache in Echtzeit
bereitstellen kann“, so Fuhrmann.

Zusammengesetzte Lichtpunkte erzeugen digitales Abbild der Bewegungen

Um den Anforderungen an eine automatisierte Übersetzung gerecht zu werden
und damit die Teilhabe von Gehörlosen zu fördern, haben die sechs
Projektpartner eine neuartige Animationsmethode für einen 3D-Avatar – eine
virtuelle Darstellung mit menschlichen Gesichtszügen – geschaffen. Im
Teilprojekt der TH Köln wurden dazu einzelne Gebärden sowie ganze Sätze
einer Person mit mehreren Kameras aufgezeichnet, so dass Körper-, Finger-
und Gesichtsbewegungen gleichzeitig erfasst wurden.

„Beim sogenannten Motion Capturing werden reflektierende Leuchtmarker an
Körper und Kopf angebracht. Die Kameras nehmen dabei das reflektierte
Licht auf. Die Lichtpunkte werden dann am Computer zusammengesetzt und es
entsteht ein digitales Abbild der Bewegungen“, berichtet Fuhrmann und
ergänzt: „Der Computer nimmt aber nur die Lichtpunkte auf und kann sie
nicht der entsprechenden Bedeutung in der Gebärdensprache zuordnen. Das
ist besonders bei Fingerbewegungen kompliziert, da die Lichtpunkte sehr
dicht beieinander liegen und es schnell zu Fehlzuordnungen kommt.“

Sprachverarbeitung per Software

Um diese Herausforderung zu bewältigen, haben die Forschenden ein neues
Machine Learning (ML)-Verfahren entwickelt, das die erfassten Daten so
aufbereitet, dass alle Lichtpunkte korrekt zugeordnet werden können. Diese
aufbereiteten Daten wurden von den Projektpartnern weiterverwendet und
durch ein weiteres ML-Verfahren so verarbeitet, dass die aufgezeichneten
Gebärden mit den in die Software eingegebenen Texten verknüpft werden.
„Mit diesen Bausteinen ist es uns gelungen, ganze Sätze von
Reiseinformationen in Gebärdensprache zu übersetzen und durch den Avatar
animieren zu lassen“, erklärt Fuhrmann.

Umfrage und Ausblick

Im Anschluss nahmen 68 gehörlose Menschen an einer Online-Umfrage teil, um
die Benutzer*innenfreundlichkeit des Demonstrators zu bewerten. Dabei habe
sich gezeigt, dass die Interaktion mit dem Gebärdensprach-Avatar als
ansprechend, authentisch, respektvoll und natürlich wahrgenommen worden
sei. Die bevorzugte Nutzung der Anwendung liege auf mobilen Endgeräten.
„Wir erwarten eine hohe Akzeptanz, da die Gebärdensprachler*innen die
Verständlichkeit sowie das Erscheinungsbild des Avatars als positiv
wahrgenommen haben. Bis die Anwendung tatsächlich in stationäre
Bildschirme in Bahnhöfen, Busstationen oder Flughafenterminals sowie in
Websites und Mobilität-Apps integriert wird, sollte aus unserer Sicht noch
eine weitere Studie zur Verständlichkeit von Gebärdensprach-Avataren
durchgeführt werden“, so Fuhrmann.

Mehr Informationen finden sich unter: www.avasag.de

Über das Projekt

Im Verbundprojekt „AVASAG“ (Avatar-basierter Sprachassistent zur
automatisierten Gebärdenübersetzung) arbeiteten Hochschul- und
Forschungseinrichtungen sowie Unternehmen aus den Bereichen 3D-Animation,
Softwareentwicklung, User Experience, Künstliche Intelligenz sowie
Gebärdensprache unter Leitung der Softwarefirma Charamel GmbH zusammen.
Prof. Dr. Arnulph Fuhrmann vom Institut für Medien- und Phototechnik der
TH Köln verantwortete das Teilvorhaben „Automatisierte Erfassung von
Gebärden mittels simultaner Aufnahme von Körper-, Finger-, und
Gesichtsbewegungen“.

Weitere Partner waren die yomma GmbH, Dienstleister für Übersetzung und
Produktion von Gebärdensprachevideos, die Ergosign GmbH, eine
Digitalagentur mit Fokus auf User Experience Design, die DFKI GmbH als
Forschungseinrichtung auf den Gebieten der maschinellen Übersetzung und
Mensch-Maschine-Interaktion sowie der Lehrstuhl Human-Centered Artificial
Intelligence der Universität Augsburg. Das Bundesministerium für Bildung
und Forschung förderte das dreijährige Vorhaben mit 1,47 Millionen Euro.

Die TH Köln zählt zu den innovativsten Hochschulen für Angewandte
Wissenschaften. Sie bietet Studierenden sowie Wissenschaftlerinnen und
Wissenschaftlern aus dem In- und Ausland ein inspirierendes Lern-,
Arbeits- und Forschungsumfeld in den Sozial-, Kultur-, Gesellschafts-,
Ingenieur- und Naturwissenschaften. Zurzeit sind rund 23.500 Studierende
in etwa 100 Bachelor- und Masterstudiengängen eingeschrieben. Die TH Köln
gestaltet Soziale Innovation – mit diesem Anspruch begegnen wir den
Herausforderungen der Gesellschaft. Unser interdisziplinäres Denken und
Handeln, unsere regionalen, nationalen und internationalen Aktivitäten
machen uns in vielen Bereichen zur geschätzten Kooperationspartnerin und
Wegbereiterin.

Digital Ultras: Kompromisslose Choreo für deine Domain