Anwendungsgebiete der Sprachtechnologie für blinde und gehörlose Menschen

Klaus-Rüdiger Fellbaum
 

Die elektronische Sprachverarbeitung hat sich inzwischen in verschiedenen Bereichen durchgesetzt. So genannte „Killerapplikationen" sind hierbei vor allem die Anwendungen im Mobilfunk (Beispiel: Teilnehmerwahl durch Spracheingabe des Namens beim Mobiltelefon), im KFZ (Beispiele: sprachgesteuerte Rufnummernwahl, Sprachsteuerung von Komfortfunktionen sowie die Navigation mittels Sprachdialog), als Diktiersysteme sowie auch zunehmend Anwendungen im Smart-Home-Bereich.
Im Gegensatz zu den vorgenannten Anwendungen ist der Einsatz der Sprachtechnologie für Menschen mit Sinnesbehinderungen – insbesondere für Blinde und Gehörlose – zumeist noch im Frühstadium, obwohl der Nutzen außerordentlich hoch ist.

Kommunikationshilfen für Blinde

Für blinde Personen hat die Sprachtechnologie nahe liegender Weise eine noch wesentlich stärkere Bedeutung; die Sprachinformation dient dazu, den fehlenden visuellen Kommunikationskanal so weit wie möglich zu ersetzen. So überrascht es nicht, dass eine der ersten - und auch heute noch wichtigsten! - Anwendungen für die Sprachsynthese der Vorleseautomat für Blinde sowie stark Sehbehinderte ist.
Ausgangspunkt ist ein Papier-Dokument, das neben beliebigem Text auch Grafiken, Bilder, Tabellen, Text in mehreren Spalten, unterschiedliche Schrifttypen und –größen, Farben und vieles mehr enthalten kann. Dieses Dokument wird zunächst elektrooptisch abgetastet und in einem Speicher zur weiteren Verarbeitung bereit gestellt. Im nächsten Schritt erfolgt eine Seitenanalyse. Dieser Schritt bereitet die größten Schwierigkeiten, da die Seite – wie erwähnt – sehr unterschiedliche Bestandteile enthalten kann. Zunächst wird versucht, zusammenhängende Bereiche mit charakteristischen Merkmalen zu finden; derartige Bereiche können Textblöcke, Bildumrisse, Tabellen etc. sein. Im Falle von Bildern oder Grafiken müsste eine automatische Bilderkennung erfolgen, die in der Lage ist, beliebige Bildinhalte in eine verbale Beschreibung umzusetzen – ein bisher noch weitgehend ungelöstes Problem. Man kann allenfalls den Hinweis geben, dass sich an einer bestimmten Stelle ein Bild befindet und die Bildunterschrift vorlesen. Sofern es sich bei der Vorlage um eine Webseite oder ein vergleichbares elektronisches Dokument handelt, besteht aber die Möglichkeit, auch eine verbale Bilderläuterung – entweder ergänzend oder anstelle eines Bildes – vorzusehen. Von dieser Möglichkeit macht man bei der Gestaltung von „barrierefreien" Webseiten Gebrauch, wobei der Terminus „barrierefrei" bedeutet, dass auch Menschen mit Sinnesbehinderungen (vor allem Blinde und Sehbehinderte) den Inhalt von Webseiten erfassen können. Zur Sicherstellung der Barrierefreiheit hat das internationale Gremium W3C (World Wide Web Consortium) Empfehlungen erarbeitet, die bei offiziellen (z. B. behördlichen) Webseiten sogar gesetzlich vorgeschrieben sind.
Ein sehr wichtiger Aspekt beim Vorleseautomat ist die Ausgabegeschwindigkeit der synthetischen Sprache. Es lässt sich immer wieder beobachten, dass die blinden Benutzer bei einstellbarer Sprechgeschwindigkeit den mit dem Gerät maximal möglichen Wert wählen. Damit liegt der Schluss nahe, dass Blinde akustische Informationen schneller erfassen können als Normalsichtige- was auch plausibel ist, da der Hörsinn den fehlenden Sehsinn kompensieren muss. Wie sich bei den Untersuchungen zeigte, fällt das Ergebnis nicht ganz so eindeutig wie erwartet aus. Es ist zwar eine deutliche Überlegenheit der Blinden gegenüber Sehenden bei der Verstehbarkeit der sprachlichen Äußerungen festzustellen (Verstehbarkeit: Erkennung des Sinngehaltes – ohne eine wortgenaue Erkennung), nicht jedoch bei der Verständlichkeit, d. h. bei einer Wort-für-Wort-Erkennung.

Kommunikationshilfen für Gehörlose

Wenn Gehörlose über Distanzen miteinander kommunizieren, benutzen sie schon seit langem sogenannte „Schreibtelefone", mit denen sie Text über das normale Telefonnetz übermitteln. Mit dem Siegeszug des Internets ist die Kommunikation mittels eMail auch für Gehörlose alltäglich geworden. Die Kommunikation via SMS ist hier ebenfalls zu nennen. Die genannten Formen der Textkommunikation haben den großen Vorteil, dass dabei Gehörlose und Normalhörende problemlos miteinander kommunizieren können. Im Falle einer direkten (face-to-face) Kommunikation ist aber die Textform völlig ungeeignet – schon weil ihre zeitaufwändige „Produktion" jegliche Spontan-Kommunikation verhindert. Gehörlose benutzen daher für die direkte Kommunikation bekanntlich die Gebärdensprache. Ein großes Problem besteht darin, dass die wenigsten Normalhörenden die Gebärdensprache beherrschen. Auf diese Weise sind Gehörlose zumeist von ihren hörenden Mitmenschen isoliert und bilden eine separate Gruppe. Durch den Einsatz der Sprachtechnologie, kombiniert mit Videoverarbeitungstechniken, kann diese Kommunikations-barriere überwunden werden. Der/die Normalhörende spricht, die Sprache wird mittels Spracherkennung analysiert und in Text umgesetzt. Der Text kann dann für den Gehörlosen auf einem Display dargestellt werden. Alternativ besteht auch die Möglichkeit, das Ergebnis der Spracherkennung bildlich in Form von künstlichen Gebärden darzustellen, die eine Animationsfigur (Avatar) ausführt. Will andererseits der Gehörlose kommunizieren, so benutzt er die gewohnte Gebärdensprache; die Gebärden werden von einer Videokamera aufgenommen und einer automatischen Gebärdenerkennung (Bilderkennung) unterzogen. Als Ergebnis wird ein Text produziert, den der Normalhörende lesen kann, oder der Text wird mittels Sprachsynthese in Sprache umgewandelt. Während die erstgenannten technischen Verarbeitungsprozesse (Kommunikationsrichtung vom Normalhörenden zum Gehörlosen) heute Stand der Technik sind – lediglich die automatische Spracherkennung in Echtzeit bedeutet erheblichen Aufwand – ist die technische Realisierung der Gebärdenumsetzung (Kommunikationsrichtung vom Gehörlosen zum Normalhörenden) noch weitgehend im Forschungsstadium. Probleme bereiten zum einen die automatische Bewegtbild-Erkennung der Gebärden und zum anderen die Transkription der Gebärdensprache in normalen orthografischen Text. Hierbei ist zu berücksichtigen, dass die Gebärdensprache eine eigene Syntax und Semantik hat, die teilweise gravierend von derjenigen der „normalen" Orthografie abweicht. Die Analyse von Gebärdensprache und ihre Umsetzung in normalen orthografischen Text ist Gegenstand von Untersu-chungen.

Bild 1: Kommunikation zwischen Gehörlosen und Normalhörenden mittels der Sprach- und Videotechnologie

Kommunikationshilfen für Sprechbehinderte

Menschen mit mentalen Behinderungen, Lähmungen, dem Down-Syndrom, Schlaganfall-Patienten und Patienten mit vergleichbaren Symptomen sind oftmals nicht in der Lage, sich verständlich zu äußern. Um diesen Betroffenen zu helfen, lassen sich Verfahren der Spracherkennung und Sprachsynthese einsetzen. Bekanntlich basiert die automatische Spracherkennung im Wesentlichen darauf, in einer Trainingsphase gesprochenen Äußerungen eine Bedeutung zuzuordnen (meist in Form von Text) und dann in der eigentlichen Arbeitsphase eine aktuell gesprochene (und gelernte) Sprachäußerung wieder zu erkennen. Dabei ist es im Prinzip gleichgültig, wie die Sprachäußerung klingt; es könnte auch irgendeine andere akustische Äußerung sein. Entscheidend sind nur zwei Dinge: zum einen muss die eindeutige Zuordnung zu einer Bedeutung getroffen werden und zum anderen muss der Benutzer in der Lage sein, jede der trainierten Äußerungen mit genügender Ähnlichkeit zu reproduzieren. Dies ist zumeist möglich, wenn der Sprechbehinderte über ein hinreichendes Hörvermögen verfügt. Entsprechend wird der „Sprach"-Erkenner zunächst mit den vom Benutzer produzierbaren Äußerungen samt der jeweiligen zugehörigen Bedeutung trainiert. Auf diese Weise entsteht eine Benutzer-individuelle Datenbasis. In der Arbeitsphase ist dann der Erkenner in der Lage, bei jeder Äußerung die zugehörige Bedeutung – z.B. in Form eines Text-Strings – auszugeben. Dieser Text-String kann dann mittels einer Sprachsynthese in verständlicher Sprache ausgegeben werden. Man nennt die entsprechenden Verfahren daher häufig auch Sprachreparatur-Verfahren. Besonders wichtige Kommando- und Kontrollsequenzen, die beispielsweise im Smart-Home-Bereich benötigt werden, können separat und mit höherer Erkennungsgenauigkeit trainiert und ausgegeben werden. Da es sich bei solchen Anwendungen zumeist um ein sehr begrenztes Vokabular handelt, kann man die akustischen Äußerungen so wählen, dass sie maximal akustisch unähnlich sind. Auf diese Weise wird sichergestellt, dass auch Äußerungen, die nicht sehr gut reproduzierbar erzeugt werden können, noch richtig erkannt werden.

Schlussbemerkungen

Die Überlegungen haben gezeigt, dass der Einsatz von elektronischen Sprach­verarbeitungs­verfahren gerade für Menschen mit Behinderungen von großem Nutzen sein kann. Der entscheidende Punkt ist aber die Akzeptanz. Wenn behinderte Anwender nicht vom Nutzen der Sprachtechnologie überzeugt sind, weil die Zuverlässigkeit zu wünschen übrig lässt oder die Bedienprozeduren zu kompliziert sind, wird sich diese Technologie nicht durchsetzen. Bei unseren Untersuchungen konnten wir feststellen, dass die Einbeziehung der „Betroffenen" in die Entwicklung und Evaluation von Komponenten und Systemen in doppelter Hinsicht wichtig ist. Zum einen steigen bei den Betroffenen Interesse und Motivation, neue Technologien auch zu nutzen und zum anderen erhalten Forscher und Entwickler erstaunlich viele – oftmals auch originelle – Anregungen für neue Produkte und Anwendungen.

Grafik "Sprachtechnologie"
Sprachtechnologie