Nichtlinearer Algorithmus zur zeitlichen Skalierung von Sprache

Dirk Höpfner (Mitarbeiter des Lehrstuhls Medientechnik)
 

Zeitliche Skalierung von Sprache beinhaltet die beschleunigte und verzögerte Wiedergabe von natürlich gespeicherter oder synthetisch erzeugter Sprache. Eine wesentliche Bedeutung besitzt die Sprachskalierung als Teil der Mensch -Maschine - Kommunikationsschnittstelle in der Blindenkommunikation.
 
Bezüglich der Verstehensfähigkeit beschleunigter Sprache von blinden oder sehbehinderten Menschen wurden bereits einige Versuche mit drei- bis vierfacher normaler Sprechrate (10-12 Silben/s) am Lehrstuhl unternommen. Bei diesen hohen Geschwindigkeiten lassen jedoch Verständlichkeit und Verstehbarkeit bisheriger Beschleunigungsverfahren rapide nach. Ursache dafür ist - neben der begrenzten auditiven Wahrnehmungsfähigkeit des Menschen - die Arbeitsweise bisheriger linearer Algorithmen. Dabei wird das Signal in kleine Segmente von ca. 20-30 ms aufgeteilt, analysiert und eine eventuell vorhandene und ermittelte Grundfrequenz zur Schnittmarkierung genutzt. Die Abschnitte zwischen den Markierungen können nun grundfrequenzerhaltend gelöscht oder wiederholt werden. Die verbleibenden Segmente werden überlappend ineinander gemischt. In den ersten Tests mit diesem Verfahren zeigte sich bei hohen Geschwindigkeiten, dass Laute durch fehlende Signalabschnitte unverständlich wurden bzw. in der Sprachausgabe völlig verschwanden. Aus diesem Grund wurde ein neues echtzeitfähiges, lautbasiertes Verfahren für natürliche Sprache in CD-Qualität entwickelt. Hiermit kann einerseits von jedem Laut mindestens ein Segment mit einer Länge von 20-30 ms erhalten bleiben und andererseits jeder Laut individuell gestaucht oder gestreckt werden. Das Algorithmusprinzip ist in der Abbildung veranschaulicht. Der Algorithmus analysiert zunächst das Sprachsignal und markiert die Phonemgrenzen. Trotz der ausschließlichen Verarbeitung im Zeitbereich erreicht das Verfahren Genauigkeiten, die mit denen automatischer Segmentierungsverfahren verglichen werden können. Nach der Phonemsegmentierung werden die Laute als Sprache oder Sprachpause und stimmhaft oder stimmlos klassifiziert sowie starke Energieschwankungen, wie sie in zu erhaltenden Plosive auftreten können, markiert. Das Verfahren erreichte in subjektiven Hörtests wesentlich bessere Verstehbarkeitshäufigkeiten als einfache lineare Skalierungsverfahren, die im Zeitbereich arbeiten. Mit der selektiven Faktoreinstellung wurden Pausen gegenüber aktiver Sprache im Verhältnis 2:1 sowie stimmhafte Laute gegenüber stimmlosen Lauten im Verhältnis 2,2:1 komprimiert. Dadurch bleiben mehr Laute nach der Skalierung im Sprachsignal erhalten, so dass die Verständlichkeit einzelner Wörter gegenüber der normalen Sprechgeschwindigkeit sehr gut erhalten bleibt und damit die Verstehbarkeit kaum abnimmt.

Blockschalftbild
Prinzip des phonembasierten Zeitskalierungs-Algorithmus