Sind Menschen oder Maschinen besser darin, Sprache zu erkennen? Eine neue Studie zeigt, dass aktuelle automatische Spracherkennungssysteme (ASR) in lauten Umgebungen eine bemerkenswerte Genauigkeit erreichen und manchmal sogar die menschliche Leistung übertreffen. Allerdings müssen die Systeme auf einer unglaublichen Menge an Daten trainiert werden, während Menschen vergleichbare Fähigkeiten in kürzerer Zeit erwerben.
Die automatische Spracherkennung (ASR) hat in den letzten Jahren unglaubliche Fortschritte gemacht, insbesondere für weit verbreitete Sprachen wie Englisch. Vor 2020 ging man in der Regel davon aus, dass die menschlichen Fähigkeiten zur Spracherkennung die automatischen Systeme bei weitem übertrafen, doch einige aktuelle Systeme haben begonnen, die menschliche Leistung zu erreichen. Das Ziel bei der Entwicklung von ASR-Systemen bestand immer darin, die Fehlerquote zu senken, unabhängig davon, wie sich Menschen in derselben Umgebung verhalten. Schließlich können nicht einmal Menschen in einer lauten Umgebung Sprache mit hundertprozentiger Genauigkeit erkennen.
In einer neuen Studie verglichen die UZH-Computerlinguistik-Spezialistin Eleanor Chodroff und eine Forscherkollegin der Universität Cambridge, Chloe Patman, zwei beliebte ASR-Systeme – Metas wav2vec 2.0 und Open AIs Whisper – mit britischen Muttersprachlern. Sie testeten, wie gut die Systeme Sprache in sprachförmigem Rauschen (statischem Rauschen) oder Kneipenlärm erkannten, und zwar mit oder ohne Baumwoll-Gesichtsmaske.
Neuestes OpenAI-System besser – mit einer Ausnahme
Die Forscher fanden heraus, dass der Mensch beiden ASR-Systemen immer noch einen Vorsprung verschafft. Das neueste große ASR-System von OpenAI, Whisper Large-v3, übertraf jedoch menschliche Zuhörer unter allen getesteten Bedingungen deutlich, mit Ausnahme des naturalistischen Kneipenlärms, wo es dem menschlichen Zuhörer lediglich ebenbürtig war. Whisper Large-v3 hat somit seine Fähigkeit unter Beweis gestellt, die akustischen Eigenschaften von Sprache zu verarbeiten und sie erfolgreich der beabsichtigten Nachricht (d. h. dem Satz) zuzuordnen. „Das war beeindruckend, da die getesteten Sätze aus dem Kontext gerissen wurden und es schwierig war, aus den vorhergehenden Wörtern ein einzelnes Wort vorherzusagen“, sagt Eleanor Chodroff.
Umfangreiche Trainingsdaten
Ein genauerer Blick auf die ASR-Systeme und ihre Ausbildung zeigt, dass Menschen dennoch etwas Bemerkenswertes leisten. Beide getesteten Systeme beinhalten Deep Learning, aber das wettbewerbsfähigste System, Whisper, erfordert eine unglaubliche Menge an Trainingsdaten. Metas wav2vec 2.0 wurde mit 960 Stunden (oder 40 Tagen) englischen Audiodaten trainiert, während das Standard-Whisper-System mit über 75 Jahren Sprachdaten trainiert wurde. Das System, das tatsächlich die menschlichen Fähigkeiten übertraf, wurde auf über 500 Jahren ununterbrochener Sprache trainiert. „Menschen sind in der Lage, diese Leistung in nur wenigen Jahren zu erreichen“, sagt Chodroff. „Auch für die automatische Spracherkennung in fast allen anderen Sprachen bleiben erhebliche Herausforderungen bestehen.“
Verschiedene Arten von Fehlern
Das Papier zeigt auch, dass Menschen und ASR-Systeme unterschiedliche Arten von Fehlern machen. Englische Zuhörer produzierten fast immer grammatikalische Sätze, schrieben jedoch eher Satzfragmente, anstatt zu versuchen, für jeden Teil des gesprochenen Satzes ein geschriebenes Wort bereitzustellen. Im Gegensatz dazu erzeugte wav2vec 2.0 unter schwierigsten Bedingungen häufig Kauderwelsch. Whisper neigte auch dazu, vollständige grammatikalische Sätze zu produzieren, füllte aber eher die Lücken mit völlig falschen Informationen.