29.09.2011


Theodor Ickler

Maschinelle Übersetzung

Besser als ihr Ruf

In der Süddeutschen Zeitung vom 23.9.2011 hat Burkhard Müller die maschinelle Übersetzung kritisiert.
Er spart nicht mit starken Worten („totaler Quatsch, verhaut und versaut“), um Google Translate lächerlich zu machen. Wahrscheinlich haben ihn seine ersten Testergebnisse auf die Palme gebracht. Sie sind schlecht, und es gibt noch Schlimmeres. Das kostenlos zugängliche Google Translate ist natürlich auch nicht mit professionellen Lösungen vergleichbar. Trotzdem lohnt sich ein zweiter Blick.
Ausgangspunkt der keineswegs neuen Translation-Memory-Systeme ist die Erkenntnis, daß das meiste, was gesagt wird, schon einmal gesagt und oft auch schon einmal übersetzt worden ist. Während manche Linguisten die Neuheit eines jeden Satzes hervorheben, weisen andere auf die ermüdende Gleichförmigkeit menschlichen Sprachverhaltens hin. Das ist kein Widerspruch: Ganze Texte wiederholen sich nie, kleinere Schnipsel dagegen sehr wohl, und selbst die größeren Abschnitte sind meist nur variierende Wiederholungen des Immergleichen. Davon profitieren zum Beispiel die auch von Müller erwähnten Dolmetscher. Übersetzer legen sich seit je Zettelkästen (heute: Datenbanken) mit schon übersetzten Stellen an. Die elektronische Verfügbarkeit ungeheurer Textmassen macht es neuerdings möglich, bereits vorliegende Übersetzungen aus aller Welt blitzschnell aufzuspüren. Damit erspart man sich die grammatische Analyse, die bei komplexeren Sätzen enorm aufwendig wird und bei Phraseologismen oft in die Irre führt. Völlig entbehrlich ist sie allerdings nicht.
Burkhard Müller beginnt seinen Test mit Latein, mit einem „schlichten Satz ohne besondere Hindernisse“. Damit kommt Google Translate erwartungsgemäß nicht zurecht. Genauer betrachtet, ist der Livius-Satz allerdings keineswegs so schlicht. Das Lateinische ist nicht nur wegen seiner Wortstellung schwer zu verarbeiten, sondern auch wegen der Mehrdeutigkeit so vieler Formen und Konstruktionen (potantibus his; incidit de uxoribus mentio). Gerade die Übersetzung aus dem Lateinischen sollte uns mahnen, die Überlegenheit des menschlichen, „verstehenden“ Übersetzers nicht zu hoch anzusetzen. Was Gymnasiasten da anrichten, ist sprichwörtlich und hat schon manchen Lehrer zu erheiternden Blütenlesen angeregt: Du wirst heilig, wenn du meine häßliche Tochter heiratest. (Ut foedus sanciatur, filiam meam tibi in matrimonium dabo.) Es ist ein offenes Geheimnis: Die meisten Absolventen des humanistischen Gymnasiums sind nicht in der Lage, einen Livius-Text spontan zu übersetzen. In den modernen Fremdsprachen würde man einen solchen Mißerfolg von mehreren Unterrichtsjahren nicht hinnehmen. Aber das ist ein anderes Thema. Latein scheint bei Google überhaupt nicht durch ein Korpus vertreten zu sein, denn nicht einmal die einfachsten Redensarten und Sprichwörter werden erkannt. Was übrigens die lateinischen Klassiker betrifft, so braucht man sie glücklicherweise nicht mehr zu übersetzen. Und sollte jemand ins Lateinische übersetzen wollen, ist er ebenfalls verloren: Ich gehe gern ins Kino, und du? Google: Ire ad me ipsum, et tibi?
Wenden wir uns also lieber den lebenden Sprachen zu. Das eigentliche Gebiet der maschinellen Übersetzung sind natürlich nicht Romane, sondern Fachtexte, und hier werden mithilfe von ausgefeilten und auch teuren Programmen täglich Hunderttausende von Rohübersetzungen angefertigt, die dann ein menschlicher Übersetzer nachbearbeitet (post-editing). Anders wären die Textmassen längst nicht mehr zu bewältigen. Was leistet Google Translate hier? Nehmen wir einen Abschnitt aus der Selbstdarstellung des Rates für deutsche Rechtschreibung: Dieser Rat hat die Aufgabe, die Einheitlichkeit der Rechtschreibung im deutschen Sprachraum zu wahren. Näheres regelt das beigefügte Statut. - Google übersetzt: This council is responsible for the uniformity of spelling in German-speaking countries to maintain. Details are fixed in the attached statute. Der erste Satz enthält am Schluß einen charakteristischen Fehler, an dem noch gearbeitet werden muß, aber ansonsten ist das Ergebnis sehr brauchbar, insbesondere wenn man bedenkt, welche Zweideutigkeit rein formal mit der Wortstellung im zweiten Satz gegeben ist. Daran scheitert z. B. WorldLingo: Details regulate the attached statute.
Das Übersetzen ist keine Wissenschaft, sondern eine Kunst. (Google: Translation is not a science but an art.) Die „statistische“ Methode ist daher nicht von vornherein abwegig. Freilich: Man darf von einer automatischen Übersetzung keine Wunder erwarten. (Google: Il ne faut pas attendre de miracles d'une traduction automatique.) Wo Sprichwörter und Redensarten richtig erkannt werden, leisten auch Billigprogramme gute Arbeit: Der Apfel fällt nicht weit vom Stamm. Google: The apple does not fall far from the tree. - Babelfish: Like father, like son.
Schnell noch ein Blick auf nichtverwandte Sprachen! Geben wir noch einmal unser Testsätzchen ein: Ich gehe gern ins Kino, und du? Google übersetzt ins Chinesische: wo xihuan kan dianying, ni ne? (Im Original in korrekten chinesischen Schriftzeichen.) Um diese Leistung recht zu würdigen, muß man bedenken, was alles hätte schiefgehen können und im Falle des Lateinischen ja auch tatsächlich schiefgegangen ist.

Aber das Problem hat noch eine ganz andere Seite. Während die Praktiker längst daran arbeiten, bereits das Original eines Sach- oder Fachtextes übersetzungsgerecht zu formulieren oder nachträglich für die maschinelle Verarbeitung herzurichten, gefallen sich Geisteswissenschaftler und Feuilletonisten in einem Stil, der hierzulande immer noch als geistreich gilt. Denn das Gedicht ist Gesprochenheit, Gesprochenheit zum Du, wo immer ihm der Partner wese. Das ist grotesk, aber der Verfasser war nicht verrückt, sondern ein vielgelesener, hochverehrter Intellektueller. Kein Wunder, daß Google daraus auch nichts Besseres machen kann: For the poem is spoken awareness, awareness spoken to you, where ever he wese the partners. „Übersetzt“ man jedoch das Ganze zuvor in verständliches Deutsch: Gedichte sind an unbekannte Empfänger gerichtet – so kommt auch Google mit dem allerdings platten Gedanken gut zurecht: Poems are addressed to unknown recipients. Erstaunlicherweise wird hier wie auch sonst, freilich nicht immer, die deutsche Satzklammer korrekt aufgelöst. Es ist für eine Maschine schwer, das Zusammengehörige, aber mit unterschiedlichen Abständen voneinander entfernt Stehende aufzufinden. Google schafft es sehr oft: Die statistische Methode setzt ein großes Corpus voraus. - The statistical method requires a large corpus. Was hier alles schiefgehen kann, zeigt das Filser-Englisch von Babelfish: Der Papst lehnt den Pluralismus und Säkularismus demokratischer Staaten entschieden ab. - The Pope leans the pluralism and secularism of democratic states decided off. Die Süddeutsche Zeitung schrieb einmal: Die Partei erlebte einen Exodus an Mitgliedern, der historisch einzigartig ist. Sie verlor an Wählern in einem Ausmaß, das ebenfalls singulär in der bundesdeutschen Geschichte steht. Auch hier macht Google seine Sache recht gut, im letzten Teil sogar mit einer überraschenden Feinheit: The party experienced an exodus of members, which is historically unique. She lost voters to an extent which is also unique in the German history. Der Sinn ist klar, das Nachbearbeiten keine große Sache.
Zurück zur Verschlankung aufgeblähter Originaltexte. Es steckt ebenfalls eine ausgeprägt autobiographische Dimension in diesem Text. Das ist nicht gut, und die Übersetzung deckt es beschämend deutlich auf: It also puts a distinctly autobiographical dimension in this text. Wir formulieren schlichter: Der Text ist stark autobiographisch. Damit hat das Programm keine Schwierigkeiten: The text is heavily autobiographical. Der „Gemeinsame europäische Referenzrahmen für Sprachen“, ein bürokratisches Monstrum von Text, gefällt sich darin, Banales bis zur Unkenntlichkeit aufzubauschen: Bei auditiven rezeptiven Aktivitäten (beim Hören) empfangen und verarbeiten Sprachverwendende als Hörer einen von einem oder mehreren Sprechern produzierten gesprochenen Input. Die Übersetzung legt die Lächerlichkeit dieses Wortschwalles schonungslos offen: Received in auditory receptive activities (listening) and as a listener process Sprachverwendende one produced by one or more speakers, spoken input. Gemeint ist offenbar nur: Hörer hören, was Sprecher sprechen. Google: Listeners hear what speakers say.
Weltweit wird an einer gewissen Vereinfachung und Standardisierung der Sachprosa gearbeitet: „Plain English“, „Kontrollierte Sprache“ oder ähnlich heißen diese Projekte, die nicht einmal immer die Übersetzbarkeit im Blick haben. Auch das automatische Dokumentieren und Archivieren wird immer wichtiger und ist auf eine möglichst eindeutige und leicht online zu verarbeitende Sprache angewiesen. Darüber hinaus gibt es zahlreiche Ansätze, mit „Leichter Sprache“ auch Behinderten und Ungeübten entgegenzukommen. Wenn man hört, daß fast zehn Prozent der Bevölkerung Mühe haben, durchschnittlich anspruchsvolle Texte zu verstehen, kann man solche Unternehmungen nur gutheißen. Manche Parteien bieten ihre Programme inzwischen in Leichter Sprache an – nicht durchweg überzeugend, aber das liegt auch daran, daß hier jeder auf eigene Faust arbeitet, im Stich gelassen von einer Sprachwissenschaft, die sich für drängende Probleme der Kommunikation kaum interessiert. Die Erfordernisse der automatischen Übersetzung könnten einen zusätzlichen Druck ausüben, unsere Sachprosa insgesamt klarer, genauer und verständlicher zu machen.


Den Beitrag und dazu vorhandene Kommentare finden Sie online unter
http://www.sprachforschung.org/ickler/index.php?show=news&id=1477