How to Create and Deliver Intelligent Information

Maschinelle Übersetzung auf dem Weg zur Läuterung?

Das Aufsehen war groß, als 2018 scheinbar aus dem Nichts die Qualität von Maschinellen Übersetzungsengines besser wurde. Der Begriff „neuronale Maschinelle Übersetzung“ eroberte nicht nur die Übersetzungsbranche, sondern auch die breite Öffentlichkeit im Sturm. Buzzwords wie Artificial Intelligence, Machine Learning, Deep Learning und Data Mining waren überall zu lesen. Plötzlich waren alle Experten – gespalten in zwei Lager: „Maschinelle Übersetzung ist unbrauchbar und wird es immer bleiben“ und „Maschinelle Übersetzung ist die Zukunft und Übersetzer sollten sich jetzt schon einen neuen Job suchen“.

Was ist davon nun wahr, wie hat sich das Thema in den letzten zwei Jahren entwickelt und wie können Unternehmen Maschinelle Übersetzung (MÜ) erfolgreich im Unternehmen implementieren?

Lösung in Sicht

Eine klassische Aussage in der MÜ-Branche ist, dass das „Übersetzungsproblem“ in den nächsten fünf Jahren der Vergangenheit angehören wird. So läuft das schon seit 1950. Wir haben allerdings einen Punkt erreicht, an dem jeder noch so große MÜ-Skeptiker zugeben muss, dass die Ergebnisse besser geworden sind – ja sogar brauchbar! Aber was fangen wir mit dieser Information an? Wie implementiert man Maschinelle Übersetzung am besten in der Praxis? Da wird es schon dünner mit den Experten.

Eins vorab: Lass dich nicht von Aussagen blenden wie „drei von vier Übersetzern bevorzugen unsere Engine“ oder „unser BLEU-Score ist viel besser als die der Mitbewerber“. Das ist in den allermeisten Fällen nur gelungenes Marketing. Auch der Forschungsbericht von Microsoft über die vermeintliche menschliche Parität für Chinesisch-Englisch-Übersetzungen ist mit Vorsicht zu genießen. Wer sich für das Thema interessiert, dem empfehle ich die Einschätzung von Tommi Nieminen.

Generische oder individualisierte Maschinelle Übersetzung?

Google Translate, DeepL, Microsoft Translator, Amazon Translate und Co. sind generische MÜ-Systeme. Diese Systeme werden mit großen Datenmengen unterschiedlicher Fachbereiche trainiert. Die Folge: Die Übersetzungen lesen sich zwar sehr flüssig, aber die Terminologie passt nicht zu jedem Fachbereich oder wird aufgrund fehlender Trainingsdaten in einer bestimmten Domäne falsch übersetzt. Deswegen sind generische Systeme eher für Unternehmen geeignet, die keine hoch spezialisierte Terminologie verwenden.

Individualisierte Systeme hingegen werden mit kundenspezifischen Daten trainiert, um sowohl die Terminologie als auch die Unternehmenssprache in den Übersetzungen zu berücksichtigen. Das Ergebnis sind Engines, deren Rohübersetzungen qualitativ hochwertiger sind und ein geringeres Maß an Post-Editing benötigen.

Welche der zwei Varianten sich anbietet und ob die Benutzung von Maschineller Übersetzung für das Unternehmen überhaupt infrage kommt, ist von vielen Faktoren abhängig: Welche Priorität hat die Datensicherheit im Unternehmen? Wie groß ist das Translation Memory des Unternehmens? Wie viel Geld soll in die neue Technologie investiert werden? Die Einführung eines MÜ-Systems ist ein langer Prozess, bei dem kein kurzfristiger Return-on-Investment gewährleistet ist. Wenn eine individualisierte Engine zum Einsatz kommen soll, kann es locker ein Jahr dauern, bis diese richtig aufgesetzt, trainiert und getestet wurde. Ein guter Anbieter oder Berater wird dich auf diese Tatsache aufmerksam machen und dir nicht das Blaue vom Himmel versprechen.

Muss man die Maschinelle Übersetzungsengine überhaupt trainieren?

In den letzten zwei Jahren hat DeepL für große Aufregung gesorgt. Nun denken viele Entscheidungsträger im  Unternehmen, dass Maschinelle Übersetzung innerhalb eines Tages an das Translation-Management-System angebunden und dass die Übersetzungskosten sofort halbiert werden können. Oder noch besser: dass das Translation-Management-System überflüssig geworden ist, weil DeepL und Co. sowieso ganze Dokumente übersetzen können. Schwieriges Terrain.

Ja, man kann es machen. Ja, die Ergebnisse sind teilweise auf den ersten Blick sehr gut. Der ausschlaggebende Punkt für eine hohe MÜ-Qualität ist der Fachbereich des zu übersetzenden Textes. E-Mails, Kundenbewertungen und Social-Media-Beiträge sind für MÜ keine Herausforderungen mehr.

Versucht man allerdings, eine Marketingbroschüre oder eine Jahresbilanz mit einer generischen Engine zu übersetzen, zeigen sich deutliche Qualitätsunterschiede. Man darf auch nicht vergessen, dass die Output-Qualität je nach Sprachpaar stark schwanken kann. Englisch-Deutsch oder Englisch-Französisch-Übersetzungen sind oft sehr gut, bei „exotischeren“ Sprachpaaren kommt es allerdings schnell zu Qualitätseinbußen. Für einige Use Cases mag die Output-Qualität von generischen Engines in Kombination mit Post-Editing ausreichend sein, und das ist auch gut so!

Denn das Schöne an der Entwicklung während der letzten zwei Jahre ist, dass es ein immer breiteres Angebot an MÜ-Anbietern gibt (mittlerweile über 100). Wenn ein Unternehmen Maschinelle Übersetzung in den Lokalisierungsworkflow einbinden will, gibt es zahlreiche Auswahlmöglichkeiten.

Um zu entscheiden, ob die Output-Qualität einer generischen Engine für das Unternehmen reicht, oder ob eine Engine individualisiert werden soll, macht man am besten umfangreiche Tests mit verschiedenen Engines und trifft anschließend eine fundierte Entscheidung.

Die Herausforderung der Trainingsdaten

In der Informatik gibt es die bekannte Phrase „Garbage In, Garbage Out“. Genauso verhält es sich mit der Maschinellen Übersetzung. Um eine MÜ-Engine zu individualisieren, sind große themenspezifische Korpora notwendig. Globalese, eine Plattform, auf der individualisierte Engines erstellt werden können, gibt eine Mindestgröße von 100.000 Segmenten (ca. 1 Million Wörter) pro Sprachpaar und Domäne an.

Es stellt sich die Frage, ob Maschinelle Übersetzung nur für Unternehmen mit großen Translation Memorys geeignet ist. Jein. Der ausgewählte Kooperationspartner wird dir verschiedene Möglichkeiten aufzeigen, wie du zusätzliche Trainingsdaten erhalten kannst. Die eigenen Translation Memorys und Terminologiedatenbanken sind für die Individualisierung allerdings unerlässlich.

Früher galt die Faustregel, dass ein Maschinelles Übersetzungssystem besser wird, je mehr Daten eingespeist werden. Dieser Ansatz ist bei der Entwicklung neuronaler Systeme nicht mehr ganz aktuell. Zwar werden viele Daten benötigt, jedoch müssen diese auch qualitativ hochwertig und domänenspezifisch sein.

Die Übersetzer sind unverzichtbar

Das Projekt kann nur durch eine enge Zusammenarbeit mit den Übersetzern bzw. Post-Editoren am Ende der Lieferkette erfolgreich sein. Schließlich ist beim Einsatz Maschineller Übersetzung ein Post-Editing zur Qualitätssicherung der Texte notwendig.

Post-Editing ist keine Fähigkeit, die ein Übersetzer automatisch beherrscht. Um produktiv zu arbeiten, muss er ca. 7.000 Wörter pro Tag post-editieren, im Vergleich zu den durchschnittlichen 2.000 Wörtern pro Tag bei der „klassischen“ Fachübersetzung. Das muss geübt werden. Es ist daher sinnvoll, den Stammübersetzern ein Training im Bereich Post-Editing anzubieten. Das Unternehmen investiert schließlich viel Geld in eine neuartige Technologie, doch ohne die richtige Expertise am Ende der Lieferkette können die neuen Möglichkeiten nicht optimal genutzt werden.

Eine weitere Erfolgsvoraussetzung ist die angemessene Vergütung der freiberuflichen Übersetzer. Es gibt einen wichtigen Grund, weshalb Übersetzer skeptisch gegenüber der Annahme von Post-Editing-Aufträgen sind: die unangemessene Bezahlung im Verhältnis zur Qualität der Rohübersetzung. Dies liegt daran, dass Unternehmen und Sprachdienstleister seit zwei Jahren vermehrt Übersetzungen mit generischen Engines erstellen und diese dann unbearbeitet zum Post-Editing schicken. Aufgrund der hohen Fehlerquote müssen in solchen Fällen die Übersetzungen oftmals von Grund auf neu erstellt werden – zu ca. einem Drittel des üblichen Wortpreises.

Achte auf eine angemessene Bezahlung und reduziere bei Post-Editing-Aufgaben den Wort- oder Zeilenpreis über einige Monate hinweg. Das gibt deinen Übersetzern Zeit, sich mit der neuen Arbeitsweise anzufreunden. Höre auch auf ihr Feedback bezüglich der Output-Qualität und bezahle sie dementsprechend.

Fazit

Maschinelle Übersetzung kann ein gutes Werkzeug sein, um mittel- bis langfristig Übersetzungskosten zu sparen. Von DeepL bis hin zu großen individualisierten Lösungen: Mittlerweile gibt es für fast jeden Use-Case eine Lösung. Man sollte aber im Voraus beachten, dass sich nicht jede Textsorte gleich gut für die Maschinelle Übersetzung eignet.

Damit die Implementierung erfolgreich verläuft, muss ein großes Projekt gestartet werden, für das zusätzliche Ressourcen und Manpower zur Verfügung gestellt werden müssen. Eine Erfolgsvoraussetzung ist die gute Zusammenarbeit mit den Übersetzern, denn ohne diese kann weder das Post-Editing stattfinden, noch kann es Feedback über die Maschinellen Übersetzungen geben – und dieses ist für die Weiterentwicklung und Verbesserung der Engine unverzichtbar. Außerdem sollte die MÜ-Engine mittels einer Schnittstelle an das interne Translation-Management-System angebunden werden, um die Stärken beider Systeme auszuschöpfen.


Letzte Artikel von Christine Wetzl

Like it? Share it! Spread the Word...

Sag uns jetzt deine Meinung per Kommentar!