RatzConsult

Logo von RatzConsult - Beratung für kundennahe Bereiche des Maschinenbaus

RatzConsult

RatzConsult

Technologien der KI-gestützten Kommunikation

Knowhow zur maschinellen Übersetzung und ihrer Qualitätsmessung

Systeme für die KI-gestützte Kommunikation zum Beispiel für die maschinelle Übersetzung haben mittlerweile eine hohe Qualität und Stabilität erreicht. Konferenzsysteme wie TEAMS oder ZOOM transkribieren auf Wunsch Sprache in Text und übersetzen dies für Untertitel. Erste KI-Systeme können Protokolle von Besprechungen erstellen.

Es gibt viele Anbieter für maschinelle Übersetzungssysteme und verschiedene Technologien. Die vorliegenden Blog-Informationen unterstützen bei der Auswahl der Übersetzungs-KI für das jeweilige Sachgebiet und die Zielsprache. Dabei geht es darum, welcher Typ bzw. Technologie für den Maschinenbau empfohlen werden kann. Außerdem wird erklärt, welche Schwierigkeiten das Messen der Qualität verursacht. Damit ergänzt der Blog die Informationen aus dem Blog Wie maschinelle Übersetzung und intelligente Kommunikation dem Maschinenbau helfen.

Ende 2022 haben die U.S. Firmen Intento und e2f neue Tests und Vergleiche der verschiedenen Anbieter von maschinellen Übersetzungssystemen durchgeführt. Der Bericht liefert sehr gute Hintergrundinformationen und sei daher ausdrücklich als gute Hilfe für den Einstieg bei einem Projekt empfohlen. Auf 63 Seiten werden die Tests relativ genau beschrieben (siehe Quellenver­zeichnis am Ende des Blogs).

Abb. 1: Anbieter maschineller Übersetzungssysteme (©Intento und e2f – State of Machine Translation 2022, siehe Quellenverzeichnis am Ende des Blogs)

Die Kategorien der Anbieter werden im folgenden Abschnitt erklärt.

Übersetzungstechnologie und Trainingsverfahren

Die Technologie für maschinelle Übersetzung (MÜ) hat sich vor ein paar Jahren gewandelt, als Google die Transformer Architektur und das BERT-Sprachmodell (Bidirectional Encoder Representations from Transformers) für Sprach-KIs vorgestellt und eingeführt hat. Die Folge war ein deutlicher Qualitätssprung gegenüber den zuvor verwendeten statistischen Verfahren. Mittlerweile setzen mehr als 45 Firmen weltweit auf diese Art der Technologie. Die übersetzten Texte lesen sich deutlich besser, da sie erheblich weniger Grammatikfehler haben.

Dokumentensprachpaare, d. h. Texte, die bereits von humanen Übersetzern in eine Fremdsprache überführt wurden, dienen als Input für das maschinelle Lernen. Dafür werden nicht nur Dokumente im klassischen Sinn verwendet, sondern auch Inhalte von Webseiten, Benutzeroberflächen oder Präsentationen. 

Der Umfang der für das KI-Training nutzbaren Sprachpaarinformationen bestimmt die Fähigkeit und die Qualität der MÜ-Engine. Stehen nicht genügend hochwertig übersetzte Texte für ein Sprachpaar zur Verfügung, sehen einige Anbieter von einem KI-Training ab. Manche Firmen nutzen dann einen zweistufigen Prozess, z. B. von Deutsch in Englisch und anschließend von Englisch in Japanisch. Manche Anbieter fokussieren sich auch nur auf spezifische Domänen bzw. Sachgebiete wie zum Beispiel das Gesundheitswesen oder Finanzmärkte („Vertical Stock Models“ in Abb. 1).

Generisch vortrainierte Übersetzungs-KIs können durch weiteres maschinelles Lernen mit firmenspezifischen Texten die üblichen Ausdrucksformen und Begriffe eines Unternehmens übernehmen. Dies verbessert die Qualität späterer maschineller Übersetzungen für dieses Unternehmen erheblich. Hierfür ist zu Beginn ein gewisser Aufwand erforderlich, der ggf. wiederholt werden muss, wenn das generische Basissystem aktualisiert wird oder der Anbieter gewechselt wird („Manual Domain Adaption“ und „Auto Domain Adaption“ in Abb. 1)

Es gibt verschiedene Verfahren für das firmenspezifische Training. Ein aufwandsarmes und schnelles Verfahren ist die Nutzung der „Translation Memories“, eines CAT-Tools[1]. Die „Translation Memory“ umfasst alle bereits intern übersetzten bzw. geprüften Sätze bzw. Segmente (Definition siehe unten) und kann meistens leicht aus dem CAT-System extrahiert und in die MÜ-Engine übertragen werden. Diese Methode ist besonders für Testzwecke bei der Auswahl eines Anbieters nützlich. 

Viele Dienstleister von maschinellen Übersetzungen ermöglichen die Nutzung von Glossaren bzw. Wörterbüchern, die vom Anwender mitgegeben oder referenziert werden. Dies ist hilfreich bei exotischen und branchenspezifischen Begriffen wie z. B. Gummizylinder, Plattenbelichter oder Saugkopf (alle aus dem Offsetdruck), die eine Übersetzungs-KI oft nicht kennt. Damit kann die Qualität generischer Übersetzungssysteme deutlich gesteigert werden („Custom Terminology Support“ in Abb. 1)

Die meisten MÜ-Systeme können die korrekte Flexion (Deklination bzw. Konjugation) für das Wort in der Zielsprache bilden, was den Aufwand der Nachbearbeitung und den Umfang des Wörterbuchs drastisch reduziert. Auf jeden Fall sollte diese Funktion für die gewünschten Sprachpaare im Anforderungskatalog stehen und validiert werden.

[1] Computer Aided Translation (CAT)

Übersetzungsqualität

Die Übersetzungsqualität wird bezogen auf Segmente gemessen. Segmente können ganze Sätze sein, sofern diese als solche maschinell erkennbar sind. Darüber hinaus sind auch Titel, Überschriften, Aufzählungen, Bild- oder Tabellenunterschriften oder Inhalte von Zellen innerhalb von Tabellen Segmente. Die Übersetzungsqualität wird prozentual in der Anzahl korrekt übersetzter Segmente zu der Gesamtzahl aller Segmente eines Textes ausgedrückt. Sie bestimmt somit die Wahrscheinlichkeit, mit der ein Segment korrekt übersetzt ist.

Das Messen in Segmenten hat den Vorteil, dass es zu den Prozessen der Übersetzung mit Unterstützung durch CAT-Hilfsmittel oder zum Post-Editing passt, die beide darauf angelegt sind, Segmente, die bereits erfolgreich übersetzt oder geprüft wurden, wiederzuerkennen und von nochmaliger Übersetzung oder Prüfung auszuschließen.

Ähnlich wie bei der Transkription gesprochener Sprachen („Speech-to-Text“) bietet es sich an, die Darstellung der erreichten Qualität logarithmisch darzustellen. Die menschliche Wahrnehmung von Fehlern ist oft sehr empfindlich. Trotz bereits hoher Qualität wird jede Halbierung der restlichen Fehler als deutliche Optimierung erlebt. Die Stufen gehen von 50 %, 75 %, 88 %, 94 % etc. Ab 75 % wird die maschinelle Übersetzung als hilfreich angesehen, ab ca. 90 % als gut.

Abb. 2: Abbildung 2: Notwendige Qualität von maschinellen Übersetzungen (Copyright RatzConsult 2023)

Ein weiterer Vorteil der prozentualen Messung liegt darin, dass man die Qualitäten multiplizieren kann, wenn mehrere Umwandlungsprozesse genutzt werden müssen. Liegen nicht genügend Dokumenten­sprachpaare von einer Quell- in eine Zielsprache für ein KI-Training vor (zum Beispiel von Deutsch nach Japanisch), dann werden die maschinellen Übersetzungen intern zweistufig, d.h. im Beispiel erst nach Englisch und dann nach Japanisch erfolgen. Analog ergibt sich folgende Formel: Die Qualität der übersetzten Aussagen von Teilnehmern einer Besprechung entspricht der Qualität der Transkription ihrer Sprache in Text multipliziert mit der Qualität der anschließenden maschinellen Übersetzung. Liegt bei einem dieser Prozessschritte ein nicht so gutes Ergebnis vor, fällt das Gesamtergebnis rasch ab und wird von Menschen als nur ausreichend oder sogar nicht akzeptabel wahrgenommen. 

Die eigentliche Feststellung, ob ein Segment korrekt übersetzt wurde, muss bis jetzt durch einen humanen Übersetzer erfolgen. Es gibt noch kein allgemein anerkanntes Verfahren für die maschinelle oder auch die manuelle Erkennung von Abweichungen und ihre Bewertung. Einig ist man sich, dass die eindeutige Erkennbarkeit der Aussage (Sinn) eines Segmentes die höchste Gewichtung hat, Grammatik- oder Syntaxfehler haben dagegen eine deutlich niedrigere Gewichtung. Die Aussage bzw. der Sinn kann z. B. durch die falsche Übersetzung eines mehrdeutigen Begriffs (Homonyms), durch die Weglassung einer Negation oder durch eine fehlerhafte Beziehung bei Pronomen verfälscht werden. Beispiel für ein Homonym ist die „Bank“, auf der man sitzen kann (engl. „bench“) oder die das Geld von Personen oder Unternehmen verwaltet (engl. „bank“). 

Pronomen können in entsprechenden als abgekürzte Referenzen auf Personen, Gegenstände, Orte oder Zeiträume verstanden werden. Dazu ein Beispiel: „Otto geht in die Schule. Er lernt dort Mathematik.“ Das Pronom „er“ referenziert Otto und „dort“ die Schule. In komplexen Sätzen kann ein Leser und besonders auch eine Übersetzungs-KI die Referenz leicht falsch interpretieren.

Tests und Vergleiche

Unternehmen wie Intento (siehe Graphik unten) oder die frühere Memsource (heute Phrase) investieren einen hohen Aufwand, um die Stärken und Schwächen der verschiedenen Anbieter mit Hilfe von Übersetzern und verschiedenen Scores zu erkennen. Darauf aufbauend können sie je nach erkanntem Kontext ihren Kunden automatisiert und gezielt mit der Auswahl des richtigen Anbieters helfen.

Diese Messungen erfolgen in der Regel immer mit KIs ohne firmenspezifisches Training und ohne Glossar. Die Texte, die zur Messung herangezogen werden, sind bedingt öffentlich, d. h. es ist nicht erkennbar, ob Texte aus dem Maschinenbau enthalten sind. Dies ist verständlich, weil die MÜ-Anbieter sonst ihre Engine darauf trainieren würden. Unternehmen können an den Ergebnissen also nur die Qualität des Basistrainings für ein Sprachpaar erkennen. Eine Prognose für die erreichbare Qualität mit den eigenen Texten ist damit nur eingeschränkt möglich.

  • Die mittlere Übersetzungsqualität aller Systeme der Topgruppe liegt für Englisch-Französisch oder Englisch-Portugiesisch im unteren 90 %-Bereich, während die anderen getesteten Sprachpaare eher bei 85 % liegen[2]. Dies beruht mit Sicherheit an dem Umfang der für das Systemtraining verfügbaren Texte.
  • Sehr oft ist ein MÜ-System in sehr vielen Domänen eines Sprachpaares recht gut bzw. in der Top-Gruppe. Auf der anderen Seite sind manche MÜ-Systeme bei bestimmten Sprachpaaren gar nicht in der Top-Gruppe.
  • DeepL, Google, Microsoft, Amazon und Yandex[3] offerieren MÜ-Systeme, die aus der Anbietergruppe mit Glossar-Funktionalität („Custom terminology support“) am besten im Test abgeschnitten haben.
  • Genaue Ergebnisse, welche Systeme bei welchem Sprachpaar und Domäne zur Topgruppe gehören und wie die prozentuale Qualität dieser Gruppe ist, können in der Studie von Intento und e2F „State of Machine Translation 2022” (siehe Quellenverzeichnis am Ende des Blogs) nachgelesen werden.
Tabelle 1: von Intento und e2F in 2022 bei maschinellen Übersetzungssystemen getestete Sprachpaare und Domänen

[2] gemessen ohne Nutzung eines Glossars
[3] Russisch-Niederländischer Anbieter

Fazit

Die KI-Technologie für maschinelle Übersetzungen ist mittlerweile ausgereift genug, um mit überschaubarem Aufwand großen Nutzen zu erzielen. Begeistern Sie Kunden, Maschinenbediener, Mitarbeiter und ggf. lokale Partner, in dem Sie deren Sprache verstehen und intelligent mit ihnen kommunizieren.

Insgesamt muss festgestellt werden, dass zum einen die Auswahl des richtigen MÜ-Systems je nach Sachgebiet, Quell- und Zielsprache und zum anderen ein gut gepflegtes Firmenwörterbuch die beiden wichtigsten Einflussgrößen für die Qualität der Übersetzung darstellen. Will man optimale Qualität und hat man bereits genügend Dokumentensprachpaare für eine Zielsprache, lohnt sich eine firmenspezifisch trainierte Übersetzungs-KI. Hier muss man sich aber des Mehrauf­wands am Anfang, gegebenenfalls bei größeren Upgrades oder bei einem Anbieterwechsel, gewahr sein. Hat man aber bereits ein gut gepflegtes Fachwörterbuch, empfehle ich mit einer allgemeinen Übersetzungs-KI, die Wörterbücher unterstützt, zu starten. Dadurch lässt sich eine bessere Übersetzungsqualität gegenüber den o. g. Werten von Intento und e2f erreichen. Für den Maschinenbau, der oft nicht genügend Texte für alle gewünschten Sprachen vorliegen hat und trotzdem viel Fachvokabular nutzt, ist dies eine gute Alternative.

Haben wir Ihr Interesse geweckt? Sehen Sie auch die Potenziale zusätzlicher Sprachen für die Kommunikation in Ihrem Unternehmen? Kontaktieren Sie mich und lassen Sie uns unverbindlich über mögliche Maßnahmen und Chancen sprechen.

RatzConsult ist eine unabhängige Unternehmensberatung, die sich auf die Planung und Umsetzung der Digitalstrategie im Vertrieb und Service des Maschinenbaus fokussiert. Ein Hauptschwerpunkt ist die Kommunikation mit zusätzlichen Sprachen basierend auf maschineller Übersetzung und einer speziell darauf ausgerichteten Terminologie­verwaltung. Außerdem berate ich beim Wissensmanagement, der Nutzung von Maschinendaten (IoT), der Implementierung einer Digitalstrategie und bei Unternehmenspartnerschaften.

Möchten Sie noch weitere tiefgehende Informationen zum Themengebiet „KI-gestützte Kommunikation“ in Ruhe lesen? Im nächsten Blog können Sie über die „Tipps zur Verbesserung der maschinellen Übersetzungsqualität weiterlesen und Hinweise bekommen, wie sich Fehler vermeiden lassen. In „Implementierung der KI-gestützten Kommunikation“ erfahren Sie, wie ein zugehöriges Projekt geplant und organisiert wird.

Georg Ratz stehend vor einem Laptop

Georg Ratz hat über 30 Jahre im Maschinenbau gearbeitet, davon einen großen Teil in Service und Produktmanagement. Er leitete erfolgreich ein Projekt für Wissensmanagement im Service und organisierte den Aufbau einer globalen Vertriebs- und Service­partner­schaft mit einem japanischen Unternehmen. Hands-On Mentalität, gutes Prozessver­ständnis und Kreativität kennzeichnen seinen Arbeitsstil.

Seine Leidenschaft gilt der Verbesserung der weltweiten Kommuni­kation und dem Wissensmanagement im Maschinenbau. Er ist überzeugt, dass die maschinelle Übersetzung den Kunden und Firmen viele Chancen bietet.

Quellenverzeichnis

Intento und e2f – State of Machine Translation 2022
Der Bericht kann bei Intento (www.inten.to) unter Angabe der Kontaktdaten kostenlos angefordert werden (https://inten.to/machine-translation-report-2022/).

Erstveröffentlichung und Copyright (c) 2023, Georg Ratz (RatzConsult).

 Alle Rechte bei dem Urheber. Nachdruck, Vervielfältigung oder Verbreitung nur mit ausdrücklicher Genehmigung des Autors (gr@ratzconsult.com). Verlinkung ist erlaubt.

All rights reserved. Reprint, copying or distribution with author’s permission only (gr@ratzconsult.com). Linking is permitted.