Terminologie im Zeitalter der künstlichen Intelligenz
Künstliche Intelligenz ist ein alter Hut. Seit dem Jahr 1956 redet man darüber. Aber bis vor wenigen Jahren haben es Terminologen kaum wahrgenommen. Zwar erfreut sich die Terminologiearbeit zunehmender Beliebtheit, aber KI und Intelligenz blieben noch lange außen vor. Unternehmen und Dienstleister setzen Terminologie vorwiegend dazu ein, Dokumentation und Übersetzungen konsistent zu schreiben. Auch im Bereich Kommunikation werden diese Terminologien verwendet, um die Kommunikation zwischen Beteiligten mit unterschiedlichem Wissenshintergrund und Sprache zu unterstützen. Bisher war der Mensch der Hauptnutznießer der Terminologiearbeit.
Mit dem wachsenden Erfolg von KI-Anwendungen in allen Lebensbereichen ändert sich diese Betrachtungsweise. Neben Menschen müssen auch Maschinen Sprache verstehen und verarbeiten. Und das ist eine verdammt schwierige Aufgabe. Nicht mal alle Menschen verstehen die Sprache gleich, geschweige denn Maschinen. Wie kann hier Terminologie ihren Beitrag leisten?
Eine der Hauptkrankheiten der heutigen Zeit ist die Informationsflut. Komplexe Produkte, schnelllebige und individuelle Informationen im Überfluss überfordern die meisten von uns. Die mühsame Suche nach Informationen durch Mitarbeiter und Kunden kostet Unternehmen viel Geld.
Unternehmen fangen also an, Informationen „intelligenter“ zu machen. Mit Hilfe von Metadaten sollen Benutzer individualisierte Informationen zu ihrer Fragestellung erhalten, genau wann sie sie brauchen und auf dem Medium, das sie gerade verwenden. Noch ist es ein langer Weg, bis es so zuverlässig funktioniert wie man es sich vorstellt. Auch ChatBots und Smart Assistenten, die heute ein beliebtes Thema sind, bringen im völlig freien Austausch mit dem Menschen keine berauschenden Erfolge.
Kann eine Maschine Sprache verstehen?
Warum hat also KI noch so viele Schwierigkeiten mit der natürlichen Sprache? Computer sind nichts anderes als Riesentaschenrechner. Sie können rechnen ohne Ende und das auch sehr schnell, sie verstehen Nullen und Einsen, also etwas Logik. Mehr nicht. Damit kann man allerdings bereits eine Menge erreichen, vor allem, wenn man clevere Algorithmen hat.
Um eine Sprache „richtig“ zu verstehen, braucht man drei Zutaten. Aus dem Haufen Buchstaben und Satzzeichen, die als Input eines Rechners dienen, muss der Computer zunächst die einzelnen Satzelemente, ihre Funktion (Syntax) und Wortabhängigkeiten erkennen. Das macht die Computerlinguistik (Natural Language Processing – NLP) mit Arbeitsschritten wie Tokenisierung und Part-of-Speech-Tagging (POS) relativ erfolgreich.
Heikel wird es bei der Semantik. Unser Wortschatz ist voller Mehrdeutigkeiten. Wie versteht der Computer die Aussage „er hat eine Schraube locker“ oder „er sieht den Mann mit dem Teleskop“? Ist ein Anhänger ein Parteimitglied oder ein Fahrzeug? Die Alltagssprache besteht zu großem Teil aus Metaphern (Computervirus, Datenflut), Mehrdeutigkeiten und Redewendungen, die für Computer besonders schwierig sind.
Word Embeddings (Worteinbettungen) ist das Zauberwort, das die semantische Arbeit von Computern beschreibt. Eines können Computer gut, nämlich rechnen. Computer gehen riesige Mengen an Textdaten durch und zählen wie oft Wörter bzw. Wortgruppen zusammen vorkommen. Das Ergebnis ist ein riesiger Vektor für jedes Wort, mit dem ein Programm rechnen kann, z.B. um Vorhersagen über das nächste Wort im Satz zu treffen. Was ist wahrscheinlicher: Kommt nach dem Wort „tekom“ eher „Tagung“ oder „Blockchain“? So sieht z.B. der Wortvektor für das Wort „tekom“ aus dem Programmheft der Jahrestagung aus:
Die Anwendungsmöglichkeiten sind vielfältig: automatische Übersetzung, Klassifizierung von Texten, Verstehen von Fragen. Es ist nur dumm, dass die größte Zahl meistens gewinnt.
Maschinenalgorithmen sind so konzipiert, dass sie die höchste Punktzahl einer Funktion ermitteln. Die Bedeutung, die die meisten Punkte erhält, gewinnt. Die weniger geläufigen Bedeutungen eines Wortes sind auf der Verliererseite. Es ist das sogenannte „Long tail“-Phänomen. Das hat dann fatale Auswirkungen für das Verstehen natürlicher Sprache, denn oft sollte eigentlich die weniger geläufige Bedeutung gewinnen. Viele Wörter lassen mehr als eine Interpretation zu, auch in der Fachsprache.
KI braucht menschliches Wissen
Das ist der Punkt, bei dem weitere Quellen KI unter die Arme greifen könnten. Besser als Statistik und Wahrscheinlichkeit ist allemal das von Menschen geprüfte Wissen. Eine dieser Wissensquellen bilden Ontologien, die Wissen in maschinenlesbarer Form darstellen. Klassen und Instanzen sind dort mit Relationen miteinander verbunden. Relationen können bestimmte Eigenschaften haben (z.B. exklusive Relation), was intelligente Applikationen in die Lage versetzt, Schlüsse zu ziehen (Inferenz). Etwa so: „Wenn eine Benennung zu einem Begriff gehört und diese Benennung ein Synonym hat, dann gehört das Synonym zum selben Begriff“.
Das Problem ist nur, dass erstens Ontologien schwer zu bauen sind (so viele Spezialisten gibt es dafür nicht) und dass sie meistens sprachlich sehr schwach sind. Wenn ein Synonym oder eine Fremdsprache auftaucht, dann kann es durchaus passieren, dass keine Verbindung zum hinterlegten Wissen erfolgt.
Intelligente Terminologien
Zum Glück gibt es aber die intelligenten Terminologien. Sie sind die Neulinge in der Großfamilie der Terminologiewerkzeuge. Sie gibt es seit einigen Jahren unter verschiedenen Namen wie „intelligente Terminologien“, „wissensbasierte Terminologien“, „Ontoterminologien“, „Termontologien“, um nur einige zu nennen. Über Relationen verbinden sie Begriffe in semantischen Netzwerken und können somit Wissen darstellen und Informationen verknüpfen. Sie eröffnen allen Informationsspezialisten ganz neue Möglichkeiten.
Intelligente Terminologien arbeiten nach dem Prinzip, dass wir in erster Linie den Kontext benutzen, um ein Wort zu verstehen. Sie haben sich von den Prozessen im menschlichen Gehirn inspirieren lassen, das Wissen in Neuronennetzen speichert.
Eine gute Begriffsdefinition kann sehr hilfreich sein, sie lässt aber in vielen Fällen Fragen offen. Wie ist beispielsweise das Wort Behälter trotz korrekter Definition zu verstehen? Ohne den Behälter zu sehen oder eine detaillierte Beschreibung des Gegenstands zu haben, kann man nicht wissen, was für ein Behälter gemeint ist. Es kann sich um eine Box für die Beförderung von Paketen oder um einen Flüssigkeitstank handeln. Entsprechend wird die Übersetzung sehr unterschiedlich ausfallen. Aber wenn der Begriff „Behälter“ mit anderen Begriffen in Verbindung steht, wird vieles klarer. Beispielsweise im folgenden Satz: „Sobald der Behälter leer ist, macht die Maschine keinen Kaffee mehr, bis frische Bohnen nachgefüllt sind.“
Was für Relationen man nimmt, hängt von Domain und vom Wissensprojekt ab. Es können z.B. Relationen sein wie „Ist_Teil_von“ oder „Beeinflusst“. Damit ist der Mensch aber auch der Computer in der Lage, besser zu erkennen, was für ein Verwendungskontext gemeint ist.
So prüfen beispielsweise Qualitätssicherungstools die Richtigkeit einer Übersetzung im Kontext. Soll hier das deutsche Wort „Leistung“ mit „power“, „capacity“ oder „output“ übersetzt werden?
Intelligente Terminologien sind noch relativ neu. Bestehende Lösungen unterscheiden sich in der Vielfalt der Beziehungen, die sie modellieren, und in den Methoden, mit denen sie diese umsetzen. Es bleibt einiges zu tun, aber das Spannende ist, dass intelligente Terminologien schon Realität sind und dass sie die Paradigmen der Terminologiearbeit verändern. Sie ebnen den Weg für völlig neue Dienstleistungsmöglichkeiten für Sprachspezialisten und helfen gleichzeitig Redakteuren und Übersetzern, ihre Arbeit effizienter zu gestalten.
Mehr intelligente Terminologie? Sprechen wir auf der tekom-Jahrestagung darüber
Ich halte die Fachvorträge
- N02 Kontextgerechte Informationen: die neue Herausforderung in der technischen Kommunikation: Dienstag von 10:45 Uhr bis 11:30 Uhr in Raum Plenum 2
- TA12 Inhalte von Redaktionssystemen bereinigen: Eine deutsche-deutsche Übersetzung: Mittwoch von 10:00 Uhr bis 10:45 Uhr in Raum C5.2
- TERM09 Terminology in the Age of Artificial Intelligence: Mittwoch von 16:30 Uhr bis 17:15 Uhr in Raum C4.2
Ich freue mich auf einen interessanten Austausch.
- Terminologie im Zeitalter der künstlichen Intelligenz - 11 November 2019