Opinion Mining und die deutsche Sprache

Melanie Siegel
Follow me

Melanie Siegel

Prof. Dr. Melanie Siegel bei Hochschule Darmstadt
Melanie Siegel begeistert sich für Computerlinguistik und hat diverse Forschungsarbeiten dazu betrieben, z.B. zu den Themen Translation Mismatches oder automatische Semantikanalyse der japanischen Sprache.

Als Sprachtechnologin entwickelte sie bei der Berliner Firma Acrolinx Technologien für die Grammatik-, Rechtschreib-, Stil- und Terminologieprüfung. Seit 5 Jahren ist sie nun Professorin an der Hochschule Darmstadt und unterrichtet im Fach Informationswissenschaften. Gleichzeitig pflegt sie als Praxisbeauftragte den Kontakt zu Firmennetzwerken wie it-for-work. Es bereitet Ihr viel Freude, Menschen von Ihren Erfahrungen zu berichten und sie für Sprache und Technik zu begeistern. Ein wichtiges Forschungsthema der letzten Zeit ist die Sentimentanalyse. Das Thema wird im Rahmen der IGGSA Interest Group for German Sentiment Analysis vorangetrieben.
Melanie Siegel
Follow me

Letzte Artikel von Melanie Siegel

opinion-mining-text-documentWer hat nicht schon mal die Bewertung anderer Konsumenten gelesen, bevor er oder sie eine Reise gebucht, ein Buch gekauft oder ein Rezept nachgekocht hat?

In den letzten Jahren ist dies zum Standardverhalten der Konsumenten geworden. Viele schreiben auch selbst Bewertungen in Verkaufsportalen oder auf Twitter. Der Konsument bekommt damit einen direkten Einfluss auf die Entwicklung der Produkte – einen viel direkteren als zu Zeiten der Leserbriefe. Für die Firmen (Hotelanbieter, Autoren, Produzenten, …) liegt darin eine große Chance, mehr darüber zu erfahren, was ihren Kunden wichtig ist und was sie stört. Damit kann viel schneller reagiert werden, wenn z.B. mal etwas schiefgeht, ein neues Design nicht ankommt, eine Marketingkampagne danebengeht oder ein Produkt nicht funktioniert wie es soll. Das geht aber nur, wenn sie die Information aus den Meinungsäußerungen der Kunden schnell extrahieren können, was bei größeren Datenmengen nur mit automatischen Verfahren möglich ist.

Seit Jahren gibt es schon recht ausgereifte automatische Verfahren für die englische Sprache. Die meisten kommerziellen Produkte basieren jedoch auch hier noch auf der Erkennung von Schlüsselwörtern wie z.B. von Adjektiven wie „good“ oder „bad“. Auch dafür braucht man schon einiges an linguistischen Ressourcen:

  • Tokenizer, die Texte in Sätze und Sätze in Wörter unterteilen
  • Part-of-Speech Tagger, die Wörtern syntaktische Kategorien (wie Nomen oder Verb) zuweisen
  • Lemmatisierer, die die Grundform von Wörtern erkennen (z.B. „books“ – „book“)
  • Listen von Wörtern, die positive oder negative Meinungsäußerungen sind

Negationen sind das nächste Problem, denn „nicht gut“ ist das Gegenteil von „gut“. So einfach ist es aber oft nicht, denn die Negation kann recht weit vom Adjektiv entfernt stehen („nicht so richtig gut“). Die meisten Softwarelösungen drehen bei einer Negation die Meinung des nächsten dahinterstehenden Adjektivs um, was für die englische Sprache auch in den meisten Fällen gut funktioniert. Wenn man extrahieren möchte, was die Schreibenden genau gut oder schlecht finden („Das Handy ist toll, aber die Batterie hält nicht lange genug“), arbeitet man normalerweise mit ontologieartiger Information, die auf die Domäne angepasst ist. Das bedeutet, man notiert erst mal, um was es eigentlich gehen soll und was die Eigenschaften und Teile des Produkts sind, zu denen sich Nutzer äußern können. Software, die schon jetzt auf dem Markt ist, schaut dann nach diesen Stichwörtern und sucht wieder meinungstragende Wörter in deren Nähe.

Besondere Herausforderung in der deutschen Sprache

In der letzten Zeit haben die Softwareanbieter die Verfahren auch auf die deutsche Sprache angewendet. Wissenschaftler haben linguistische Ressourcen auch für deutsche Sprache entwickelt und arbeiten an Opinion-Mining-Verfahren. Viele von ihnen sind in der „Interest Group on German Sentiment Analysis“ organisiert. Mehr Infos hier. Die Verarbeitung der deutschen Sprache stellt dabei einige besondere Herausforderungen: Die Lemmatisierung ist komplexer als im Englischen, wo man oft nur ein „s“ hinten abschneiden muss („Häuser“ – „Haus“), die Wortstellung freier und die Sätze sind oft länger. Nicht zuletzt ist der Anteil an ironischen Meinungsäußerungen in den deutschen Beiträgen erheblich. Die Erkennung von Ironie ist schon für Menschen nicht immer einfach und benötigt noch einige Forschungsarbeit, bis Maschinen dazu in der Lage sind.

Die Wissenschaftler gehen weiter in Richtung Genauigkeit der linguistischen Analyse, um besser herauszufinden, welche Aspekte gut oder schlecht gefunden werden. Sie stellen von Hand annotierte Textkorpora auf, um maschinelle Lernverfahren einsetzen zu können. Sie wenden sich vergleichenden Meinungsäußerungen zu, wie „Das Handy von ABC ist besser als das Handy von DEF“. Schließlich arbeiten sie an Verfahren, wie gefälschte Meinungsäußerungen automatisch gefiltert werden können.

[Gesamt:1    Durchschnitt: 5/5]

Spread the word. Share this post!