Was ist Opinion Spam? So manche Bewertungen im Internet sind falsch oder irreführend. Sie sind von den Verkäufern oder Komplizen selbst geschrieben und sollen das Produkt besser oder schlechter erscheinen lassen, als es eigentlich ist. Das ist der sogenannte “Opinion Spam“.
Meinungsäußerungen als Fake
Meinungen über Produkte, Reisen, Filme oder Bücher und gibt es heute in unzähligen Foren. Bevor wir etwas kaufen, lesen wir oftmals die Meinung anderer Kunden durch. Firmen nutzen diese Informationen, um sich auf Kundenwünsche einzustellen oder Missstände schnell zu beheben. Dazu werden verstärkt automatische Analysemethoden eingesetzt, die Spracheigenschaften erkennen und auswerten. Was aber, wenn sich unter den Bewertungen vermehrt Opinion Spam tummelt?
Ähnlich wie bei E-Mail-Spam fängt es mit Falschangaben an, um ein Produkt besser zu verkaufen, bis hin zu kriminellen Machenschaften, bei denen nichtexistierende Produkte beworben und damit Käufer betrogen werden. Der Kreativität ist hier scheinbar keine Grenze gesetzt. Bei unseren E-Mails erkennen automatische Filter den Spam in unserem Postfach und sortieren ihn aus. Ähnliche automatische Verfahren werden jetzt auch für Opinion Spam entwickelt.
Der Amazon-Test: Wie erkennen wir Opinion Spam?
An der Hochschule Darmstadt haben wir am deutschsprachigen Amazon-Portal untersucht, wie Opinion Spam funktioniert. Wir haben einen Textkorpus mit gefälschten Meinungsäußerungen aus den Amazon-Reviews erstellt und geprüft, welche Informationen für die automatische Entdeckung vorhanden und relevant sind. Dazu gehören:
- der Bewertungstext selbst
- die Überschrift
- Meta-Daten (z.B. Datum)
- Produktinformationen (z.B. Verkaufsrang)
- Informationen über den Reviewer (z.B. Profil und weitere erstellte Reviews)
Im Portal konnten wir beobachten, dass viele verdächtige Reviews wenige konkrete Informationen enthalten.
Oft sind die Bewertungen sehr allgemein formuliert.
Ein Beispiel dafür:
Danke bin sehr zufrieden genau das was ich erwartet habe preis Leistung ist in Ordnung vielen Dank alles super.
Ein Grund dafür wird sein, dass verdächtige Reviewer denselben Text für unterschiedliche Produkte verwenden. Auf Amazon gibt es dafür unzählige Beispiele. Ein Reviewer z.B. bewertet Herren-T-Shirts, CDs, Eau de Toilette, Duschgel, Jacken und Handy-Hüllen mit demselben Text. Es ist derselbe Text, den er für 30 Produkte am selben Tag verwendet hat.
Wurde bei einem Produkt eine gefälschte Bewertung identifiziert, ist es wahrscheinlich, dass auch weitere Bewertungen darunter gefälscht sind. Oft treten Fälschungen zeitlich gehäuft auf: Bei der Bewertung einer CD konnte man erkennen, dass direkt nach dem Erscheinen ca. 50 positive Bewertungen entstanden, während danach die Bewertungen eher negativ waren. An Wochentagen entstehen mehr Fälschungen als an Wochenenden, so unsere Untersuchung.
Computerlinguistische Verfahren entdecken nichtssagende Texte und Duplikate
Der Textkorpus mit Opinion-Spam-Beispielen wird im Moment von Studierenden erweitert und im September in einer ersten Version veröffentlicht. Erste Ergebnisse liegen vor, bei denen mit Machine-Learning-Verfahren Hinweise auf Opinion Spam aus dem Korpus gelernt und bewertet wurden.
Beitragsserie zu Opinion Mining:
Weiter Informationen:
- Vortragsunterlagen zu Digitale Information und Manipulation: hier
- Siegel, Melanie (2016). Opinion Spam – Meinungsäußerungen als Fake. Information – Wissenschaft & Praxis, 67(5-6), pp. 304-310. Retrieved 5 Nov. 2016, from doi:10.1515/iwp-2016-0058
- AFCEA Technologieforum Fraunhofer FKIE (Wachtberg) „Automatisierte Meinungsbeeinflussung – Manipulation in offenen Medien“, 28.09.2017
- Dem Opinion Spam auf der Spur - 24 Juli 2017
- Opinion Mining und die deutsche Sprache - 22 Mai 2017