Wo der Unterschied zwischen der lexikon-basierten und der modell-basierten Technik liegt

Sentiment Analyse am Beispiel des Films Star Wars

Für Lexikon-basierte Techniken ist es nicht so leicht, die Bedeutung hinter der Kombination der Bedingungen zu verstehen. Dies hängt damit zusammen, dass sie nur die Existenz der Wörter erkennt, die einer positiven oder negativen Stimmung zugeordnet sind, aber nicht, wie sie zusammen wirken. Als Beispiel: Der Gebrauch von komplizierten Negierungen oder vor allem Ironie ist eine Herausforderung für Lexikon-basierte Techniken, die Stimmung korrekt vorauszusagen.

Andererseits kann das Model-basierte Vorgehen die Bedeutung von mehreren komplizierten Äußerungen mit einem geeigneten Trainingsset, das korrekt die Stimmung charakterisiert, erfassen. Dazu muss man wissen, dass es auch für Menschen, die die Stimmung in den Trainingsdaten bereitstellen, herausfordernd ist, die Stimmung korrekt zu verstehen.

Die Beispielergebnisse zeigen folgendes: beide Techniken können leicht positive Stimmungen erfassen in Tweets wie “Wir fanden es toll, #StarWars #TheForceAwakens at @AMCTheatres” zu interpretieren.

Auch in Tweets, die nur aus Hashtags bestehen wie z.B.: “#true #love #starwars #shestheone #perfect #match”.

Allerdings identifizierte die Modell-basierte Technik den Tweet ““It could have been so good! #starwars #MastersOfTheUniverse #trailer https://t.co/2DwRDzVb2w

korrekt als positiv, während die Modell-basierte Technik ihn als negativ bewertete.

Ähnlich bewertete die Modell-basierte Technik den Tweet “It could have been so good! #starwars #MastersOfTheUniverse #trailer https://t.co/2DwRDzVb2w” richtigerweise als negativ, während die Lexikon-basierte Methode den Tweet als positiv einstufte: hier war die Phrase “so good” wahrscheinlich dafür verantwortlich.

Warum kann die Modell-basierte Technik die Schwierigkeiten der lexicon-basierten Technik bewältigen?

Weil es mit Daten trainiert wurde, die die Korrelation zwischen den Kombinationen der Worte zu den Stimmungen erkennen kann; natürlich, so lange wie die Trainingdaten passend für die bevorstehende Aufgabe sind. Die Absicht ist, dass die Trainingsdaten aus relativ detaillierten Filmkritiken bestehen, wohingehend unsere Aufgabe am Ende ist, ziemlich kurze Tweets, die die Stimmung zu einem speziellen Film deutlich macht, zu klassifizieren. Auf diese Weise kann die Lexikon-basierte Technik in manchen Fällen einen Vorteil verschaffen. Sie versteht beispielsweise, dass der Tweet “One more reason #StarWars is better off without George Lucas. https://t.co/95dhZLH3ke” eine positive Stimmung beschreibt, während die Modell-basierte Technik diesen Kommentar als negative Stimmung interpretiert.

Obwohl dieser Tweet einen Vergleich anstellt, ist die Stimmung bezüglich des neuen Star Wars Films positiv.

So ist es nicht überraschend, dass wir uns dafür entscheiden, diese zwei Techniken zu kombinieren. Wege, dies zu tun, kann man in einschlägiger Literatur finden

(z.B. hier: https://www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-OpinionMining.pdf)

Lesen Sie auch den ersten und den zweiten Teil unseres Blogbeitrags.