Sentiment analysis: comparison of techniques

Wo der Unterschied zwischen der lexikon-basierten und der modell-basierten Technik liegt

Sentiment Analyse am Beispiel des Films Star Wars

Sentiment analysis: comparison of techniques

Für Lexikon-basierte Techniken ist es nicht so leicht, die Bedeutung hinter der Kombination der Bedingungen zu verstehen. Dies hängt damit zusammen, dass sie nur die Existenz der Wörter erkennt, die einer positiven oder negativen Stimmung zugeordnet sind, aber nicht, wie sie zusammen wirken. Als Beispiel: Der Gebrauch von komplizierten Negierungen oder vor allem Ironie ist eine Herausforderung für Lexikon-basierte Techniken, die Stimmung korrekt vorauszusagen.

Andererseits kann das Model-basierte Vorgehen die Bedeutung von mehreren komplizierten Äußerungen mit einem geeigneten Trainingsset, das korrekt die Stimmung charakterisiert, erfassen. Dazu muss man wissen, dass es auch für Menschen, die die Stimmung in den Trainingsdaten bereitstellen, herausfordernd ist, die Stimmung korrekt zu verstehen.

Die Beispielergebnisse zeigen folgendes: beide Techniken können leicht positive Stimmungen erfassen in Tweets wie “Wir fanden es toll, #StarWars #TheForceAwakens at @AMCTheatres” zu interpretieren.

Auch in Tweets, die nur aus Hashtags bestehen wie z.B.: “#true #love #starwars #shestheone #perfect #match”.

Allerdings identifizierte die Modell-basierte Technik den Tweet ““It could have been so good! #starwars #MastersOfTheUniverse #trailer https://t.co/2DwRDzVb2w

korrekt als positiv, während die Modell-basierte Technik ihn als negativ bewertete.

Ähnlich bewertete die Modell-basierte Technik den Tweet “It could have been so good! #starwars #MastersOfTheUniverse #trailer https://t.co/2DwRDzVb2w” richtigerweise als negativ, während die Lexikon-basierte Methode den Tweet als positiv einstufte: hier war die Phrase “so good” wahrscheinlich dafür verantwortlich.

Warum kann die Modell-basierte Technik die Schwierigkeiten der lexicon-basierten Technik bewältigen?

Weil es mit Daten trainiert wurde, die die Korrelation zwischen den Kombinationen der Worte zu den Stimmungen erkennen kann; natürlich, so lange wie die Trainingdaten passend für die bevorstehende Aufgabe sind. Die Absicht ist, dass die Trainingsdaten aus relativ detaillierten Filmkritiken bestehen, wohingehend unsere Aufgabe am Ende ist, ziemlich kurze Tweets, die die Stimmung zu einem speziellen Film deutlich macht, zu klassifizieren. Auf diese Weise kann die Lexikon-basierte Technik in manchen Fällen einen Vorteil verschaffen. Sie versteht beispielsweise, dass der Tweet “One more reason #StarWars is better off without George Lucas. https://t.co/95dhZLH3ke” eine positive Stimmung beschreibt, während die Modell-basierte Technik diesen Kommentar als negative Stimmung interpretiert.

Obwohl dieser Tweet einen Vergleich anstellt, ist die Stimmung bezüglich des neuen Star Wars Films positiv.

So ist es nicht überraschend, dass wir uns dafür entscheiden, diese zwei Techniken zu kombinieren. Wege, dies zu tun, kann man in einschlägiger Literatur finden

(z.B. hier: https://www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-OpinionMining.pdf)

7 most important rules of data visualization

7 most important rules of data visualization

Wie Sie Visualisierungen mit den Hichert SUCCESS Rules sofort verständlich machen

Für die Gestaltung von erfolgreichen und aussagekräftigen Visualisierungen ist es sehr effektiv, die Regeln von Dr. Rolf Hichert (SUCCESS Rules) anzuwenden.

Bei der Auswahl eines Analysetools empfiehlt es sich deswegen darauf zu achten, ob dieses Tool mit der Hichert®IBCS-Zertifizierung ausgezeichnet wurde.

Diese bestätigt, dass die visuellen Analysen den internationalen Standards für visuelles Design und Benutzerfreundlichkeit entsprechen.

Bei dem Begriff SUCCESS geht es nicht nur darum, dass diese Regeln, wie der Name schon sagt, Erfolg versprechen. Vielmehr steckt hinter jedem einzelnen Buchstaben ein Leitsatz. Im Folgenden erklären wir diese Regeln anhand von Beispielen mit Hilfe des zertifizierten Analysetools Tableau 10.

S – Say it
U – Unify it
C – Condense it
C – Check it
E – Express it
S – Simplify it
S – Structure it

Der wichtigste Punkt, der überlegt werden muss, ist die Botschaft. Denn ein Bericht, der nichts zu berichten hat, ist unnötig. Deswegen ist beim Aufbau eines Berichts darauf zu achten, sich von Beginn an mit der Botschaft der Visualisierungen – Say it – auseinander zu setzen.

Bei Anwendung der Regel Unify it sollte man sich bemühen, die Inhalte auf den Dashboards zu vereinheitlichen. Das heißt, Bezeichnungen, Farben und Formen sollten einheitlich dargestellt werden.

Condense it befasst sich hauptsächlich mit der Informationsdichte der Schaubilder. Um diese zu erhöhen, bietet es sich an, weitere Daten mit in die Visualisierung aufzunehmen.

Um auch Regel Check it anzuwenden, sollte man bei den Visualisierungen darauf achten, dass geeignete Diagrammtypen für die jeweilige Fragestellung verwendet werden. Ein Beispiel hierfür ist die Darstellung des zeitlichen Verlaufs. Ungeeignet wäre in diesem Fall ein Kreisdiagramm. Optimal für die Darstellung von Verläufen sind Liniendiagramme. Ein weiterer wichtiger Punkt, vor allem bei der Verwendung von Doppelachsen, sind einheitliche Achsenskalierungen, d. h. es gibt zwei unterschiedliche Darstellungsarten in einer Visualisierung.

In seiner Express it Regel geht es um die Glaubwürdigkeit der Darstellungen. Dazu zählt auch die Tatsache, dass unpassende Visualisierungen, die einen Zusammenhang schlecht bzw. gar nicht vermitteln, ersetzt werden.

Um bei den erstellten Visualisierungen keine unnötigen Ablenkungen zu schaffen, gibt es die Regel Simplify it. Hintergrund ist dabei, dass Unverständlichkeiten, Doppeldeutigkeiten und verwirrende Details vermieden werden sollen. Ziel ist also die Umsetzung eines klar strukturierten Layouts ohne unnötige Komponenten.

Um alle erstellten Visualisierungen zu vereinheitlichen, sollte man sich an der Regel Structure it orientieren. Diese beinhaltet logische Strukturen und homogene Elemente.

Dieser kurze Überblick über die Hichert SUCCESS Rules soll es Ihnen erleichtern, gute Visualisierungen selbst zu erstellen. Letztendlich hilft die Berücksichtigung der Hichert Rules uns und unseren Kunden bei der täglichen Arbeit mit Dashboards enorm. Unser Team hilft Ihnen bei Fragen sehr gerne weiter.

Data-Storytelling – was Napoleon mit Daten zu tun hat

Warum Geschicht und Daten hervorragend zusammenpassen

Data-Storytelling – was Napoleon mit Daten zu tun hat

Data-Storytelling ist heute in aller Munde. Doch was hat es damit auf sich? Stimmt es, dass man damit seine Zuhörer dazu bringen kann, die vermittelten Inhalte ohne weiteres aufzunehmen und wenn ja, warum?

Data-Storytelling beinhaltet drei Punkte, die wichtig sind: Daten, Visualisierungen und Geschichten. Das klassische Storytelling wird also um die Aspekte Visualisierungen und Daten erweitert. In der Visualisierung werden Daten benutzt, um Geschichten zu erzählen. Umgekehrt können Geschichten auch benutzt werden, um Daten zu erzählen. Data Scientists müssen hier schon fast wie Grafiker, Geschichtenerzähler und Datenspezialisten in einer Person denken. Hier geht’s nicht mehr nur um die Daten selbst, sondern um ihre Bedeutung. Daten sollen schließlich verstanden werden. Dazu müssen sie zuerst visualisiert und dann der Zuhörerschaft nahegebracht werden. Sie werden quasi zum Sprechen gebracht und dies geschieht am besten, wenn sie eine Geschichte erzählen.

Wie Bilder und Visualisierungen helfen, gute Geschichten zu erzählen

Das Gehirn merkt sich Zahlen und Fakten viel leichter und schneller, wenn sie in Bildern dargestellt werden. Dies macht man sich mit Hilfe einer Visualisierung zu nutze. Data-Storytelling ist also nur mit einer guten Visualisierung möglich. Deshalb sind Visualisierungstools wie Tableau gefragt wie nie.

In derartigen Tools ist es üblich, interaktive Elemente einzubinden. Diese machen das Thema greifbarer und erlauben anderen Menschen, ihr eigenes Erlebnis zu wählen. Die persönliche Erfahrbarkeit ist ein wichtiger Aspekt.

Persönliche Verbindung

Am besten funktioniert es, Daten zu verstehen und sie sich zu merken, wenn die Daten Geschichten erzählen, mit denen sich der Betreffende identifizieren kann. Dadurch entsteht eine enge persönliche Verbindung. Nur wenn diese geschaffen wird, fühlt sich der Angesprochene abgeholt und kann sich an Inhalte sehr viel besser erinnern als durch stur heruntergeratterte Fakten.

Doch wie spannt man das Seil der persönlichen Verbindung? Dies funktioniert besonders gut, indem man persönliche Erfahrungen / Interessen / Bedürfnisse der Zielgruppe oder der Person, vor der man präsentiert, gekonnt in die Geschichte einflechtet.

Die Kunst ist es also, Inhalte verpackt in einer Geschichte so zu vermitteln, dass sie im Kopf des Zuhörenden hängen bleibt. Sich in diesen hineinzuversetzen ist ein wichtiger Schritt. Dazu gilt es, wichtige Fragen zu klären wie z.B.:

Wer ist mein Publikum? Ist es ein CEO, ein Marketing-Manager oder ein IT-Verantwortlicher? Womit beschäftigt er sich? Was wird ihn interessieren? Welche Informationen benötigt er für seine Entscheidungen?

Nun aber weg von der Theorie und hin zur Praxis: Wie könnte ein konkreter Fall, in dem wir die Kunst des Storytellings anwenden, aussehen? Um zu zeigen, dass Data-Storytelling in nahezu jedem Bereich möglichist, haben wir uns eine politische Fallsituation ausgedacht:

Stellen wir uns vor, wir würden eine Visualisierung einem Fachgremium von Entscheidern einer Regierung vorstellen, die vor einer Entscheidung steht, einen geplanten Angriff auf ein anderes Land (z.B. Rußland) durchzuführen oder nicht.

Das Gremium hört sich verschiedene Vorträge zu ähnlichen Situationen in der Geschichte als Entscheidungsgrundlage an.

Angenommen, wir hätten im Hinterkopf die Absicht, einen Krieg zu verhindern und würden mit Hilfe der Visualisierung die Entscheidung beeinflussen wollen: vielleicht spannen wir den Bogen zur gegenwärtigen Situation mit einem klaren Bezug zu dieser ähnlichen Situation der Vergangenheit und stellen somit die Risikofaktoren eines Angriffs dar, indem wir sie anhand von geschichtlichen Fakten aufzeigen. Aus diesem Grund haben wir Napoleon´s Marsch nach Moskau ausgewählt: dieser endet bekanntlich in einem Desaster.

Wir untermauern also die Fakten mit den visuellen Darstellungen:

  • Verlust an Soldaten: die Breite des Streifens stellt die Anzahl der Soldaten dar: Der Streifen wird immer schmäler, d.h., dass die Anzahl der Soldaten kontinuierlich sinkt
  • Truppenbewegungen: sie sind anhand der Positionen in der Landkarte ersichtlich
  • Temperaturen im Laufe von Napoleons Russlandfeldzug: unteres Diagramm
  • Hinmarsch und Rückzug: die Farben stellen die beiden Pole dar – die braune Farbe symbolisiert den Hinmarsch, schwarz den Rückmarsch

Was eine gute Geschichte braucht– Elemente des klassischen Storytelling integrieren

Was sollte man beachten, um eine gute Datengeschichte zu erzählen? Wenn man 5 Faktoren des klassischen Storytellings beim Erzählen mit einfließen lässt, ist die Wahrscheinlichkeit viel höher, dass es eine gute Geschichte wird.

  • Motiv – eine gute Geschichte hat einen Grund, erzählt zu werden: Dieser muss klar sein. In diesem Fall würde das klare Motiv sein, durch Aufzeigen der Risiken eines Angriffes einen Krieg und eine damit verbundene bevorstehende Katastrophe zu verhindern
  • Helden – wer ist die Person, um die es geht? Was ist das Motiv dahinter? Es kann sich auch um einen Anti-Helden handeln. In unserem Fall handelt es sich um Napoleon, den man aus heutiger Sicht auch als Anti-Helden betrachten kann. Nennen wir ihn einfach unseren Protagonisten.
  • Konflikt – Jede gute Geschichte enthält einen Konflikt. Dieser erzeugt Spannung und führt an die Emotionen in der Geschichte heran. Sie lässt den Zuhörer nachempfinden, wie es sich anfühlt, in dieser Situation zu sein. Der Konflikt in unserer Geschichte: Napoleon will Russland erobern. Mit zunehmendem Voranschreiten schwinden aber im Feldzug immer mehr Menschen. Sie sterben an Erfrierungen, Hunger bzw. Krankheit oder desertieren. Selbst auf dem Rückzug gibt es große Verluste.
  • Emotionen – Jede gute Geschichte weckt Emotionen. Ein emotionaler Spannungsbogen durch verschiedene Situationen von z.B. Traurigkeit, Sehnsucht bis hin zu Überraschung und Freude ist sehr wichtig. In unserem Fall kann man mit Emotionen wie Abscheu, Angst und Trauer arbeiten.
  • Viral – eine gute Geschichte ist viral. Sie ist wiedererzählbar und teilbar. Sie bietet vielleicht sogar einen Zusatznutzen. Die heutigen Kanäle bieten alle Möglichkeiten dazu, sei es Youtube, die sozialen Medien oder öffentliche Plattformen wie Tableau Public. Verschiedene Visualisierungen von Napoleons Marsch nach Moskau sind mittlerweile auf diesen Kanälen zu finden.

Das war nur ein Beispiel unter vielen. Heutzutage werden in der Wirtschaft Visualisierungen genutzt, um bessere wirtschaftliche Entscheidungen treffen zu können.
Noch ein kleiner Tipp für Ihr erfolgreiches Data-Storytelling: Interessanter wird es immer, wenn der Hauptkern der Geschichte nicht das Produkt, die Firma oder die eigene Dienstleistung ist.