Der Forscher und die Datenfülle. Eine technologische Perspektive auf die US-Wahl

Der Forscher und die Datenfülle. Eine technologische Perspektive auf die US-Wahl

Was wir aus der US-Wahl lernen.

Als Trump die US-Wahl gewann, entzündeten sich teils bittere Dialoge darüber, wozu die Wahl-/Meinungs- und Marktforschung noch imstande sei, schließlich haben nahezu alle Prognosen zum Wahlausgang geirrt. Auffallend ist: Die Debatte dreht sich zumeist darum, wie wir messen, ob qualitativere Verfahren, größere Stichproben, längere oder kürzere Fragebögen eingesetzt werden sollten.

Wie relevant ist es, in Zeiten von Big Data die Methodik der Datenerhebung zu diskutieren? Ich denke, es ist sinnvoller, früher anzusetzen.

Neue Welt – Es gibt mehr Daten als wir verarbeiten können

Die Digitalisierung schafft eine neue Perspektive des Erkenntnisgewinns. Daten liegen heute vielfach schon vor. Niemals wird die Digitalisierung so langsam sein wie heute, immer schneller befördern Datenströme neues Material durch die Kanäle. Statt Hunderter oder Tausender Datensätze strömen unüberschaubar große Datenmengen über den digitalen Highway. Sei es im Unternehmen, dem smarten Zuhause und Auto oder im Web.

Was müssen wir zukünftig noch erheben?

Wann müssen wir noch Fragebögen formulieren? Wofür finden wir stattdessen Antworten in vorliegenden Datenströmen? Versprechen Sie gar eine höhere Exaktheit, weil automatisch erhobene, auf Verhaltensweisen basierte Daten unbestechlicher sind als das bewusste Beantworten von Fragen? Weil beispielsweise die GPS-Daten von Smartphones ehrlichere Angaben machen als ihre Besitzer, die den Besuch einer Wahlkampfveranstaltung der Republikaner nicht zugegeben hätten?

Dieser Beitrag hat nicht das Ziel, die wissenschaftliche Vorgehensweise der Wahlprognosen der vergangenen Jahre und Jahrzehnte in Frage zu stellen. Er möchte vielmehr zum Denken anregen, welche anderen Perspektiven wir künftig zum Verständnis der Meinungsbildung der Menschen nutzen können. Und welche Methodik wir heranziehen können, um Wahlentscheidungen so vorhersehbar wie nachvollziehbar zu machen.

Neue Datenquellen, neue Fragen

Big Data klingt verheißungsvoller, als es ist. Marktforscher wissen: Fremde, sekundäre Daten erfordern seit jeher die Frage nach Güte und Aussagekraft der Quelle. Wie kann dies zweifelsfrei beurteilt werden, wenn man die Daten nicht selbst erhoben hat? Die Schwierigkeit beginnt schon dabei, innerhalb digitaler Kanäle echte Menschen von Maschinen – Bots – zu unterscheiden. Kein triviales Unterfangen, aber eine spannende Herausforderung. Ebenso kann die Auswahl des Datenausschnitts aus umfassenden Datenströmen eine wesentliche Ursache für ein Bias sein. Aber es lohnt, sich mit der Quelle, ihren Fehlerquellen und ihrer Güte zu befassen.

Menschliche Empfindung vs. maschinelle Rationalität

Mich bewegte wenige Tage nach der US-Wahl und dem Sieg Donald Trumps die These: „Menschen empfinden, Maschinen agieren rational“.

Wie war das bei der US-Wahl? Wir Europäer hielten einen Sieg Trumps für unrealistisch. Schließlich hatten alle großen US-Medien Clinton vorne gesehen. Persönlich ging es mir ebenso. Ja, es war ein Gefühl. Sollten noch viel mehr Menschen dem Gefühl erlegen sein, dass nach all den gehörten Argumenten Clinton die Gewinnerin sein müsse?

Die Frage, die ich mir stellte: Hätte die maschinelle Textanalyse, beispielsweise des Social Web, die Analyse der Wahlkampf-Duelle und des Diskurses, dazu eine rationalere Einschätzung geliefert? Und: Könnten wir nicht zeitgemäße Marktforschungsmethodik nutzen, um genau das nach objektiven Kriterien zu analysieren?

Analyse der Wahlkampf-Duelle

Die vorliegende Analyse erfolgte nach der Wahl und beschränkt sich auf die Betrachtung der Wahlkampf-Duelle. Sie hat nicht den Anspruch, als Prognoseninstrument zu dienen oder den Sieg Trumps zu erklären. Sie bietet aber womöglich einen Einblick in den Widerspruch zwischen emotionaler, menschlicher Einschätzung und rationaler Betrachtung der Aussagen und Wirkung beider US-Kandidaten.

Ein indisches Startup meldet sich zu Wort

Tatsächlich meldete ein indisches Startup namens Genic.ai schon vor der Wahl, dass Trump gewinnen werde. Berechnet hatten die Inder den Vorsprung mit den Algorithmen ihrer Künstlichen Intelligenz. Schon bei früheren Wahlen lag das Unternehmen damit richtig. Bemerkenswert an dieser Stelle: Die Software wird eigentlich für den Gesundheitsbereich entwickelt, mit der Analyse von Gesundheitsdaten erwartet man bessere Diagnosen und Behandlungserfolge. Aber die Algorithmen funktionieren mit verschiedenartigen Daten.

Die Maschine ist per Definition rational. Ihre Algorithmen arbeiten in der immer gleichen Weise. Sie können Kontext einbeziehen und damit die Analyse verbessern, aber sie legen keine Emotion in das, was sie „sehen“. Gemessen an der exakten Wahlprognose von Genic.ai liegt es daher nahe, diesen maschinenbasierten Methoden mehr Gewicht einzuräumen.

Maschinelle Analyse natürlicher Sprache

Was zeigt sich nun? Wir entschieden uns für eine Textanalyse zur Trump-Wahl, wofür wir die Online-Software story.ly von SmartMunk einsetzten. Das System nutzt Methoden der Computerlinguistik und analysiert maschinell, mit künstlicher Intelligenz, natürliche Sprache.

Für eine erste Analyse wurden die Transkripte der drei TV-Debatten aus den USA [1] als Textdatei in das System geladen. Dabei hinterlegten wir die Aussagen der Präsidentschaftskandidaten sowie der Moderatoren der Fernsehduelle mit Fallvariablen, so dass sie getrennt voneinander betrachtet werden konnten. Ebenso wären die einzelnen Debatten getrennt voneinander analysierbar, was wir der Einfachheit halber hier nicht betrachten.

Die Algorithmen innerhalb der Software bereinigen und sortieren selbsttätig den Text und blenden die Ergebnisse unmittelbar auf dem Bildschirm ein. Beides geschieht auf Basis von bereits (maschinell) Gelerntem. So erkennt die Software beispielsweise typische Füllworte, die für eine Analyse nicht relevant sind. Die Sortierung der Inhalte erfolgt in Form einer vordefinierten Ontologie in neun Kategorien, die über vorangegangene Projekte gelernt wurden. Um keine subjektive Verzerrung einzubringen, wurden die Daten nicht weiter bereinigt und auf eine Codierung der Inhalte in die Kategorien verzichtet. Das heißt, die dargestellten Berichte resultieren aus dem lernenden System. Aus verschiedensten Projektinhalten, nicht nur politischen Debatten. Die vorliegende Betrachtung ist eine Sicht auf die Daten as is, also ein sehr schneller Blick auf gegebenenfalls sehr umfangreiches Datenmaterial (hier: 955 Texte, 20.313 Worte, davon 2.364 unterschiedliche Worte).

Und dieser Bericht offenbart schon einiges.

Trump redet viel, sagt aber wenig

Die sogenannten Content Statistics zeigen bereits etwas, das vermutlich auch für das Gefühl für Clinton und gegen Trump verantwortlich ist: Trump redet viel, sagt aber wenig.

So lag Trumps Redeanteil in den drei Duellen bei 59 % versus 41 %, die Hillary Clinton zu Wort kam. Er ergriff deutlich häufiger das Wort und sprach länger als seine Kontrahentin.

Content Statistics
Content Statistics

Der Content Indicator ist das Maß für den Informationsgehalt eines Textes, also, wie viel Aussage im gesprochenen Wort liegt. Der Content Indicator errechnet sich über die Dichte der Informationen im Gesprochenen. Verwendet also jemand immer wieder die gleichen Worte und Inhalte, liegt sein Informationsgehalt niedriger. In der Informationstheorie spricht man davon, dass ein hoher Informationsgehalt Unsicherheit beseitigt, was in der Politik besonders relevant scheint.

Beim Informationsgehalt liegt Hillary Clinton deutlich vor Donald Trump. Ihr Informationsgehalt liegt mit 3,78 deutlich über Trump (3,28). Informationstheoretisch und rational gab sie damit mehr Sicherheit für ihre politische Richtung. Ein Indiz dafür, warum allerorts eher mit einem Sieg Clintons gerechnet wurde?

Die Inhalte der Aussagen

Eine weitere Perspektive auf die Aussagen liefert das visuelle Mapping der Reden in Kategorien. Die sogenannte Ontologie besteht als eine Art Meta-Kategoriensystem aus neun Kategorien: Handlungen (rot), Funktionen (grün), Emotionen (rosa), Personen (orange), Orte (braun), Zeit (grau), Produkt (türkis), Marke (blau), Werbung (lila).

Ontologie Treemap Trump
Erst Handlungen, dann Emotionen, dann Funktionen und Personen – Ontologie Treemap Trump
Ontologie Treemap Clinton
Erst Handlungen, dann Funktionen, dann Personen und Emotionen – Ontologie Treemap Clinton

 

Stellt man Clinton und Trump gegenüber, so fällt auf, dass sie eines gemeinsam haben: Beide sprechen zunächst und in großem Ausmaß über Handlungen (46 % der Aussagen bei Clinton, 44 % Trump) und geben Ausblick darauf, was getan werden soll. Ein typisches Bild für Politikerreden im Wahlkampf (ähnliches haben wir bei Merkel/Steinmeier beobachtet).

Danach allerdings verschieben sich die Gewichte in den Aussagen der beiden Kandidaten. Hillary Clinton betont funktionale Aspekte (14 % der Aussagen) und spricht beispielsweise über Jobs und Gesundheit. Darauf folgen Aussagen zu Personen (12 %), entweder adressiert an die generelle Bevölkerung, den bestehenden und potenziellen Präsidenten, Frauen und Familien. Erst darauf, auf Platz 4, folgen emotionale Aussagen (10 %), die zu großen Teilen positiv geprägt sind.

Bei Donald Trump dagegen folgen auf die Handlungen als nächster großer Block die Emotionen (14 %), dann erst kommen funktionale Aspekte (12 %) beispielsweise zu Jobs und auffallend häufig zu großen Geldsummen (millions and billions USD). An vierter Position (8 %) folgen die Menschen.

Eine weitere Perspektive ins rechte Licht

Nun ermöglicht uns diese Art der Analyse nicht, einen Sieger zu prognostizieren. Aber sie addiert eine rationale Facette zur Diskussion. Maschinelle Intelligenz liefert uns einen strukturierten Einblick in das Gesagte. In rasender Geschwindigkeit und ohne den Einfluss emotionaler Faktoren, wie es beispielsweise ein Gesichtsausdruck oder eine Geste vermitteln können.

In der Marktforschung eröffnen sich damit Potenziale, das Numbercrunching (oder hier Textcrunching) den Maschinen zu überlassen und die automatisch generierten Graphiken zu interpretieren.

Was die Maschine auch in naher Zukunft nicht übernehmen kann, ist, den Sinn aus Analysen zu extrahieren und aus dem Kontext zu interpretieren. Hierzu gehört das Gefühl, die menschliche Intuition. Das richtige Maß aus Automation und Intuition zu finden, wird die Herausforderung unserer Branche für die Zukunft sein. Bis dahin sollten wir uns furchtlos an die neuen technologischen Möglichkeiten wagen, mit ihnen lernen und so unser marktforscherisches Know-How weiterentwickeln. Ich wünsche gutes Gelingen dabei.

Dieser Beitrag erschient erstmals in gekürzter Fassung in der planung & analyse.

[1]      Quellen

1. Debatte: https://www.washingtonpost.com/news/the-fix/wp/2016/09/26/the-first-trump-clinton-presidential-debate-transcript-annotated/?utmterm=.01e36aed0d4a

2. Debatte: http://www.politico.com/story/2016/10/2016-presidential-debate-transcript-229519

3. Debatte: http://www.christianpost.com/news/trump-vs-clinton-in-third-presidential-debate-2016-full-transcript-170987/#hoMJbFlubOHQDOdd.99

Andera Gadeib
Verfolgen Andera Gadeib:

CEO

Andera Gadeib ist Gründerin und CEO von Dialego. Die Wirtschaftsinformatikerin ist seit vielen Jahren etablierte Expertin zu Fragen der Digitalisierung. Unter anderem ist sie berufenes Mitglied im Beirat Junge Digitale Wirtschaft im BMWi und Vorständin des Bundesverbands IT-Mittelstand bitmi.

Andera Gadeib
Letzte Einträge von

Bitte hinterlasse eine Antwort