Wie konnten die nur so falsch liegen?
«Total daneben», «katastrophale Vorhersagen», «überflüssig» – die mediale Kritik an den Ergebnissen der Meinungsforschung ist allgegenwärtig. Aber ist sie auch berechtigt?
Ob es um die Wahl des neuen US-Präsidenten, die Wahlen in Deutschland oder den Brexit geht: Umfragen im Vorfeld solch demokratischer Grossereignisse scheinen immer öfter danebenzuliegen. Für einige ist das Ende der Prognosen bereits eingetreten: Big Data, also die digitale Realvermessung des Forschungsobjektes «Bürger oder Bürgerin», ersetze zunehmend die Meinungsforschung. Massendaten seien viel aussagekräftiger, legten sie doch das reale Entscheidungs- und Präferenzverhalten aggregiert dar, statt sich auf hypothetische Fragen und ihre Antworten zu verlassen. So einfach ist es nicht. Fünf Thesen zu Potenzial und Grenzen der Umfrageforschung.
These 1: Der Fall USA zeigt, warum gute Umfragen Geld kosten
Die US-Wahl dient als Paradebeispiel für angeblich falsche Umfragen. Dabei lagen im Falle der US-Wahlen die nationalen Umfragen nicht nur richtig, sondern sie erreichten im historischen Vergleich seit 1936 sogar einen Bestwert. Fakt ist: Hillary Clinton hat das «Volksmehr» mit 51,1 Prozent der Stimmen gewonnen. Das durchschnittliche Umfrageergebnis ergab in der Woche vor der Wahl 52,7 Prozent für Clinton. Das sind 1,6 Prozent Abweichung, ein Wert, der innerhalb der normalen Standardabweichung, also im Zufallsbereich, liegt. Zum Vergleich: bei der letzten Wahl Barack Obamas war diese Abweichung fast doppelt so hoch.
Was bei der Wahlanalyse tatsächlich nicht korrekt war, war die Umrechnung auf die Elektorenstimmen. Hier entscheidet das «Winner-takes-it-all-Prinzip». Dafür braucht es zumindest in allen sogenannten Swing-States (und in einigen weiteren Staaten) bundesstaatenspezifische, solide und regelmässige Umfragen, die ausreichend finanziert sind. Wenn die Prognosen im Vorfeld eines gezeigt haben, dann dies: gute Umfragen kosten – wie jede gute Arbeit – Geld. Wie schnell sich auch nur kleine Schwachstellen zu einer grossen Verzerrung auswachsen können, zeigte sich in den USA auf Ebene der Bundesstaaten1: Substanzielle Anteile von Wählern, die sich in der letzten Umfrage noch als unentschlossen bezeichneten, wählten im Endeffekt Trump, obwohl sie eigentlich beide Kandidaten ablehnten. Sie taten das vor allem in den Schlüsselstaaten: 13 Prozent der unentschiedenen Wähler in Wisconsin, Florida und Pennsylvania entschieden sich in der letzten Woche vor den Wahlen in einem Ausmass für Trump, das reichte, um die Mehrheiten knapp zu kippen. Umfragen wie diese benötigen eine besondere Sorgfalt – weil sie sogenannte Projektionen sind. Die Umfragen waren zu dem Zeitpunkt, an dem sie stattfanden, korrekt. Clinton hatte in wenigstens drei Staaten (Michigan, Wisconsin und Florida) etwa zwei Wochen vor dem Wahltag Chancen. Der Fehler lag jedoch in der Projektion dieses Standes auf das Wahlergebnis.
Umfragen sind eine Erhebung des Meinungsstandes zu einem gegebenen Zeitpunkt, sie sind keine politischen Wetterprognosen. Projektionen sind eine spezielle Kategorie von Umfragen, weil sie nicht nur die Meinungen abholen, sondern auch die Wahrscheinlichkeit der Teilnahme «projizieren» müssen. Umfragen können entlang des Profils der Bevölkerung gewichtet werden. Dagegen brauchen Prognosen ein spezifisches Schätzungsmodell über das Profil der effektiv Teilnahmebereiten, also des Elektorats. In der massenmedialen Echtzeitdemokratie steigt speziell vor wichtigen politischen Ereignissen wie dem Brexit-Referendum der Druck, aus Umfragen Projektionen abzuleiten2 – das kostet, wenn es gut gemacht werden soll, noch einmal zusätzliches Geld, das auf Auftraggeberseite nur zu gern «gespart» wird.
In den Umfragen über den Verbleib Grossbritanniens in der EU führten zunächst über viele Monate hinweg die Anhänger des «Remain». Allerdings zeigten die Umfragen, die in den Tagen vor der Abstimmung veröffentlicht wurden, einen deutlich knapper werdenden Vorsprung dieses Lagers. Die letzten Umfragen ergaben im Durchschnitt ein Ergebnis von 52 Prozent zu 48 Prozent für den Verbleib in der EU. Bezieht man die statistischen Fehlerbereiche ein, die alle Umfragen ausweisen sollten, war ein äusserst knapper Ausgang vorhersehbar. Mit einer Ausnahme haben sich deshalb die führenden Meinungsforschungsinstitute im Hinblick auf eine Prognose des Ausgangs der Abstimmung stark zurückgehalten. Zudem wurde die Situation durch die Ermordung der Labour-Abgeordneten Jo Cox wenige Tage vor der Abstimmung noch unkalkulierbarer. Lediglich der langjährige Chef von YouGov hatte sich medienwirksam klar auf einen Sieg des Remain-Lagers festgelegt. Die Online-Umfrage von YouGov hatte allerdings nur einen Vorsprung von 52 Prozent zu 48 Prozent ermittelt, den YouGov selbst zwar als «too close to call», allerdings mit einem «recent trend toward Remain» bezeichnet hatte.3
Für Prognosen gilt unter Experten: Grundsätzlich kann eine Umfrage erst dann als Hinweis auf eine mögliche Prognose gewertet werden, wenn sie nach mindestens zwei, valide aber erst nach drei Messpunkten einen stabilen Trend ausweist. Im Vorfeld des Brexit wurden deshalb sogar tägliche Erhebungen vorgenommen. In den USA diskutiert die Umfragebranche zurzeit, wie sie sich selbst für die Zukunft finanziell besser aufstellen kann. Fakt ist: die bisher übliche Finanzierung durch Medienkonzerne, die selbst einem massiven Strukturwandel unterliegen, reicht nicht mehr aus, um Umfragen zu realisieren, die methodisch valide sind. Das führt zu der absurden Situation, dass eine Branche ihre eigenen Produkte finanziell unterstützen muss, um einen Reputationsschaden durch unterdotierte Institute zu vermeiden.
These 2: Viele Methoden, kein Königsweg
Der Umfragemarkt ist ein Stichprobenmarkt. Der Stichprobenmarkt galt lange als Königsweg, ist aber wegen Ausschöpfungen unter Druck geraten. Er ist aufgeteilt in computerunterstützte Telefoninterviews (CATI) und persönliche Interviews, die Face-to-Face-Interviews. Für die Marktentwicklung entscheidend sind die Telefoninterviews, da persönliche Interviews sehr teuer in der Erhebung und deshalb nicht markttreibend sind. Mit dem Rückgang der Festnetzanschlüsse ergibt sich hier insbesondere für politische Umfrageforschung eine spezifische Schwierigkeit: Interviewer treffen Menschen auf dem Mobilanschluss nicht unbedingt in einer «geschützten» Umgebung an. Wer diskutiert schon gerne im Tram seine politische Meinung? Aber auch der Markt für Telefoninterviews ist in der Schweiz seit 2016 nicht mehr gewachsen. Wachstum entsteht vor allem bei Online-Befragungen. Ist es nicht viel sinnvoller, eine Online-Umfrage zu starten? Es hat sich inzwischen die Ansicht verfestigt, telefonische Befragungen funktionierten nicht mehr – insbesondere bei der jüngeren Bevölkerung – und kosteten zu viel. Doch die Erfahrungen aus unterschiedlichen Ländern zeigen, dass ein so einfaches Fazit nicht gezogen werden kann. Verschiedene Methoden funktionieren unterschiedlich gut, je nachdem, in welchem Kontext und unter welchen Bedingungen sie eingesetzt werden. Als wichtigstes Qualitätskriterium stellt sich heraus, wie gut Daten gewichtet werden. Aber dazu später. Erst ein kurzer Überblick über die wichtigsten heute eingesetzten Methoden.
Telefon oder Online?
Die alte Methode des Telefoninterviews ist noch längst nicht tot. Gerade für den Fall Schweiz trifft der pauschale Verdacht nicht zu, dass sie nicht funktioniere: Wir haben international eine überdurchschnittlich hohe Erreichbarkeit der Bevölkerung mittels Festnetzanschlusses. Immer noch sind über 70 Prozent aller Schweizer Einwohner per Festnetz erreichbar. Das ist im Ländervergleich beinahe Weltrekord. Die aktuell als Goldstandard in der angewandten Umfrageforschung eingesetzte Kombination zwischen Festnetz- und Handybefragungen mittels computergenerierter Nummern führt dazu, dass technisch faktisch fast 100 Prozent aller hier Ansässigen telefonisch erreichbar sind. Auch weltweit wird diese Methode als Gegengewicht zu Online eingesetzt. Die Erfahrungen mit dem Wechsel sind überwiegend gut.4
Während dem Telefon heute zu Unrecht pauschal misstraut wird, lässt sich beim Thema Big Data das Gegenteil beobachten: Hier verspricht man sich Wunder, die Big Data nicht zwangsläufig herbeizaubern kann. Der Big-Data-Markt ist sehr dynamisch und sehr dispers. Offeriert werden Prognosestudien aller Art (vor allem Consumer-, Trend-, neu aber auch Wetteranalysen). Online-Erhebungen teilen sich dabei in zwei unterschiedliche Methoden auf: Weltweit geht der Trend in Richtung von Panels. Dabei handelt es sich um Gruppen registrierter Personen, die sich bereit erklärt haben, wiederholt an Online-Studien teilzunehmen. Für politische Umfragen bildet die Schweiz hier eine weltweite Ausnahme: Sie setzt vor allem auf Online-Mitmach-Studien. Wenn Sie Schweizer Online-Medien konsumieren, sind die Chancen gross, dass Sie einer solchen schon begegnet sind. Sie fragen Sie beispielsweise, wie Sie zu einer bestimmten Vorlage abzustimmen gedenken. Das kann als Methode interessant sein – sofern man keine falschen Erwartungen hat: Denn gerade in hochdynamischen Kampagnensituationen zeigt die gewichtete Mitmach-Online-Umfrage methodische Schwächen. Die letzte Messung solcher Umfrageserien kurz vor dem Urnengang hat sich in der Regel als brauchbar erwiesen; doch trifft dies nicht auf frühe Messungen im Rahmen einer Kampagne zu. Offenbar machen in frühen Phasen der Online-Umfragen jeweils nur besonders interessierte Personen mit, was die Stimmabsichten regelmässig in eine Richtung überzeichnet, so dass die Entwicklung dann in der letzten Erhebung plötzlich in eine ganz andere Richtung gehen kann. So geschehen etwa bei der Atomausstiegs- wie bei der Ecopop-Initiative. Die Mitmachumfragen wiesen in frühen Phasen ein mehrheitliches Ja für die Ecopop-Initiative aus – eine mehrjährige GfS-Umfrageserie erfasste dagegen zu keinem Zeitpunkt eine solche Ja-Mehrheit.
Auch bei Online-Panels mit regelmässig teilnehmenden, fest registrierten Personen kennt man inzwischen Vor- und Nachteile. Die Erwartung, dass Online-Methoden besonders zuverlässig seien, erweist sich gerade bei den gängigen Online-Panels als unbegründet. Denn die grosse Mehrheit der Panel-Teilnehmer wird telefonisch rekrutiert – also just mit jener Methode, von der es immer heisst, sie gewährleiste keine Repräsentativität mehr. Die Hürde, mit der die Telefonmethode zu kämpfen hat, verdoppelt sich also: nur eine Minderheit derjenigen, die sich zu einem Telefoninterview bereit erklärt haben, lassen sich dann auch noch zusätzlich durch ein Online-Panel regelmässig verpflichten.
«Online» als angebliche Premiumlösung für alle Qualitätsprobleme wird schliesslich durch den Glauben angetrieben, auf diesem Wege das Hauptproblem von Telefonumfragen zu lösen: junge Leute für eine Umfrage zu erreichen. Diese Vorstellung gehört ins Reich der Fake News. So gaben die meisten der von uns ausgetesteten Online-Panels an, Mühe bei der Mitmachbereitschaft von Jungen zu haben, sogar unter denen, die sich einmal für ein Panel registriert haben. Die gleiche Verzerrung finden wir bei Frauen über 60. Das ist vermutlich auch der Grund, warum namhafte Panelanbieter davon abraten, Personen über 65 Jahre zu befragen, oder diese gar nicht erst anbieten. Bei nicht gut bewirtschafteten Panels verschärft sich die Repräsentativitätsproblematik speziell auch mit Blick auf eher schwach gebildete Menschen. All dies schlägt sich natürlich auch in den Kosten nieder: gute Panels sind teurer geworden; ihr Kostenvorteil gegenüber der Telefonbefragung schwindet.
Fazit: Es kommt darauf an
Frankreich fiel bei den aktuellen Wahlen durch ausgezeichnete Panelleistungen auf. Die Stratifikation geschieht mit grossen Datensätzen, die regional geeicht werden und als Basis für das Panel dienen. Frankreich liess 2017 einen Methodenvergleich im Big-Data-Bereich zu. Das Ergebnis: Big Data aus Google oder Twitter sind unbrauchbar, weil sie der Medienlogik der Skandalisierung von Ereignissen und Meinungen folgen. Sie liefern deshalb kein repräsentatives Abbild aus der Bevölkerung. Mitmachumfragen sind in Frankreich nicht verbreitet. Für die Schweiz wiederum lässt sich bilanzieren, dass zwischen Telefonumfragen und der Online-Mitmach-Methode für politische Umfragen eine Konkurrenz erwachsen ist. Die Erfahrungen zeigen: bei Wahlen geht der Vergleich zwischen Mitmach-Online-Umfragen und Panels unentschieden aus. Bei Abstimmungen schnitt die gewichtete Mitmachumfrage zunächst besser ab, mittlerweile erzielt jedoch die Mischung aus Festnetz- und Handybefragungen (RDD Dual Frame) die besseren Resultate. Für die USA erstellt Nate Silver, amerikanischer Statistiker, Sabermetrician, Wahlforscher und Publizist, ein Rating zu allen Umfrageinstituten auf nationaler Ebene. Er beurteilt dabei ihre Prognosequalität mit Noten von A+ (beste) bis F (schlechteste). Die bestbeurteilten 21 Umfrageinstitute mit Serien zu nationalen Wahlen nutzten fast alle eine telefonische Befragung. Die bestbeurteilte Online-Befragung schneidet auf der 22. Stelle eher schlecht ab.5 Das Ergebnis steht für ein Land, in dem die telefonische Erreichbarkeit der Bürgerinnen und Bürger massiv schlechter ist als in der Schweiz. Grossbritannien wiederum setzte in der Brexit-Kampagne auf telefonisch gezogene Stichproben und Online-Panels. Die guten Umfragen waren alle Stichprobenumfragen, die Festnetz-Handy-Methode hingegen brachte mässige Resultate. Bei den Panels gab es allerdings massive Unterschiede: YouGov bot sowohl Panel- als auch Mitmach-Online-Umfragen an; die Mitmach-Online-Umfragen schlossen in diesem Fall besser ab.
Zusammenfassen kann man die Methodenqualitätsdiskussion wie folgt: Bei Wahlen waren alle Umfragen gut, weil sie gewichteten. Dieses Ergebnis gilt letztlich unabhängig von der Frage, wie die Daten beschafft werden. Ohne Gewichtung sind Mitmachumfragen schlechter, wie diverse Ergebnisse für die Kantone gezeigt haben.6 Die ganze Branche, methodenunabhängig, sieht sich mit zwei grossen Problemen konfrontiert: Wie soll gewichtet werden? Und wie überprüfen wir, ob unsere Gewichtung stimmt? Das ist die Linie, entlang derer sich die Spreu vom Weizen trennt.
These 3: Erfahrung und Professionalität zählen
Die Tatsache, dass wir in der Schweiz viermal im Jahr national und zusätzlich noch kantonal und auf Gemeindeebene abstimmen, hat der hiesigen Demoskopie einen beachtlichen Erfahrungsvorsprung verschafft. Das gfs.bern hat in seiner 25jährigen Geschichte rund 80 Umfragen pro Jahr durchgeführt. Überall dort, wo wir wöchentlich und fast bis an den Urnengang heran messen, erkennen wir, dass die Meinungsbildung des Souveräns absolut real und stimmig messbar ist. Wöchentlich wiederholte Erhebungsserien zeigen aber auch, dass sich Meinungen innert Wochenfrist um 5 Prozentpunkte verändern können. Die Meinungsbildung in einer Kampagnensituation, in der mehrere Seiten aktiv sind, ist hochdynamisch.
Meinungsforschung ist eine laufende Methodenentwicklung am lebenden, hochdynamischen Objekt. Wer hier keine Erfahrung und keine Professionalität mitbringt, verliert. Wer sich nicht kontinuierlich hinterfragt und verbessern will, ebenfalls. Die Diskussionen um die US-Wahlen von 2016 und den Brexit haben aufgezeigt, dass die Lösung nicht darin bestehen kann, auf Umfragen zu verzichten, sondern darin, sie zu verbessern. Umfrageforschung muss repräsentative Ausschnitte aus der Gesellschaft abbilden, sonst ist sie wertlos, wenn es um Wahlen und Abstimmungen geht.
Manche glauben, dass Massendaten aufgrund ihrer digitalen Verfügbarkeit aufwendig rekrutierte Ausschnitte aus der Gesellschaft ersetzen können – und damit auch eine professionelle Meinungsforschung, die Methoden sorgfältig und nach bestem Wissen und Gewissen kombiniert. Doch einfach Daten zu haben, reicht eben nicht, selbst wenn diese noch so ausführlich und detailgetreu sind. In politischen und gesellschaftspolitischen Themen machen der Kontext und die Interpretation der Erhebung den entscheidenden Unterschied aus.
These 4: Abgrenzung zur Manipulation ist nötig
Die Möglichkeiten, die persönlichen Daten von Bürgerinnen und Bürgern zu erfassen und zu analysieren, nehmen zu. Ein Stichwort hier lautet: Sentimentanalyse. Aus der Art, wie wir etwa Kundenbewertungen ins Netz stellen, können Firmen decodieren, mit welchen Erwartungen und Empfindungen wir auf eine Neuerung reagieren, und entsprechende Anpassungen vornehmen. Unter «Social Listening» versteht man Prozesse, bei denen man identifiziert, analysiert und bewertet, was wir im Internet und speziell in den sozialen Medien schreiben. Die sozialen Medien bieten dem Konsumenten ein weitreichendes Sprachrohr für Anregungen, Ideen, aber auch für Kritik. Solche Konversationen im Internet produzieren Massen an unstrukturierten Daten. Um diese zu analysieren, müssen sie durch diverse Programme gefiltert und nach Schlagwörtern und Phrasen in einer Datenbank strukturiert werden. So lässt sich genau identifizieren, was Menschen gefällt, was sie bewegt, welche politischen Erwartungen sie haben und welche Themen sie attraktiv finden, welche Dialoge sie führen wollen. Damit tut sich ein Feld auf, das die Meinungsforschung mit betrifft, aber weit darüber hinausgeht. Wenn die politischen Akteure sich aber immer stärker auf das sogenannte Microtargeting, also das Bedienen individueller Wähler verlegen, tragen sie auch zur Verstärkung von Meinungen und Dispositionen bei. Dies kann gerade für die Schweiz den Spielraum für die Konsensfindung reduzieren.
Alle potenziell beteiligten Akteure werden sich überlegen müssen, wo sie hier Grenzen ziehen und wie sie mit diesen neuen Möglichkeiten ethisch vertretbar umgehen. Dabei kommt wieder die Professionalität ins Spiel: die Profession der Meinungsforschung umfasst mehr als nur die Fähigkeit, möglichst rasch möglichst viele Daten zu sammeln.
These 5: Offline ist wieder en vogue
Als eine Art Parallelbewegung zu Big Data lässt sich schon seit einiger Zeit ein eigentliches Revival der qualitativen Sozialforschung beobachten. Das können etwa Fokusgruppen oder andere strukturierte Gesprächsformen sein, in denen sich der Auftraggeber auch vermehrt selbst mit seinen Standpunkten in die Gruppe hineinbegibt, um seine Ziele aktiv an Alltagsmeinungsführern zu spiegeln. Richtig genutzt können diese qualitativen Gesprächsformen Einblicke in neue Aspekte eines Themas oder einer Entwicklung geben. Sollen sie messbar werden, müssen sie quantitativ überprüft werden. Da die Incentivierung der gesuchten Meinungsführer aber oftmals auch durch Veranstaltungen mit Eventcharakter stattfindet, ist damit letztlich immer mehr die Frage verbunden, wieweit die Befragten sich in einem solchen Set-up im Sinne des Auftraggebers sozial erwünscht verhalten. Hipp, aber heikel aus Sicht einer unverfälschten Forschung.
Ein Wort zum Schluss. Ganz grundsätzlich gilt: gute Meinungsforschung zeichnet sich nicht durch den Einsatz einer bestimmten Methode aus, sondern durch eine grundsätzliche Professionalität und Redlichkeit. Das bedeutet: durch Lernwilligkeit und einen immer wieder neu gewählten, einer ganz konkreten Situation angepassten Methodenmix.
1 www.aapor.org/Education-Resources/Reports/An-Evaluation-of-2016–Election-Polls-in-the-U-S.aspx
2 Zum Beispiel: Agiesta 2016; Easley 2016a; Forsberg 2016; Jacobson 2016; McCormick 2016; Narea 2016; Shashkevich 2016; Zukin 2015.
3 www.forschungsgruppe.de/Aktuelles/Die_Demoskopen/
4 www.forschungsgruppe.de/Publikationen/dual_frame_A2_2014.pdf
5 projects.fivethirtyeight.com/pollster-ratings/
6 Als Beispiel sei etwa die Umfrage zum angeblich bevorstehenden bürgerlichen Wechsel in Basel-Stadt vom November 2017 genannt, bei der auf Basis des nationalen Bevölkerungsschnitts gewichtet wurde.