Die Packungsbeilage, bitte!
Politische Umfragen stossen in der Öffentlichkeit auf ebenso grosses Interesse wie Skepsis. Dabei ist das Problem weniger die Arbeit der Demoskopen als ihre Intransparenz.
In den aktuellen Umfragen zu den Präsidentschaftswahlen in den USA verfügt Joe Biden über einen komfortablen Vorsprung. Seit dem Ausbruch der Coronaviruspandemie in den USA hat der demokratische Herausforderer den Abstand auf den republikanischen Amtsinhaber Donald Trump ausgebaut. Doch der Blick auf die Vergangenheit stimmt misstrauisch: Vor vier Jahren führte Hillary Clinton die Umfragen ebenfalls an, bevor sie sich am Wahltag Trump geschlagen geben musste. Aufgrund dieser allgegenwärtigen Erfahrung schwingt gegenüber ihrer Prognosefähigkeit eine gehörige Portion Skepsis mit.
Der Mythos hält sich hartnäckig, der Wahlerfolg von Donald Trump 2016 sei ein demoskopisches Fiasko gewesen. Dabei wich das landesweite Ergebnis nur geringfügig vom Mittel der Umfragen ab. Im Durchschnitt wiesen diese einen Vorsprung Clintons von 3,3 Prozent aus, am Wahltag resultierte ein solcher von 2,1 Prozent. Damit war die Abweichung geringer als beispielsweise vier Jahre zuvor beim Sieg Barack Obamas über Mitt Romney.
Auch ausserhalb der USA gibt es stichhaltige Anhaltspunkte, dass die Verlässlichkeit von Wahlumfragen im Zeitverlauf nicht abgenommen hat. Die meines Wissens umfassendste empirische Analyse von mehr als 350 Wahlen in 45 Demokratien hat ergeben, dass keine Anzeichen dafür vorliegen, dass die Prognosefehler gestiegen sind. Umfragen scheinen somit besser als ihr Ruf zu sein.
Das vergessene Konfidenzintervall
Allerdings können Umfrageergebnisse leicht falsch interpretiert werden. Abgesehen davon, dass dem Wahlsystem Rechnung getragen werden muss – im Fall der amerikanischen Präsidentschaftswahlen sind die Elektorenstimmen massgebend, die auf Ebene der Bundesstaaten vergeben werden –, beschränkt sich die Medienaufmerksamkeit meist auf den Mittelwert von Umfragen. Dadurch wird mit dem sogenannten Konfidenzintervall eine zentrale Information ausser Acht gelassen.
Das Prinzip von Wahlumfragen besteht darin, anhand von repräsentativen Stichproben Schlüsse über die Gesamtheit der wahlberechtigten Bevölkerung zu ziehen. Das Konfidenzintervall beruht auf dem Stichprobenfehler und gibt den Bereich an, in dem sich der in einer Umfrage ermittelte Mittelwert in der Wählerschaft höchstwahrscheinlich befindet. Es hat sich eingebürgert, dass jener Wertebereich angegeben wird, der bei einer fünfprozentigen Fehlerwahrscheinlichkeit zu erwarten ist.
«Wenn die eigenen Zahlen deutlich vom Gros
der anderen Umfragen abweichen, ist die Versuchung gross,
sie so zu gewichten, dass sie besser ins allgemeine Bild passen.
Wenn das allerdings alle machen, entsteht eine systematische Verzerrung
zugunsten des allgemein erwarteten Resultats.»
Nehmen wir an, dass vor den nächsten Nationalratswahlen eine Umfrage für die FDP einen Wähleranteil von 16 Prozent ergibt. Gegenüber den Wahlen von 2019 entspricht dies einem Plus von einem Prozentpunkt. Manche Journalisten berichten von einem Aufschwung der Freisinnigen und sehen sie bereits als Wahlsieger. Solche Aussagen sind aber nicht zulässig, wenn sich das Wahlergebnis von 2019 (15 Prozent) innerhalb des Konfidenzintervalls der Umfrage befindet. Dieses liegt bei einer Stichprobe von 1000 Befragten typischerweise zwischen 14 und 18 Prozent.
Die Macht der sozialen Erwünschtheit
Auch bei Volksabstimmungen geraten Umfragen von Zeit zu Zeit in Verruf. So sorgte in der Schweiz 2009 die unerwartete Annahme der Minarettinitiative für grosses Aufsehen. Die letzte Umfrage vor der Abstimmung hatte eine Zustimmung von 37 Prozent (und eine Ablehnung von 53 Prozent) ergeben, am 29. November wurde die Volksinitiative mit mehr als 57 Prozent an den Urnen deutlich angenommen. Diese Diskrepanz, die der damalige Bundesrat Moritz Leuenberger im Nationalrat als «staatspolitisch gravierend» bezeichnete, löste nicht nur einen regelrechten Mediensturm aus, sondern wurde auch in verschiedenen wissenschaftlichen Gutachten aufgearbeitet.
Da es sich im Fall der Minarettinitiative um einen tabuisierten Themenbereich handelte, erscheint die soziale Erwünschtheit am plausibelsten als Erklärung für die markante Abweichung zwischen Umfrage- und Abstimmungsergebnis. Zahlreiche Umfrageteilnehmende neigten vermutlich dazu, an Stelle ihrer tatsächlichen Präferenz eine Antwort zu geben, die mit gesellschaftlichen Erwartungen und Normen übereinstimmte. Um gegenüber den interviewenden Personen nicht als islamfeindlich zu erscheinen, gaben viele Befürwortende wohl nicht zu, dass sie ein Ja einlegen würden. Folglich wurde der Nein-Anteil in den Umfragen systematisch unterschätzt.
Die Problematik der sozialen Erwünschtheit war wohl auch beim Brexit-Referendum in Grossbritannien im Jahre 2016 von einiger Bedeutung. In der Tat deuteten die meisten per Telefoninterviews durchgeführten Umfragen auf einen Verbleib in der Europäischen Union hin. Im Gegensatz dazu liessen die anonym durchgeführten Internetumfragen während der gesamten Kampagne ein knappes Rennen erwarten, in den letzten Wochen sahen sie zumindest in der Tendenz die Befürworter des Austritts im Vorteil. Zu berücksichtigen ist auch, dass Protestwähler dazu tendieren, weniger häufig an Umfragen teilzunehmen, wodurch diese Art von Verzerrung verschärft wird.
Nur jeder zehnte antwortet
Zusätzlich zu solch situativen Faktoren wird das Zustandekommen von sauberen Zufallsstichproben auch durch tiefe Ausschöpfungsquoten erschwert. Tatsächlich haben in den letzten Jahren die Erreichbarkeit und die Teilnahmebereitschaft der Bürgerinnen und Bürger stark abgenommen. Die Ausschöpfungsquoten bewegen sich in der Schweiz bei seriösen Umfragen im Bereich von 30 bis 40 Prozent. Bei kommerziellen Anbietern in den USA sind Anteile unter 10 Prozent mittlerweile die Regel – erst recht, wenn Umfrageinstitute aus Kostengründen auf automatisierte Robocalls zurückgreifen.
Je tiefer die Ausschöpfungsquoten, desto grösser das Risiko, dass sich die Stichproben von Umfragen de facto als nicht repräsentativ erweisen. Dies ist dann der Fall, wenn die befragten Personen in ihrer Stimmabsicht nicht das Elektorat widerspiegeln, obwohl dies in bezug auf Merkmale wie Geschlecht, Alter und Wohnort der Fall sein mag. Eine solche Fehlleistung trat 2015 bei den britischen Unterhauswahlen auf. Aufgrund von nicht repräsentativen Stichproben liessen die meisten Umfragen eine Pattsituation (hung parliament) erwarten. Am Wahltag erreichten die Konservativen jedoch eine Mehrheit, womit sie ohne Koalitionspartner eine Regierung bilden konnten.
Ein möglicher Grund für nicht repräsentative Stichproben ist die systematische Verzerrung, die aufgrund von Nichterreichbarkeit und Antwortverweigerungen entsteht. Die Wahrscheinlichkeit, an einer Befragung teilzunehmen, kann zuweilen stark nach bestimmten Merkmalen variieren. So sind in realisierten Stichproben oft Individuen mit hohem Bildungsniveau gegenüber tiefen Bildungsschichten übervertreten. Um die Genauigkeit von Umfragen zu erhöhen, liegt es nahe, eine Korrektur vorzunehmen, um das Gewicht der Befragten mit tiefem Bildungsniveau derart zu erhöhen, damit sie ihren jeweiligen Anteilen in der Gesamtbevölkerung entsprechen.
Gegen solche Gewichtungen ist grundsätzlich nichts einzuwenden. Das Problem ist die Beliebigkeit, mit der sie vorgenommen werden. Welche Grössen sollen gewichtet werden und auf welche Art und Weise? Leider machen kommerzielle Anbieter nur selten transparente und objektiv nachvollziehbare Angaben dazu. Da Gewichtungen zuweilen einen grossen Einfluss auf die ausgewiesenen Resultate haben, kann diese Intransparenz fatale Folgen haben. Insbesondere deshalb, weil die Demoskopen nicht völlig unabhängig voneinander agieren: Wenn die eigenen Zahlen deutlich vom Gros der anderen Umfragen abweichen, ist die Versuchung gross, sie so zu gewichten, dass sie besser ins allgemeine Bild passen. Wenn das allerdings alle machen, entsteht eine systematische Verzerrung zugunsten des allgemein erwarteten Resultats, wie sie der US-amerikanische Statistiker Nate Silver beschrieben hat. Ihm zufolge liegen Umfragen daher oft in die genau umgekehrte Richtung daneben, wie vermutet wird.
Die Geheimniskrämerei untergräbt die Glaubwürdigkeit der Demoskopie. Wenn es sich um Umfragen handelt, die von öffentlich-rechtlichen Organisationen wie der SRG finanziert werden, müsste es eine Selbstverständlichkeit sein, dass die verwendeten Rohdaten öffentlich zugänglich gemacht werden. Bedauerlicherweise hat sich eine solche Praxis hierzulande bis heute nicht durchgesetzt.
Abhilfe schaffen könnte ein intensiverer Wettbewerb. Daher ist es zu begrüssen, dass im Verlauf der letzten Jahre in der Schweiz die Anzahl an Meinungsforschungsinstituten zugenommen hat, die politische Umfragen veröffentlichen. Allerdings hat sich in den USA gezeigt, dass ein grosses Angebot die Prognosekraft von Umfragen nicht zwangsläufig verbessert.