Prekäre Beziehung: Statistik und Journalisten

Als Sozialwissenschaftler freut man sich ja, wenn im Feuilleton nicht nur theoretisch analysiert (und gelegentlich nur subjektiv schwadroniert), sondern auch einmal ein empirischer Forschungsstand diskutiert wird. Insofern ist der Beitrag von Tobias Kniebe im Feuilleton der SZ vom 8./9.01.2011 (in der Print-Version mit zahlreichen Grafiken und unter dem Titel „Der Männerbund des Thilo Sarrazin“, zur Darstellungsform siehe AusschnittsfotoAusschnitt aus Print-Version mit Grafiken) eine schöne Sache: Die Sarrazin-Debatte wird innovativ aus einem ganz anderen Blickwinkel betrachtet, nämlich über das soziale Profil der Leserinnen und Leser seines Buches „Deutschland schafft sich ab“. Bei genauerem Hinsehen zeigen sich aber einmal mehr ganz erhebliche Fehlinterpretationen der Daten, die ich an einem Ausschnitt mal kurz illustrieren möchte:

Basis der Auswertung ist die vierteljährliche Auswertung eines GfK-Panels zum Bücher-Kaufverhalten der Deutschen. Da die Primärdaten nicht veröffentlicht sind, sondern nur die Auswertung durch die SZ (deren Dokumentation nicht wissenschaftlichen Ansprüchen genügt), kann man die Qualität der Auswertung nur grob abschätzen. Geht man davon aus, dass sich die Grundgesamtheit auf ca. 60 Mio. (erwachsene) Deutsche bezieht, daraus eine zufällige Auswahl an 10.000 Personen befragt wurde und dass vom Sarrazin-Buch zum Analysezeitpunkt 1,2 Mio. Exemplare verkauft wurden (falls jeder Käufer nur 1 Exemplar erworben hat, maximal 2,2 % der Bevölkerung), ist zu erwarten, dass sich im Datensatz gut 200 Sarrazin-Käufer befinden, die analysiert werden können.

Damit kommt man zu Problem 1: Diese Fallzahl reicht zwar durchaus, um sich einen groben Überblick zu verschaffen, aber sie ist zu klein, um minimale Abweichungen vom Bevölkerungsdurchschnitt sinnvoll interpretieren zu können. Zwei befragte Personen machen ja gleich 1 % aller Sarrazin-Leser aus; Wenn die Daten nun sagen, dass 4 % weniger der Sarrazin-Leser hedonistisch veranlagt sind, als der Bevölkerungsdurchschnitt, kann das (wir wissen leider nicht genau, bei welcher absoluten Prozentzahl dieser Durschnitt liegt) durch nur zwei oder drei Personen mehr zustande kommen, die ein solches Hedonismus-Item abgelehnt haben. Die Wahrscheinlichkeit, dass das eine zufällige Abweichung ist, die bei einer anderen Zufallstichprobe ganz anders aussehen kann, ist hoch. Diese Wahrscheinlichkeit wäre anhand der Primärdaten auch sehr einfach zu berechnen und sollte eigentlich bei einer solchen Analyse auch dokumentiert werden.

Dies leitet zugleich zu Problem 2 über: es werden nämlich nur relative Verteilungen dokumentiert (prozentuale Abweichung vom – unbekannten – Bevölkerungsdurchschnitt). Diese Verhältnisse sind aber stark davon abhängig, wie groß die absolute Basis ist (die nicht dokumentiert ist). Die Aussage, unter den Sarrazin-Käufern seien 40 % mehr SZ-Leser als in der Gessamtgesellschaft, klingt erstmal deutlich. Allerdings lesen in Deutschland nur etwa 1,2 Mio. Menschen die SZ (ca. 0,84 % der über 14-jährigen Bevölkerung); hochgerechnet (Pi mal Daumen) heißt das, dass von den Sarrazin-Käufern etwa 1,17 % SZ lesen, im Vergleich zu 0,84 % in der Gesamtbevölkerung. Daraus den Schluss zu ziehen, die Sarrazin-Leser seien SZ-affin, geht doch etwas zu weit, den auch in dieser Gruppe lesen eben fast 99 % keine SZ. Ob dieser Unterschied aufgrund der o.g. kleinen Stichprobe (bezogen auf die höchstens 220 untersuchten Sarrazin-Käufer kann der Unterschied sich in kaum mehr als einem zusätzlichen SZ-Leser maniferstieren …) signifikant und damit tatsächlich auf alle Deutschen hochrechnen lässt, muss man darüber hinaus stark bezweifeln.
Das Grundproblem dieser Analyse relativer Verteilungen ist, dass diese umso größer ausfallen können, je kleiner die absoluten Ausgangswerte sind: Da die Zahl der Leser der „Frankfurter Allgemeinen Sonntagszeitung“ noch kleiner als die der SZ ist (< 1 %), gehört nicht viel dazu, in einer ohnehin kleinen Teilgruppe der Sarrazin-Leser einen fast fünffach größeren (+ 474 %) Leseranteil zu identifizieren: statt 0,9 % in der Gesamtbevölkerung sind es 4,6 % – aufgrund der kleinen Fallzahl in der Datenerhebung ein Unterschied von schätzungsweise 2 zu 10 Befragten.

Macht man sich diese Probleme klar, kann man manche Interprationen des Autors im Text nur naiv nennen, denn die Unterschiede zwischen den Sarrazin-Käufern und der Gesamtbevölkerung werden von ihm eben gerade anhand der besonders starken – aber wie oben gezeigt eben auch weitgehend irrelevanten – Unterschieden festgemacht. Dadurch entsteht ein zumindest in Teilen völlig realitätsfernes Bild des am Frühstückstisch FAS lesenden, im Fernsehen Bauerntheater sehenden älteren Mannes, der zwar karrieregeil aber risikoscheu ist.

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s