Das games & business-Interview zum Glücksspiel-Survey in voller Länge

Der „Glücksspiel-Survey 2021“ vermittele seinen Lesern eine „Daten- und Erkenntnissicherheit, die schlicht nicht gegeben und wissenschaftlich fragwürdig ist“. Zu diesem Schluss kam Top-Statistikerin Katharina Schüller (Foto) in ihrem wissenschaftlichen Gutachten zum Survey. Die Survey-Autoren reagierten und auch von Schüller gab es eine Replik, in der sie unter anderem eine öffentliche Diskussion fordert. games & business berichtete ausführlich. Vor allem aber fragten wir bei Katharina Schüller nach, warum die Daten nicht belastbar sind. Das Interview erschien in unserer Oktober-Ausgabe. Und hier jetzt auch – in voller Länge – online. „Wenn Sie herausfinden wollen, wie hoch der Anteil von Erkälteten im Oktober ist, dann sollten Sie einen repräsentativen Querschnitt der Bevölkerung durchzählen und nicht das Wartezimmer Ihres Hausarztes“, führt Schüller unter anderem aus. Und erläutert weitere Punkte, die für sie diskussionswürdig sind.

games & business: In Ihrer Beurteilung des Glücksspiel-Surveys kommen Sie zu dem zusammenfassenden Schluss: „Der Glücksspiel-Survey 2021 ist zur Erreichung der Mehrheit seiner Ziele wegen des untauglichen Untersuchungsdesigns nicht geeignet. Seine Ergebnisse bilden aufgrund fehlender Präzision und Intransparenz keine belastbare Entscheidungsgrundlage hinsichtlich der Bewertung und Anpassung gesetzlicher Regelungen im Glücksspielbereich.” Haben die Survey-Autoren so ziemlich alles falsch gemacht, was man falsch machen kann?

Katharina Schüller: Wenn die Survey-Autoren eine belastbare Entscheidungsgrundlage für den Gesetzgeber liefern wollten, dann haben sie das in der Tat ziemlich unglücklich angepackt. Das heißt nicht, dass ihre Daten für Forschungszwecke völlig wertlos sind. Aber sie eignen sich nun einmal nicht für Hochrechnungen auf die Bevölkerung oder gar für Aussagen darüber, was denn nun Glücksspielprobleme verursacht und wie die Glücksspielregulierung ausgestaltet sein muss, um vor möglichen negativen Auswirkungen zu schützen. Selbst mit einer detaillierteren und komplexeren statistischen Auswertung als den rein deskriptiven Auswertungen im Survey könnte man die gesuchten Antworten aus den Daten nicht gewinnen.

Dem interessierten Beobachter – aber Laien in Sachen Statistik – ist eine Sache beim Survey sofort aufgefallen: der drastische Anstieg der Zahlen von problematischen Spielern im Vergleich zu den Untersuchungen der Bundeszentrale für gesundheitliche Aufklärung. Hat die BZgA jahrzehntelang falsch gezählt?

Das Problem ist: Komplexe Phänomene wie Glücksspielprobleme können Sie nicht zählen wie Menschen, die gerade eine Erkältung haben. Man muss sich erstmal auf eine Definition einigen und dann darüber, wie man diese Definition möglichst gut messen kann. Die BZgA hat ein anderes Messinstrument benutzt und auch eine andere Grenze gesetzt, ab wann individuelles Spielverhalten als problematisch zu bewerten ist. Es ist nicht die Aufgabe von uns Statistikern, ein Urteil darüber zu fällen, welches Instrument absolut gesehen „besser“ ist. Dafür gibt es Glücksspielforscher. Statistiker sind aber Profis darin zu beurteilen, ob ein Instrument richtig eingesetzt wurde. Wenn Sie herausfinden wollen, wie hoch der Anteil von Erkälteten im Oktober ist, dann sollten Sie einen repräsentativen Querschnitt der Bevölkerung durchzählen und nicht das Wartezimmer Ihres Hausarztes. Auch kommen Sie zu belastbareren Ergebnissen, wenn Sie die Menschen direkt untersuchen und sie nicht erst im Dezember fragen, ob sie im Oktober eine Erkältung hatten.

Was hat der Glücksspiel-Survey anders als die BZgA gemacht?

Der Glücksspielsurvey hat im Wesentlichen drei Dinge anders gemacht. Die Teilnehmer für die Studie wurden anders ausgewählt; statt einer rein telefonischen Befragung gab es nun auch eine Online-Befragung. Das klingt für den Laien erst einmal modern und zeitgemäß, eine Online-Befragung ist aber auch mit immensen methodischen Herausforderungen verbunden, und die wurden nicht genügend beachtet. Dann wurde ein anderes Messinstrument für problematisches Spielverhalten verwendet, DSM-5, das eigentlich dafür entwickelt wurde, bei einer individuellen Untersuchung herauszufinden, ob ein Mensch wegen seines Glücksspielverhaltens Hilfe braucht. Die Survey-Autoren schreiben selbst in einer anderen Publikation, dass DSM-5 für ein breit angelegtes „Screening“ der Bevölkerung möglicherweise nicht so gut geeignet ist. Schließlich haben sie bei der Anwendung ihres Messinstruments den Grenzwert, ab wann ein Spielverhalten als problematisch eingestuft wird, abgesenkt. Das wurde davor in keiner vergleichbaren Untersuchung so gemacht. Um nochmal das Beispiel der Erkältungen aufzugreifen: Von Fieber geht man ab einer Körpertemperatur von 38 °C aus, darunter spricht man üblicherweise von erhöhter Temperatur. Die Survey-Autoren sagen nun: Alles ab 37,5 °C ist Fieber. Dass sich dann die erhobene Zahl der Problemspieler massiv erhöht – und diese Sensationsmeldung natürlich von vielen Stellen aufgegriffen wird – ist logisch, aber diskussionswürdig.

So, wie es der Glücksspiel-Survey gemacht hat, liefert das nach Ihrer Analyse „keine valide und präzise Datenbasis in Bezug auf das Glücksspielverhalten in Deutschland”. Die Zahlen sind also falsch?

Die Zahlen sind unpräzise, das ist der Knackpunkt. Vielleicht gibt es den einen oder anderen Zufallstreffer, aber das wäre nicht das Ergebnis eines systematisch korrekten Erhebungsprozesses. Mein Kritikpunkt ist, dass die „Qualität by Design“ fehlt. Sie können das vergleichen mit einem Automatenhersteller, der sich an die Industrie-Norm DIN ISO 9001 zur Qualitätssicherung hält. Wenn Sie einen solchen Standard anwenden, kann zwar trotzdem ab und zu ein vereinzelter Produktionsfehler herauskommen, aber Sie haben zumindest im Prozess alles richtig gemacht und sie können sich auf die Qualität ihrer Ergebnisse weitgehend verlassen. Das ist beim Survey konstruktionsbedingt nicht der Fall. Man kann nicht einmal abschätzen, wie weit man denn schlimmstenfalls neben der Wahrheit liegt, das heißt, wie schwerwiegend die Verzerrungen in den Daten sind. Deswegen kann man es auch nicht sauber korrigieren.

Wo ist/sind der/die (Haupt-)Fehler?

Erstens ist es hoch problematisch, dass der Survey in Teilen auf einem Online-Panel beruht, das „nichtprobabilistisch“ ist. Das klingt furchtbar technisch, meint aber nur, dass Sie nicht kontrollieren können, wer eigentlich teilnimmt. Sie verlassen sich also darauf, dass Ihre „Datenlieferanten“ die Grundgesamtheit gut abbilden, ohne dass Sie eine Lieferantenkontrolle auch nur durchführen können. Denn Sie wissen schlicht nicht, wer sich in Ihrem Auswahl-Pool befindet und ob Sie damit die Realität aller möglichen „Lieferanten“ gut abdecken. Statistik-Experten nennen das deshalb den „Coverage-Fehler“. Es gäbe übrigens durchaus Möglichkeiten, Online-Befragungen durchzuführen, bei denen Sie dieses Problem der fehlenden Kontrolle vermeiden. Zweitens haben gerade in dem Online-Panel 90 Prozent der erreichten Personen gar nicht reagiert oder nur unvollständige Angaben gemacht. Das ist ein wahnsinnig hoher Wert, über den die Survey-Autoren in ihren Ausführungen einfach hinweggehen. Man weiß aber sehr genau, dass sich Nicht-Antwortende gerade bei sensiblen Themen von den Antwortenden unterscheiden, und das oft erheblich. Auch das, der sogenannte „Nonresponse-Fehler“, wurde nicht kontrolliert. Drittens kann die Tatsache, dass die Befragten die Fragen vermutlich nicht allesamt gleich verstanden haben, zum sogenannten „Measurement-Fehler“ führen. Deswegen sollte man solche Fragebögen in einem Pre-Test auf ihre Güte, die sogenannte Validität und Reliabilität, prüfen. Die Autoren haben uns mitgeteilt, dass sie das gemacht hätten, aber wie genau, wollten sie nicht offenlegen, obwohl wir darum gebeten haben.

Wäre eine Fortsetzung der Erhebungen nach der Methode der BZgA besser und als politische Handlungsgrundlage solider gewesen?

Eine solche Fortsetzung würde zumindest dafür sorgen, dass man die Ergebnisse der Erhebungen im Zeitverlauf vergleichen kann. Würde sich zeigen, dass es keinen signifikanten Anstieg von Menschen mit Glücksspielproblemen gab, dann hätte man starke Indizien dafür, dass die im Vergleich überraschend hohen Zahlen des Surveys nur auf Instrument und Befragungsmethodik zurückzuführen sind. Allerdings waren auch die BZgA-Erhebungen, von denen die letzte im Jahr 2019 stattfand, immer nur Querschnittsstudien, also Zustandsbeschreibungen zum Zeitpunkt der jeweiligen Erhebung. Auch aus ihnen lassen sich definitiv keine Schlüsse ziehen, warum ganz bestimmte Menschen Glücksspielprobleme entwickeln und andere nicht, ob es tatsächlich Frühindikatoren dafür gibt und – am wichtigsten – ob und wie man solchen Problemen durch eine kluge Regulierung vorbeugen kann. Dafür bräuchte es aufwendige, teure und lang angelegte Längsschnittstudien, bei denen über einen längeren Zeitraum immer wieder die identischen Personen befragt werden. Gute Daten sind teuer. Aber sie sind preiswert, verglichen mit Daten, die Sie nicht zweckbestimmt nutzen können.

Sie stellen fest, die Survey-Autoren hätten auf eine transparente und umfangreiche Diskussion der Aussagekraft sowie der Limitationen ihrer Arbeit verzichtet. Was hätten die Autoren Ihrer Meinung nach tun müssen?

Sie hätten im Survey selbst das tun müssen, was sie erst in viel später erschienenen, nur im kleinen Kreis der Wissenschaft wahrgenommenen Publikationen gemacht haben: Klarstellen, wo die Schwächen ihrer Studie liegen. Dazu gehören ehrliche Aussagen über mögliche Fehlerquellen wie Coverage-Fehler und Nonresponse-Fehler. Aber auch darüber, warum eben der Wechsel zu DSM-5 und insbesondere die Ausweitung der Gruppe der „Problemspieler“ nicht alternativlos waren. Es ist völlig legitim zu sagen, wir haben Vor- und Nachteile abgewogen und dann eine Entscheidung für unsere Methode getroffen. Aber so zu tun, als gäbe es gar keine Nachteile, halte ich für kritisch. Der Survey vermittelt seinen Lesern hingegen eine Daten- und Erkenntnissicherheit, die schlicht nicht gegeben und wissenschaftlich fragwürdig ist.

Warum ist eine solche Diskussion so wichtig – die im Zweifel doch auch nur von Fachkreisen wahrgenommen worden wäre?

Als der Survey Anfang 2022 veröffentlicht wurde, war die Aufmerksamkeit bei Politik und Medien, also gerade außerhalb der wissenschaftlichen Zielgruppe, sehr groß. Mit den Survey-Ergebnissen wurde seitdem vielfach politisch argumentiert und es wurden von verschiedenen Akteuren politische Schlussfolgerungen aus ihnen gezogen, die aber von den Daten gar nicht gedeckt sind. Solche Interpretationsfehler hätten die Survey-Autoren verhindern können, hätten sie von Beginn an die Limitationen ihrer Untersuchung offen angesprochen, wie es guten wissenschaftlichen Gepflogenheiten entspricht. Warum sie darauf verzichtet haben, wissen wir nicht. Wenn Sie als politischer Entscheidungsträger oder Journalist jedoch nicht einmal wissen, dass die Ergebnisse gewissen Einschränkungen unterliegen, dann haben Sie keine Chance, kritisch nachzufragen und sich im Zweifel erklären zu lassen, was diese Einschränkungen praktisch bedeuten.

Gibt es weitere wissenschaftliche Standards, die nicht eingehalten wurden?

Es ist gute wissenschaftliche Praxis, anonymisierte Daten, Codebuch und Fragebogen für Dritte bereitzustellen. Immer mehr wissenschaftliche Fachzeitschriften schreiben das sogar vor, um die Qualitätssicherung innerhalb der Forschung zu ermöglichen. Die Deutsche Forschungsgemeinschaft DFG betont ganz explizit die Wichtigkeit der sogenannten FAIR-Prinzipien in ihren „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“, das heißt, Forschungsdaten und zentrale Materialien sollten „findable“, accessible“, „interoperable“ und „re-usable“ sein. Viele Autoren stellen deshalb ihre Unterlagen frei zum Download bereit, andere tun dies „auf Anfrage“. Die Autoren des Glücksspiel-Surveys haben den zweiten Weg gewählt, auf unsere Anfrage hin aber keine Daten zur Verfügung gestellt. Natürlich war zu erwarten, dass wir uns kritisch mit den Daten und Ergebnissen auseinandersetzen würden – aber das ist schließlich der Sinn des Ganzen: „Zu den Prinzipien gehört es […], alle Ergebnisse konsequent selbst anzuzweifeln sowie einen kritischen Diskurs in der wissenschaftlichen Gemeinschaft zuzulassen und zu fördern“, schreibt die DFG. Ich muss fast ein wenig schmunzeln, dass in diesem Kontext argumentiert wurde und wird, wir hätten ja lediglich ein „Auftragsgutachten“ für Akteure der Glücksspielbranche verfasst. Der Glücksspiel-Survey selbst ist schließlich auch von einem Akteur der Glücksspielbranche, dem Deutschen Lotto- und Totoblock, beauftragt. Als Wissenschaftler sollten beide Seiten in der Lage sein, unabhängig von den Interessen ihrer Auftraggeber erkenntnisorientiert zu arbeiten und in einen konstruktiven Dialog zu treten, statt einander zu diffamieren.

Es geht also um die Aussagekraft der Ergebnisse.

Und der Schlüssel dazu ist die methodischen Kompetenz, wenn es um die Gewinnung von aussagekräftigen Daten geht. Ich spreche dabei von der Aussagekraft mit Blick auf evidenzbasierte Politik: Wie kommen wir zu präzisen Daten über ein komplexes Phänomen, die belastbare Schlüsse auf die Gesamtbevölkerung zulassen? Das erfordert die Expertise von Survey-Statistikern. Die Survey-Statistik ist ein hoch anspruchsvolles und dynamisches Forschungsgebiet, in dem unser wissenschaftlicher Berater, Prof. Dr. Ralf Münnich, zu den führenden Experten weltweit zählt. An sich ist es nicht verwerflich, sich in diesem Gebiet nicht so gut auszukennen. Mangelnde Kenntnisse darin haben sicher auch damit zu tun, dass Survey-Statistik selbst in Statistik-Studiengängen kaum gelehrt wird. Kritisch wird es dann, wenn Sie glauben, dass es hier ja „nur“ um Statistik ginge und man mit eher allgemeinen methodischen Kenntnissen eine solche Aufgabe lösen könnte. Gerade wenn es um Gesetzgebung geht, liegen die Anforderungen an die Datengrundlagen so hoch und man kann so gravierende Fehler machen, dass man sich dafür Experten ins Team holen muss. Anders geht es nicht.

Bild: © E+A Fotografie/Tanja Smith