Trau keiner Statistik ...

Trau keiner Statistik ......, die du nicht selbst gefälscht hast. Oder: Evidenzbasierter Absturz, Teil 3 Dass ein medizinischer Wissensgewinn aus Studienergebnissen möglich ist, steht außer Frage. Medizin ist jedoch keine exakte Wissenschaft wie Chemie oder Physik, sondern eine empirische, so dass Statistik bei der Bewertung von Studienergebnissen eine große Rolle spielt und wir immer nur mit einer bestimmten Wahrscheinlichkeit (und somit auch der Möglichkeit uns zu irren) sagen können, ob eine Therapie wirksam oder besser als eine etablierte Behandlung ist. So gibt es unterschiedliche Studiendesigns, wobei es sich eigentlich immer um sogenannte Kohorenstudien handelt: Ber der Beobachtungsstudie wird eine Gruppe von Patienten mit gemeinsamem Merkmal (zum Beispiel einer bestimmten Krankheit) prospektiv beobachtet und klinische Endzustände werden registriert registriert. Der Prognosefaktor ist in diesem Fall die Therapie. Davon unterschieden wird die experimentelle Studie, bei der vorher definierte Bedingungen herrschen, das heißt im Studienprotokoll werden die Auswahl der Probanden (Ein- und Ausschlusskriterien), die Therapiegruppen, das Randomisierungsverfahren, das Follow-up und die Erfassung klinischer und laborchemischer Parameter vorgeschrieben. Man spricht daher auch von einer kontrollierten Interventionsstudie. Durch die festgelegte Studienpopulation wird eine Homogenität der Patientenpopulation erzeugt, die der internen Validität der Studie dient, die Übertragbarkeit der Ergebnisse auf ein allgemeines Patientengut jedoch einschränken kann, so dass sehr eng gefasste Ein- und Ausschlusskriterien der externen Validität schaden, da sie eine Studienbias erzeugen. Hinzu kommt dann noch bei vielen Studien, dass es mehr oder weniger viele Drop-outs oder Patienten gibt, die sich dem Follow-up entziehen, so dass die Zahl der Probanden relativ gering ist, die eine Studie tatsächlich abschließen, gemessen an der Gesamtpopulation aus der die Studienpopulation hervorgeht. Aber auch die Vergleichsgruppe einer kontrollierten Studie, die entweder keine oder die Standardtherapie erhält, ist Effekten unterworfen, die das Ergebnis verfälschen können: Bekannt ist der Placeboeffekt, der sowohl Wirkungen als auch Nebenwirkungen betrifft. Aber Patienten, die im Rahmen einer Studie beobachtet werden, verhalten sich auch ohne spezifische Intervention anders als ohne diese Beobachtung (Hawthorne-Effekt). Das heißt aber, der in einer Studie gemessene Gesamteffekt einer Therapie setzt sich zusammen aus der spezifischen Wirkung der Behandlung, dem Placeboeffekt, dem Hawthorne-Effekt und dem natürlichen Verlauf einer Erkrankung (Stichwort: Spontanheilung). Dass die Auswahl der Studienpatienten eine Rolle spielt, möchte ich an einem Beispiel erläutern. Je "kränker" die eingeschlossenen Fälle sind, umso wahrscheinlicher ist es, auch ohne jede Intervention eine "Verbesserung" zu beobachten. Der Statistiker spricht von Regression to the mean. Dieses Phänomen ist schon lange bekannt: In einer stabilen Häufigkeitsverteilung, die nur zufälligen Schwankungen unterworfen ist, beobachtet man zwangsläufig einen Wechsel von den Randbereichen zur Mitte hin und umgekehrt. Wenn also eine Studie in diesem Randbereich durchgeführt wird (beispielsweise bei Prostatakarzinom-Patienten mit extrem hohen PSA-Werten), wird sich im Rahmen der Verlaufsbeobachtung fast zwangsläufig eine scheinbare Verbesserung ergeben. Auch die Randomisierung sichert eine Gleichverteilung der Beobachtungsgruppen in Bezug auf bestimmte prognostische Faktoren nicht mit absoluter Sicherheit, da nur vergleichtsweise wenige, bekannte Faktoren berücksichtigt werden können. Selbst eine identische Fallzahl in den Gruppen ist nicht zwangsläufig gegeben. Hierzu ein einfaches Experiment: Werfen Sie zehnmal eine Münze und das Ergebnis wird nicht fünfmal Kopf und fünfmal Zahl sein, da die Wahrscheinlichkeit für jede Seite bei jedem Wurf unabhängig von einander 50% ist. Trotzdem macht die Randomisierung Sinn, da eine zufällige Zuteilung sicher stellt, dass keine Gruppe gegenüber einer anderen systematisch im Vorteil ist, weil der Zufall den einzige wirksame Mechanismus bei der Zusammensetzung darstellt. Bei der Auswertung der Studienergebnisse kommt es dann schließlich auf die viel beschworene statistische Signifikanz an, ausgedrückt im sogenannten p-Wert. Aber was ist das? Es geht um die Frage, wie wahrscheinlich ist das Ergebnis der Studie unter der Annahme, dass Therapie A und B gleich wirksam sind (Null-Hypothese). Anders gesagt, wie wahrscheinlich ist der beobachtete Unterschied reiner Zufall. Der Statistiker kann diese Wahrscheinlichkeit anhand der vorliegenden Daten berechnen in in Form des p-Wertes angeben. Wenn also p<0,05 ist, dann ist die Wahrscheinlichkeit, dass beide Therapien hinsichtlich ihrer Wirkung identisch sind geringer als 5% und der Unterschied zwischen A und B wird signifikant genannt. Im Umkehrschluss wird mit einer Wahrscheinlichkeit von unter 5% fälschlich angenommen, eine der Behandlungen sei überlegen (Fehler 1. Art). Nun ist das Problem, dass in den meisten Studien mehrere Hypothesen geprüft werden, indem unter anderem Subgruppenanalysen, Interimsauswertungen und Tests mit mehren Parametern zu unterschiedlichen Zeiten durchgeführt werden. Mit nur zwei Tests an denselben Daten steigt jedoch das Risiko einer falschen Schlussfolgerung (nach der Formel 1 - (1 - 0,05)hoch n, wobei n die Anzahl der Tests ist) bereits auf das Doppelte an. Wenn also 20 statistische Tests mit einem Signifikanzniveau von 0,05 durchgeführt werden, ist das Irrtumsrisiko 64%, bei 50 Tests sogar 92%. Bei einer Studie, in der 50 p-Werte <0,05 angegeben werden, kann also nahezu mit Sicherheit davon ausgegangen werden, dass mindestens eines der angeblich signifikanten Ergebnisse falsch ist. Statistisch abgeholfen werden kann dadurch, dass der p-Wert entsprechend angepasst wird, indem zum Beispiel bei zehn Tests ein Niveau von 0,5% (also p<0,005) zugrunde gelegt wird. Unglücklicherweise ist die Anzahl der durchgeführten Tests bei fast allen publizierten Studien gar nicht bekannt. Hinzu kommt nun noch der Fehler 2. Art, nämlich die Wahrscheinlichkeit einen tatsächlich vorhandenen Effekt nicht zu erkennen, also die Null-Hypothese anzunehmen, obwohl sie nicht zutrifft. Denn auch wenn p>0,05 ist, darf die Null-Hypothese nicht verworfen werden. Hier kommt nun die Power eines Test zum Tragen, das heißt die Wahrscheinlichkeit, einen tatsächlich vorhandenen Effekt auch zu erkennen (die Null-Hypothese also abzulehnen, falls sie tatsächlich nicht zutrifft). Als akzeptierter Standard für die Wahrscheinlichkeit des Fehlers 2. Art hat sich 20% etabliert, so dass in diesem Fall die Power entsprechend 80% ist. Der Fehler 2. Art hängt jedoch von Faktoren wie der Größe des tatsächlichen Effekts, dem Fehler 1. Art sowie der Patientenzahl in der Studie ab. Im Umkehrschluss hängt die benötige Zahl der Patienten von der Effektgröße und den Fehlern 1. und 2. Art ab. Je geringer der Unterschied zwischen zwei Therapieformen ist, umso mehr Probanden braucht man, um ein statistisch signifikantes Ergebnis zu erhalten. Dies ist für die Studienplanung von entscheidender Bedeutung. Um Studien wirtschaftlich durchführen zu können, werden jedoch häufig die Unterschiede zwischen den Therapiegruppen optimistisch geschätzt. Negative Studienergebnisse können daher einfach auch Folge einer zu kleinen Studienpopulation sein und haben nichts damit zu tun, dass die Behandlungen gleichwertig sind. Die häufig in Publikationen gezogene Schlussfolgerung, dass bei p>0,05 kein Unterschied besteht, ist daher unzulässig. Es konnte nur kein signifikanter Unterschied festgestellt werden, die Null-Hypothese also nicht verworfen werden. Nicht mehr und nicht weniger. Wie kann man also Studienergebnisse sinnvoll bewerten? Hier ein paar Anhaltspunkte:

Handelt es sich um eine Originalarbeit oder zitierte Ergebnisse?

Wie sieht die Studienpopulation aus (Ein- und Ausschlusskriterien) und kann man diese verallgemeinern?

Welches Studiendesign wurde gewählt (experimentell, randomisiert, verblindet, prospektiv) und welche die Endpunkte definiert?

Wie werden die Ergebnisse präsentiert (nur Mittelwerte oder auch Konfidenzintervalle)?

Sind die Fallzahlen konsistent und ausreichend?

Stimmen die getesteten Prameter mit den vorher definierten Studienzielen überein?

Wurden die p-Werte bei Mehrfachtestungen adjustiert und sind exakte Werte angegeben?

Stammt ein positives oder negatives Ergebnis aus einer End- oder Zwischenauswertung und war diese geplant oder ungeplant?

Wurden korrekte Schlussfolgerungen gezogen?

Es bleibt also schwierig. Medizinstatistik gehörte übrigens im Studium nicht zu meinen Lieblingsfächern, doch den Besuch eines Good Clinical Pracice (GCP) Kurses kann ich durchaus empfehlen, selbst wenn man keine Studien durchführen möchte.