Der Signifikanztest in der Wissenschaft, Psychologie, klinischen und Psychotherapieforschung
Numerologisch szientisches Theater - exakte Esoterik zwischen Zahlenspielen, Gaukeln und Betrug?
Originalarbeit von Rudolf Sponsel, Erlangen
Ein Sachverhalt kann zutreffen, und wir können dies richtig oder falsch bewerten oder ein Sachverhalt kann nicht zutreffen, und wir können dies ebenfalls richtig oder falsch bewerten. Mit dieser zweiwertigen Logik ergeben sich grundsätzlich immer vier Möglichkeiten, wovon je nach Voraussetzung zwei richtig und zwei falsch wären. Für alle Bewertungen bei zweiwertiger Logik (richtig, falsch) gelten also folgende Fälle:
Für
den Sachverhalt und die Daten ergibt sich folgende Tabelle:
Sachverhalt / Daten | Die Daten sprechen für richtig | Die Daten sprechen für falsch |
Der Sachverhalt trifft in Wirklichkeit zu | Wahr: Die Daten sprechen für richtig | Falsch: Die Daten sprechen für falsch |
Der Sachverhalt trifft in Wirklichkeit nicht zu | Falsch: Die Daten sprechen für richtig | Wahr: Die Daten sprechen für falsch |
Für die entsprechenden Daten sind angemessene statistische Modelle mit den ihnen angemessenen Verfahren und Prüfhypothesen zu wählen.
Für
den Sachverhalt und die Hypothesen ergibt sich folgende Tabelle
Sachverhalt / Bewertung | Bewertung als richtig | Bewertung als falsch |
Sachverhalt trifft zu (H0) | Richtig positiv bewertet (1-a)
p(Irrtum) < a Þ H0 beibehalten |
Falsch positiv bewertet (a)
p(Irrtum) > a Þ H0 verworfen |
Sachverhalt trifft nicht zu (H1) | Falsch negativ bewertet (b) | Richtig negativ bewertet (1-b) |
In der Statistik
haben diese Fehlerarten bei Unsicherheit besondere Namen. Man nennt den
Fehler, den man begeht, wenn man eine richtige Hypothese verwirft,
Alpha
Fehler. Nimmt man hingegen eine falsche Hypothese als richtig
an, spricht man vom Beta Fehler. Je mehr man den einen Fehler
klein macht, desto größer wird der andere. Welchen Fehler man
wie klein machen sollte, das hängt von der Definition "Sachverhalt"
und vor allem von der Fragestellung ab und kann nicht von vorneherein allgemein
gesagt werden. Sind die Konsequenzen sehr groß, so möchte man
vor allem den Fehler klein machen, der fälschlicherweise einen Sachverhalt
annimmt, auf den eine große Konsequenz - z.B. eine riskante Behandlung
- folgt.
Als Sachverhalt in der Statistik gilt oft, zwischen zwei Größen gibt es keinen Unterschied (Null-Hypothese), also z.B. Frauen werden nicht älter als Männer (was nicht stimmt). Man sagt nun z.B., daß man diese Hypothese dann als richtig annehmen will, wenn die Irrtumswahrscheinlichkeit kleiner dem gewählten Signifikanzniveau a ist. Habe man z.B. eine Irrtumswahrscheinlichkeit mit Alpha a = 0,05 oder 5% gewählt und komme in der Untersuchung nun heraus, daß im konkreten Fall p = 0,078 ist, dann ist diese Wahrscheinlichkeit größer als man vorher bereit war zu akzeptieren: man verwirft die Hypothese relativ zu a = 0,05 weil p= 0,078 > a= 0,05 ist. |
Essential
* Zusammenfassung * Abstract
Ein Signifikanztest gibt die Wahrscheinlichkeit für die (Null-) Hypothese an unter der Voraussetzung, daß die (Null-) Hypothese wahr ist. Er sagt überhaupt nichts aus darüber, welche der Hypothesen denn vorzuziehen oder abzulehnen ist. |
Signifikanz
Kurz-Reader 1: Entscheidungsregel und Bedeutung Signifikanztest
Müller, P.H. (1970). Lexikon Wahrscheinlichkeitsrechnung und mathematische
Statistik. Berlin: Akademie, S. 186.
Falls die Hypothese - gewöhnlich H0 - richtig ist, gibt
a
eine
(Irrtums) Wahrscheinlichkeit für eben dieses Ergebnis für das
gewählte Wahrscheinlichkeits- und Signifikanzmodell an (Bredenkamp
1972, S. 52). Je kleiner das Signifikanzniveau gewählt wird, desto
höher wird das Risiko eines Beta-Fehlers. Das bedeutet nach
Bredenkamp (1972, S. 53), wenn Fachzeitschriften a-signfikante
Arbeiten bevorzugt veröffentlichen, daß:
(b) Im Falle der Richtigkeit von H1: Es werden viele Ergebnisse zurückgewiesen, die für die Alternativhypothese gesprochen hätten, wenn nicht (i durch die Erhöhung des Signifikanzniveaus so groß gewesen wäre.
Diese »Philosophie« führt also zu einer Ausmerzung des statistischen Typ 2-Fehlers, da keine oder nur wenige die Nullhypothese bestätigende Arbeiten in der Zeitschrift aufgenommen werden. Ebenso führt sie aber zur Ausmerzung richtiger Entscheidungen zugunsten der Nullhypothese. Unter den abgelehnten Arbeiten befinden sich dann genau die Artikel, die zu einer richtigen Entscheidung über das Zutreffen der Nullhypothese und zu einer falschen Entscheidung über das Zutreffen der Nullhypothese gekommen sind. Die damit verbundenen Vor- und Nachteile wiegen einander nicht auf. Meistens ist die Beibehaltung der Nullhypothese das einer psychologischen Hypothese widersprechende Ergebnis. Will man überhaupt den Geltungsbereich psychologischer Hypothesen einschränken können, so muß die Wahrscheinlichkeit einer richtigen Entscheidung für die Nullhypothese groß sein. Dies erreicht man dadurch, daß x kleingehalten. wird. Die damit verbundene-Möglichkeit, richtig für die Nullhypothese entscheiden zu können, wird aber durch die Entscheidung, Arbeiten, die diese Hypothese bestätigen, nicht zu publizieren, wieder aufgehoben. Dieser Nachteil wird nicht dadurch ausgeglichen, daß sich unter den abgelehnten Arbeiten auch solche befinden, die fälschlich die Nullhypothese beibehalten haben; denn unter diesen befinden sich einige, die nur deswegen zu diesem Ergebnis geführt haben, weil das Signifikanzniveau so hoch gewählt wurde. Ähnlich verhält es sich mit den angenommenen Arbeiten, Unter ihnen sind Arbeiten, die zu einer richtigen, und Arbeiten, die zu einer falschen Annahme der Alternativhypothese geführt haben."
Signifikanz Kurz-Reader 3: Hager
Montage als GIF-Faksimilie durch Sponsel
Wie meist in der mathematisch orientierten Statistik testet man gegen fiktive Welten oder Hypothesen. Man spielt und inszeniert Testen für hypothetische Fragen in hypothetischen Welten. Tatsächlich und effektiv interessant wäre aber doch die Frage: ist die Nullhypothese richtig, falsch oder so oder so wahrscheinlich? Das ergibt aber gerade der Signifikanztest ja nicht. Der Signifikanztest sagt: wenn die Nullhypothese richtig ist, dann ergibt sich unter dieser Voraussetzung und den Voraussetzungen des gewählten Wahrscheinlichkeits- und Signifikanzmodells für das erzielte Ergebnis eine gewisse Irrtumswahrscheinlichkeit p, die mit dem gewählten Signifikanzniveau verglichen wird. Natürlich kann die Nullhypothese genauso gut falsch sein. Auch dieser Fall wäre in eine vernunftgeleitete Testung einzubeziehen.
Wir
gelangen also zu dem niederschmetternden Ergebnis:
Der Signifikanztest kann seiner Konstruktion nach gar keine vernünftige Entscheidungshilfe sein, welche Hypothese, H0 oder H1 angenommen oder verworfen werden soll, weil sein Ergebnis nur unter der Voraussetzung, daß die Nullhypothese richtig ist, gilt. Das weiß man ja aber gar nicht und es wäre die eigentliche Aufgabe, herauszufinden, welche Hypothesen richtig sind. Erst wenn geklärt ist, daß die Nullhypothese tatsächlich richtig ist, wäre ein Signifikanztest, der eben dieses voraussetzt, eine vernünftige und ergiebige statistische Methode. Der Signifikanztest wird seinem Wesen nach weitgehend unsinnig als Testspiel und scheinwissenschaftliches Theater angewendet. |
Die meisten AnwenderInnen wissen die Voraussetzungen, die in ihre Signifikanzspiele
eingehen, überhaupt nicht. Hierbei sind an folgende Voraussetzungen
zu denken:
Ausführlich
zu den Voraussetzungen bei statistischen Anwendungen besonders in der Psychologie
kontrolliert irs tt.mm.jj