Internet Publikation für
Allgemeine und Integrative Psychotherapie
(ISSN 1430-6972)
IP-GIPT DAS=31.01.2004
Internet-Erstausgabe, letzte Änderung 10.10.12
Impressum:
Diplom-PsychologInnen Irmgard Rathsmann-Sponsel und Dr. phil. Rudolf Sponsel
Stubenlohstr.
20 D-91052 Erlangen Mail:
sekretariat@sgipt.org_Zitierung
& Copyright
Anfang_
Cronbachs
alpha_
Überblick_
Rel.
Aktuelles _
Rel.
Beständiges_
Titelblatt_
Konzept_
Archiv_
Region_
Service
iec-verlag_ _ _
Wichtige
Hinweise zu externen Links und Empfehlungen_
Willkommen in der Abteilung Wissenschaft
unserer Internet-Publikation GIPT 1)
, Bereich Meß- und Testtheorie, hier speziell zum Thema:
Cronbachs alpha
Von der numerologischen Kunst,
eine "Reliabilität" aus dem Nichts zu zaubern
von Rudolf Sponsel, Erlangen
Zu den großen Träumen der Hollywood-TestologInnen gehört,
mit einem Minimum an Arbeit ein Maximum an Erkenntnis zu gewinnen, am besten
aus 0 und Nichts. Aus dem Nichts eine virtuelle Realität zu illusionieren
ist die hohe Kunst der ZaubererInnen, der GauklerInnen und TrickbetrügerInnen.
Obwohl für die Goldmedaille in dieser Disziplin ohne Zweifel die Psychoanalyse
eine ständige Kandidatin ist, allen voran Altmeister Freud, ist ihr
die numerologische Testtheorie dicht auf den Fersen und liegt womöglich
sogar gleich auf. Dunlap sprach zum 25-jährigen Jubiläum mehr
ironisierend als selbstkritisch von "PSYCHOMETRICS - A SPECIAL CASE OF
THE BRAHMAN THEORY" (Psychometrika 26,1,1961, p.65). Er ahnte wohl nicht,
wie sehr er damit wirklich ins Schwarze traf. Zu den absoluten "brahmanischen"
Meisterleistungen gehören die numerologischen Phantasien, die Genauigkeit
und Zuverlässigkeit eines Tests nur aus sich sich selbst heraus
zu schätzen. Das scholastische Mittelalter hätte wirklich seine
Freude an diesen Produkten amerikanischer
"Elite"-Universitäten. Ein solches illusionäres Produkt ist
ohne Zweifel Cronbachs alpha:
Quelle: https://www.ats.ucla.edu/stat/spss/faq/alpha.html
My Coefficient alpha is Negative!. By David P. Nichols:
https://www.ats.ucla.edu/stat/spss/library/negalpha.htm
references: Hays, W. L. (1981). Statistics (3rd Ed.).
Holt, Rinehart and Winston.
Lord, F. M., & Novick, M. R. (1968). Statistical
theories of mental test scores. Reading, MA: Addison-Wesley.
rm entspreche r quer =: Mittelwert der Inter-Korrelationskoeffizienten
N =: Anzahl der Items (Fragen, Testaufgaben)
Beispiele: |
N |
rm |
N*rm |
1+(N-1)*rm |
alpha |
01 |
1000 |
0,5 |
500 |
500,5 |
0,999 |
02 |
1000 |
0,1 |
100 |
100,9 |
0,991 |
03 |
100 |
0,1 |
10 |
10,9 |
0,917 |
Was
heißt das nun, was bedeutet diese Formel ?
Man sieht der Formel sofort an (siehe bitte Beispiele), (1) daß
die Reliabilität sehr groß, praktisch maximal wird, wenn N sehr
groß wird, und zwar praktisch unabhängig davon, wie groß
der mittlere Korrelationskoeffizient (rm)
ist. An sich ein völliger und mehrfacher Unsinn, weil (2) mit zunehmenden
Itemzahlen sowohl die Anzahl von Dimensionen als auch die Fehlermöglichkeiten
real steigen. Obwohl also die Meßgenauigkeit durch zunehmenden Verlust
der Eindimensionalität und Zunahme der Fehler weniger werden muß,
wird sie nach dieser Formel in jedem Fall und immer erhöht völlig
unabhängig davon, wie die Realität beschaffen ist. (3) Ein weiterer
Unsinn dieser Konstruktion ist, daß die Reliabilität negativ
werden kann, wenn der mittlere Korrelationskoeffizient negativ wird, wobei
(4) die Mittelungsprozedur selbst schon problematisch ist und auch gar
nicht begründet wird, jedenfalls nicht im Beispiel des Begleittextes
des
Statistikpaketes SPSS. (5) Der
erste grundsätzliche und kardinale Unsinn zeigt sich aber in der völlig
absurden
Idee, daß die Meßgenauigkeit eines Tests von der Inter-Korrelation
seiner Items abhängen soll. Weil wir doch (6) auch noch wissen, daß
eine Korrelation zwischen zwei
Variablen i und j die Korrelation zwischen i und j und der mit i
und j verbundenen Variablen bedeutet, was ganz leicht durch Partialisieren
gezeigt werden kann ("Scheinkorrelation" Typ Storchenenester).
(7) Der zweite grundsätzliche und kardinale Fehler besteht in der
absurden Grundidee, daß ein Test eine Reliabilität
habe, die sozusagen gleichermaßen auf alle Einzelfälle unterschiedslos
angewendet werden darf. Tatsächlich hat jede ProbandIn ihre eigene
individuelle Reliabilität, die es im konkreten Einzelfall realistisch
zu schätzen gilt. Die Reliabilität ergibt sich aus dem Zusammentreffen
der jeweiligen individuellen ProbandIn mit dem Test und kann
nicht unabhängig vom konkreten Einzelfall in eine Eichstichproben-Test-Reliabilität
verlagert werden.
Bemerkt sei außerdem, daß die Vorläuferarbeit
von Kuder & Richardson (1937) die Eindimensionalität
der Inter-Korrelationsmatrix, also ein Generalfaktormodell mit Rang 1 voraussetzt.
Cronbachs alpha ist wie die ganze sog. "klassische"
Testtheorie der amerikanischen TestologInnen blanke wunschgeleitete Test-Numerologie
und durch nichts anderes begründet als durch einen Willkür- Beschluß
einiger der psychologischen Realität völlig Entrückter.
Hier wird nicht gemessen, hier wird auch nicht vernünftig begründet,
hier wird ausschließlich - per fiat - numerologisch
verfügt. Doch warum? Wie ist es möglich, daß sich ein solch
methodologisch fragwürdiger Unsinn nun über ein halbes Jahrhundert
hält und Generationen von PsychologiestudentInnen aufgenötigt
wird? Und nicht nur das: Psychologische Tests werden zur Auslese, für
Eignungsuntersuchungen, gerichtliche Fragestellungen (die Urteile nach
sich ziehen), zur (Differential-) Diagnostik u.a., also für viele
folgenreiche Entscheidungsprozesse herangezogen. Doch der Unsinn ist sehr
praktisch, angenehm und daher beliebt und so hält er sich bis auf
den heutigen Tag mit fadenscheinigen Pseudorechtfertigungen (10.10.12).
Literatur
-
Brown, W. (1910). Some
experimental results in the correlation of mental abilities. British Journal
of Psychology, 3, 296-322.
-
Cortina, J. M. (1993). What is coefficient
alpha? An examination of theory and applications. Journal of Applied Psychology,
78, 98–104. [PDF]
-
Cronbach, L. J.
(1951). Coefficient alpha and the internal structure oft tests. Psychometrika,
16, 297-334.
-
Cronbach,
L.J.; Schönemann, P. & McKie, D. (1965). Alpha coefficients for
stratified parallel tests. Educational and Psychological Measurement, 25,
291-312.
-
Cronbach,
Lee J. (2004). My Current Thoughts On Coefficient Alpha And Successor Procedures.
Editorial Assistanceby Richard J. Shavelson. Educational and Psychological
measurement, 64,3, 391-418. [Anmerkung]
-
Cureton, Edward E. (1958). Die Definition
und Schätzung der Zuverlässigkeit eines Tests. In (160-186) Wewetzer
(1981).
-
Guttman, L.
A. (1945). A basis for analyzing test-retest reliability. Psychometrika,
10, 255-282.
-
Henson, R. (2001). Understanding Internal Consistency Reliability Estimates:
A Conceptual Primer on Coefficient Alpha. Measurement and Evaluation in
Counseling and Development, 34(1), 177–189.
-
Holm, Kurt (2000). Almo Statistik-System
Handbuch. P30 Faktorenanalyse, Nominale Faktorenanalyse, Multiple Korrespondenzanalyse.
Leonding. Ausführung zu Cronbachs
Alpha.
-
IBM: Cronbach's Alpha (CATPCA
lgorithms)
-
Kistner, Emily O. & Muller, Keith E. (2004). Exact Distributions
Of Intraclass Correlation And Cronbach's Alpha With Gaussian Data And General
Covariance. Psychometrika, Vol. 69, No. 3, 459-474.
-
Kuder, G. F.
& Richardson, M. W. (1937). The Theory of the estimation of test reliability.
Psychometrika, 2, 151-160.
-
Moosbrugger,
Helfried & Kelava, Augustin (2012, Hrsg.). Testtheorie und Fragebogenkonstruktion.
Berlin: Springer.
-
Psychometrika: https://www.psychometrika.org/
-
Novick, M. R. & Lewis, C. (1967). Coefficient alpha and the reliability
of composite measurements. Psychometrika, 32:1
-
Schermelleh-Engel, Karin & Werner,
Christina S. (2012). 6 Methoden der Reliabilitätsbestimmung. In (120-141):
Moosbrugger et al. (2012).
-
Schmitt, N. (1996). Uses and Abuses of Coefficient Alpha. Psychological
Assessment, 8(4), 350–353.
-
Sijtmas, K. (2009). On the Use, the Misuse, and the very limited usefulness
of Cronbach’s alpha. Psychometrika, 74(1), 107–120.
-
Spearman, C. (1910). Correlation calculated with faulty data. British Journal
of Psychology, 3, 271-295.
-
Wewetzer, Karl-Hermann
(1981, Hsrg.). Experiment - Test - Befragung. Darmstadt: WBG.
-
Zinbarg, R., R. W.; Yovel, I. & W. Li, W. (2005). Cronbach’s
Alpha, Revelle’s Beta, and McDonald’s Omega: Theirelations with Each Other
and Two Alternative Conceptualizations of Reliability. Psychometrika, 70,
123–133.
Fußnoten
1) GIPT= General and
Integrative
Psychotherapy,
internationale Bezeichnung für Allgemeine und Integrative Psychotherapie.
____
per fiat: Orth, B. (1974). Einführung
in die Theorie des Messens. Stuttgart: Kohlhammer. S.
41: "Das über die Skalierungsverfahren Gesagte gilt sinngemäß
auch für psychologische Tests. Diese sind auch 'Meßverfahren
per fiat' genannt worden (Torgerson, 1958; Pfanzagl, 1968; Fischer, 1970),
da sie auf dem Glauben beruhen, daß die jeweilige Eigenschaft
meßbar sei, und daß Tests zur Messung auf Intervallskalenniveau
führten. Ein weiterer Unterschied zwischen Meßstrukturen und
Tests besteht darin, daß bei letzteren nicht ein empirisches Relativ
in ein numerisches, sondern ein numerisches Relativ in ein anderes numerisches
Relativ abgebildet wird. Es werden (numerische) Testrohwerte in numerische
Testwerte abgebildet bzw. transformiert. Für eine Messung mit Hilfe
von Tests auf Intervallskalenniveau sind die meßtheoretischen Grundlagen
erst noch zu entwickeln. ..."
Zusätzliche kritische
Anmerkung: Falls Rohdaten nicht normalverteilt sind, führen die Transformationen
vom Typ STANINE oder T-WERTen zu regelrechten Rohdaten-Ergebnisfälschungen.
___
amerikanische "Elite"-Universitäten
z.B. die 'Großfürsten der numerologischen Testtheorie'
- Gulliksen, Lord & Novick - haben u.a. sämtlich in Princeton
gelehrt.
___
Eindimensionalität
als Voraussetzung ? Bemerkenswerterweise wird in der Vorläufer-,
Grundlagen- und Hintergrundarbeit von Kuder & Richardson (1937) die
Eindimensionalität der Inter-Korrelationsmatrix vorausgesetzt, d.h.
sie muß nach diesen Autoren den Rang 1 haben (p.153 [Case I], p.
155 [Case II], p. 156 [Case III], p. 158 [Case IV]): "In one of the
possible solutions suggested it is assumed that the matrix of inter-item
correlations has a rank of one.", was einem zutreffenden Generalfaktormodell
entspräche. Dies ist angesichts der Realität eine geradezu lächerliche
und völlig abwegige Forderung, wie empirisch in jedem Einzelfall durch
eine Eigenwertanalyse leicht gezeigt werden
kann.
___
Anmerkung. Der Artikel ist mehr eine
Jubelschrift in Gedenken an das 50jährige Jubiläum 2001 [warum
Shavelson im Editoral 1997 schreibt, bleibt unverständlich, weil der
Artikel
ja
1951 erschien]. Wichtiger hingegen ist, dass der Rückblick Cronbachs
leider wenig erhellendes, schon gar nichts Kritisches enthält :
___
10.10.12: Der Unsinn wird streng tradiert
von der akademischen Testnumerologie, z.B. jüngst erst wieder von
Karin Schermelleh-Engel & Christina
S. Werner (2012, S.130 ff), Abschnitt Cronbachs Alpha. Hervorgehoben
und mit Ausrufungszeichen wird gleich zu Beginn festgestellt: "Die Interne
Konsistenz eines Test ist umso höher, je höher die Korrelationen
zwischen den Items im Durchschnitt sind." Weiter heißt es (S. 131):
"Damit sich aus den einzelnen Itembeantwortungen die Reliabilität
des Gesamttestwerts schätzen lässt, ist vorauszusetzen, dass
die Items alle das gleiche Merkmal messen. Wendet man also das Konzept
paralleler Tests auf die einzelnen Items an, so müssten die wahren
Itemwerte und die Fehlervarianzen alle gleich sein, d. h. die Items müssten
gleiche Schwierigkeiten aufweisen." Da die extremen Voraussetzungen (z.B.
"Ein-Merkmalität" - eine interessante Kreation der Autorinnen)
natürlich so gut wie nie erfüllt sind, greift man - in der akademischen
Testnumerologie wie in der Faktorenanalyse das übliche Verfahren,
das schon Thurstone mit seinem dubiosen Kommunalitätkonnzept
erfolgreich eingeführt hat - zu einem Trick, indem man in eine
nicht minder dubiose Tau-Äquivalenz flüchtet. Die Autorinnen
(S. 131): "Sofern sich die Items in ihrer Schwierigkeit unterscheiden,
ist anstelle des Parallelitätskonzepts das Konzept der Tau-Äquivalenz
oder der essentiellen Tau-Äquivalenz angebracht. Werden zwar gleiche
wahre Werte der Items (oder Testteile), aber verschiedene Fehlervarianzen
vorausgesetzt, so handelt es sich um Tau-äquivalente Messungen." Hier
handelt es sich nicht um "Messungen", sondern in den allermeisten Fällen
um willkürliche und unrealistisch-falsche Beschlüsse
(per fiat). Dunkel heißt es im Abschnitt
Interpretation (S. 133): "Cronbachs alpha wird häufig fälschlicherweise
als ein Maß der Eindimensionalität interpretiert (in dem Sinne,
dass die Items eines Tests mit hohem alpha, die ja hoch interkorrelieren,
genau ein gemeinsames Merkmal erfassen würden, z. B. Depressivität)."
Grundlegend geht es nicht um eine Interpretation von Cronbachs Alpha, nachdem
es also angewendet wurde, sondern um die Voraussetzung
der
Anwendbarkeit (Eindimensionalität), mathematisch Rang 1, wie von
Kuder-Richardson schon dargelegt. Kritisch angemerkt sei noch, dass die
Abhängigkeit vom Stichprobenumfang, also der Anzahl der Items, nicht
erwähnt wird - vielleicht, weil das eine andere und allgemeine Schwachstelle
des Reliabilitätskonzepte der sog. "klassischen Testtheorie" betrifft.
___
ALMO-Statistikpaket. Hier
wird in P30 (2000), S. 137 ausgeführt: "Cronbach's ALPHA. Eindimensionalität
und gleichgerichtete Items werden angenommen. Bei dichotomen Items gleich
Kuder-Richardson Formel 20."
___
Maxim, B.R. & Dielman, T.E. (2009). Dimensionality, internal consistency
and interrater reliability of clinical performance ratings
"Summary. A total of 6444 ratings of the financial performance of 424
third- and fourth-year medical students were made by house officers and
attending teachers during 12 separate internal medicine rotations. Ratings
were based on 13 behaviourally anchored rating scales. One rating was randomly
selected per student per evaluator type (house officer and attending teacher)
during each of the 12 rotation periods. Ratings were factor analysed separately
within each rotation period. Two factors emerged consistently, and congruence
coefficients across the 12 occasions were high (0.88 or greater). The factors
were labelled ‘problem-solving (10 items) and ‘interpersonal skills’ (three
items) on the basis of their content. Internal consistency coefficients
of the indices constructed from items in the two factors and the total
of the 13 items were high (0.9 or greater) and did not differ substantially
when computed separately on the ratings from house officers and attending
teachers. Interrater reliabilities on the individual items ranged from
0.14 to 0.33."
___
Querverweise
Standort: Cronbachs alpha.
*
*
*
Dienstleistungs-Info.
*
Zitierung
Sponsel, R. (DAS). Cronbachs
alpha. Von der numerologischen Kunst, eine "Reliabilität" aus dem
Nichts zu zaubern. Überblick
Arbeiten zur Definitionslehre,
Methodologie, Meßproblematik, Statistik und Wissenschaftstheorie
besonders in Psychologie, Psychotherapie und Psychotherapieforschung.
Bereich Meß- und Testtheorie, Gruppe Testgütekriterien. Internet
Publikation für Allgemeine und Integrative Psychotherapie
IP-GIPT. Erlangen: https://www.sgipt.org/wisms/mtt/tgk/calpha.htm
Copyright & Nutzungsrechte
Diese Seite darf von jeder/m in nicht-kommerziellen
Verwertungen frei aber nur original bearbeitet und nicht inhaltlich
verändert und nur bei vollständiger Angabe der Zitierungs-Quelle
benutzt werden. Das direkte Einbinden in fremde Seiten oder Rahmen ist
nicht gestattet - Links sind natürlich willkommen. Sofern die Rechte
anderer berührt sind, sind diese dort zu erkunden. Sollten wir die
Rechte anderer unberechtigt genutzt haben, bitten wir um Mitteilung. Soweit
es um (längere) Zitate aus ... geht, sind die Rechte bei/m
... zu erkunden oder eine Erlaubnis einzuholen.
Ende_
Cronbachs
alpha_
Überblick_
Rel.
Aktuelles _
Rel.
Beständiges_
Titelblatt_
Konzept_
Archiv_
Region_
Service
iec-verlag_
Mail:
sekretariat@sgipt.org_
_
Wichtige
Hinweise zu externen Links und Empfehlungen.
g_KKorrektur
gelesen am: 31.01.04 irs
Änderungen wird
gelegentlich überarbeitet, ergänzt und vertieft * Anregungen
und Kritik willkommen
10.10.12 Kritische Anmerkungen
zu den Ausführungen Karin Schermelleh-Engel
& Christina S. Werner (2012).
17.07.06 Aufnahme
und kritische Anmerkung zu Cronbachs Rücklick
2004.
07.04.06 Orth Zitat zum Messen "per
fiat".