Lehrbuch Theorien und Methoden der Skalierung
präsentiert von Rudolf Sponsel, Erlangen
Bibliographie * Verlagsinfo * Inhaltsverzeichnis * Leseprobe * Ergebnisse * Bewertung * Links * Literatur * Querverweise *
Bibliographie: Borg, Ingwer & Staufenbiel, Thomas (2007). Lehrbuch Theorien und Methoden der Skalierung. Bern: Huber. [Verlags-Info]. 4., vollst. überarb. und erw. Aufl. 2007. 468 S., 197 Abb., 118 Tab., Gb ISBN: 978-3-456-84447-3. EURO 49.95 / CHF 79.00. Erschienen 11.09.2007. Internet-Unterstützung: https://www.skalierung.uni-osnabrueck.de.
Verlagsinfo:
"Anwendungsorientiert, umfassend und auf dem neuesten Stand werden im
vorliegenden Buch die Theorien und Methoden der Skalierung dargestellt.
Im vorliegenden Buch werden umfassend und auf dem
neuesten Stand die Theorien und Methoden der Skalierung dargestellt. Behandelt
werden u.a. Rating- und Antwortskalen; eindimensionale Modelle wie Thurstone-,
Guttman- und Magnitude-Skalierung; die multidimensionale Skalierung (MDS,
Unfolding); mehrdimensionale, hierarchische und andere Erweiterungen der
Guttman- und Magnitude-Skalierung; das Conjoint Measurement; die Faktorenanalyse;
Strukturgleichungsmodelle; und die klassische und die probabilistische
Testtheorie. Die Darstellung erfolgt vorwiegend konzeptionell und anwendungsorientiert,
mit weit über 100 Abbildungen und zahlreichen Beispielen, aber mit
einem Minimum an Formeln.
Für die vierte Auflage wurde der Text stark erweitert, z.B. durch
neue Kapitel zur Skalierung als Datenerhebung (Rating- und Antwortskalen)
bzw. zur probabilistischen Testtheorie und durch ein gesondertes Kapitel
zu Strukturgleichungsmodellen. Zudem wurden für jedes Kapitel Übungsaufgaben
(mit Antworten) ausgearbeitet, die es dem Leser ermöglichen, seinen
Wissensstand zu testen und das Gelesene in konkreten Anwendungen einzuüben.
Das Buch erfordert vom Leser minimale Voraussetzungen in formaler Hinsicht
(ein Einführungskurs in Statistik ist ausreichend). Außerdem
ist es nicht erforderlich, das Buch von Anfang zu Ende zu lesen: Die einzelnen
Kapitel stehen vielmehr weitgehend auf eigenen Füßen."
Inhaltsverzeichnis
Vorwort V
1 Einleitung
l
1.1 Zum Begriff
Skalierung l
1.2 Skalenniveaus
als Transformierbarkeit 3
1.3 Skalenniveaus
in der empirischen Forschung 7
1.4 Übungsaufgaben
8
2 Skalierung als numerisches Etikettieren
11
2.1 Regelgeleitetes
Klassifizieren und Quantifizieren 11
2.2 Items:
Fragen und zulässige Antworten 13
2.2.1 Itemformen 15
2.2.2 Zur Formulierung von Items 15
3 Triviale Skalierung
41
3.1
Ikonen 41
3.1.1 Standardformen von Ikonen
42
3.1.2 Komplexere Ikonen
46
3.1.3 Optimierung von Ikonen
49
3.2
Clusteranalyse 50
3.2.1 Grundprinzip der hierarchischen Clusteranalyse
50
3.2.2 Clusterkriterien
53
3.2.3 Clusteranalyse am Beispiel
55
3.2.4 Ähnlichkeitsmaße für Clusteranalysen
57
3.2.5 Weitere Clusteranalyse-Varianten
60
3.2.6 Anwendung und Bewertung der Clusteranalyse
60
3.3
Übungsaufgaben 61
4 Magnitude-Skalierung
63
4.1
Klassische Magnitude-Skalierung 63
4.2
Magnitude-Schätzwerte und objektive Größen
64
4.3
Cross-Modality Matching 67
4.4
Fehler und Bias 68
4.5
Magnitude- und Kategorien-Skalen 69
4.6
Magnitude- und Absolut-Skalierung 72
4.7
Übungsaufgaben 73
5 Saaty-Skalierung
75
5.1
Magnitude-Skalierung für vollständige Paarvergleiche
75
5.2
Skalen für inkonsistente Paarvergleiche
77
5.3
Statistische Signifikanz der Konsistenz 80
5.4
Hierarchische Modelle 82
5.5
Datenerhebung und Skalierung bei vielen Objekten
86
5.6
Übungsaufgaben 89
6 Fechner-Skalierung
91
6.1
Die Grundidee der Fechner-Modelle 91
6.2
LCJ-Skalierung 93
6.2.1 Wahmehmungsverteilungen
93
6.2.2 Dominanzurteile bei zwei Reizen
94
6.2.3 Wahrscheinlichkeitsverteilung der subjektiven Differenzen
96
6.2.4 Dominanz Wahrscheinlichkeiten und subjektive Differenzen
97
6.2.5 Eine Anwendung: Skalierung der Schwere von Verbrechen
99
6.2.6 Güte der LCJ-Skala
101
6.2.7 Existenz und Skalenniveau
103
6.2.8 Ein komplexeres Anwendungsbeispiel
105
6.2.9 Alternative Formen der Datenerhebung
106
6.2.10 Probleme der LCJ-Skalierung
106
6.3
BTL-Skalierung 107
6.3.1 Das Auswahlaxiom und seine Folgen
107
6.3.2 BTL-Skalenwerte 108
6.3.3 BTL- versus LCJ-Skala
109
6.3.4 Güte der BTL-Skala
110
6.4
Direkte Fechner-Skalierung 111
6.4.1 Direktes Skalieren durch Probieren
112
6.4.2 Skalierungs-Kriterien
114
6.4.3 Metrische Rechner-Modelle
115
6.4.4 Computerprogramme
116
6.4.5 Direkte Skalen versus LCJ-Skalen
116
6.4.6 Skalenniveaus der direkten Modelle
118
6.4.7 Einige Schlussbemerkungen zu Fechner-Modellen
119
6.5
Übungsaufgaben 120
7 Skalogramm-Analyse (Guttman-Skalierung)
123
7.1
Die perfekte Skala 123
7.2
Bestimmung der Fehler 125
7.3
Der Reproduzierbarkeitskoeffizient als Gütemaß
127
7.3.1 Maximal mögliche Fehler
128
7.3.2 Eine Anwendung: Skalierung von Symptomen der Gefechtsangst
129
7.3.3 Varianten bei der Fehlerbestimmung
129
7.4
Vorgehen bei Nicht-Skalierbarkeit 130
7.4.1 Halbordnung und lineare Ordnung von Profilen
130
7.4.2 Skalenanalyse versus Skalenkonstruktion
132
7.4.3 Dominante Guttman-Skala
132
7.5
Einschränkungen und Erweiterungen 133
7.5.1 Guttman-Skalierung von Einstellungsitems
133
7.5.2 Mehrkategorielle Erweiterungen
134
7.6
Übungsaufgaben 136
8 Mehrdimensionale Struktupelanalyse
139
8.1
Halbordnungs-Struktupelanalyse (POSAC) 139
8.1.1 Eine kleine Batterie von Rechenaufgaben
139
8.1.2 Basiskoordinaten und Rollen der Facetten
141
8.1.3 Eine Anwendung: Kommunikation bei Geiselnahmen
143
8.2
Multidimensional Struktupelanalyse (MSA)
145
8.2.1 Prinzipien der MSA
146
8.2.2 Eine Anwendung: Reaktionen auf Frustrationen
147
8.3
Handlösungen von Skalierungsproblemen
150
8.4
Übungsaufgaben 151
9 Multidimensionale Skalierung
(MDS) 153
9.1
Erstellung einer MDS-Konfiguration aus Distanzen
153
9.1.1 Rekonstruktion einer Karte aus einer Entfernungstabelle
153
9.1.2 Verallgemeinerung der Karten-Rekonstruktion
155
9.2
MDS in der psychologischen Forschung 156
9.2.1 MDS als psychologisches Modell
157
9.2.2 MDS zur Strukturanalyse von Proximitätsstrukturen
159
9.3
Durchführung einer MDS 161
9.3.1 Güte der MDS-Darstellung
161
9.3.2 Bewertung des Stress
163
9.3.3 MDS-Modelle 165
9.3.4 MDS-Algorithmen und degenerierte Lösungen
167
9.3.5 Probleme fehlender und grob gerasterter Daten
169
9.4
Interpretationsansätze in der MDS 170
9.4.1 Dimensionen, Richtungen, Regionen und Cluster
170
9.4.2 MDS-Interpretation mit externen Hilfen
174
9.5
Prokrustische Transformationen 175
9.6
Individuelle Unterschiedsmodelle 177
9.7
Bewertung von MDS-Lösungen 178
9.7.1 Modellfit und Stress
178
9.7.2 Konfirmatorische MDS
180
9.8
Übungsaufgaben 182
10 Unfolding
185
10.1 Prinzipien
des Unfoldings 185
10.1.1 Falten und Entfalten 186
10.1.2 I-Skalen und J-Skalen 189
10.2 Unfolding-Daten
als Ähnlichkeitsdaten 190
10.2.1 Zur MDS von Unfolding-Daten
191
10.2.2 Unfolding verschieden verzahnter Daten
192
10.3 Eine
Anwendung: Skalierung von Parteipräferenzen
195
10.4 Übungsaufgaben
198
11 Faktorenanalyse
201
11.1 Ein
einfaches Beispiel zur Einführung 201
11.1.1 Beobachtete Scores und latente Faktoren
201
11.1.2 Faktorwerte, Faktorextraktion und Faktorladungen
202
11.1.3 Faktor-Rotation und Interpretation
205
11.1.4 Faktorenanalyse von fehlerbehafteten Daten.
206
11.2 Geometrische
Betrachtungen der Faktorenanalyse 207
11.2.1 Variablen- und Personenraum
208
11.2.2 Dimensionalität einer Vektorkonfiguration
210
11.2.3 Rotation der Vektorkonfiguration
212
11.2.4 Faktoren im Personenraum 213
11.2.5 Approximation komplexer Daten durch Hauptkomponenten
214
11.3 Algebraische
Darstellung der Faktorenanalyse 218
11.4 Eine
Anwendung: Analyse der Wortbedeutung bei Kindern
219
11.4.1 Festlegung der Zahl der Faktoren
219
11.4.2 Schiefwinklige Drehungen 224
11.4.3 Prokrustische Drehungen 227
11.5 Faktorenanalyse
gemeinsamer Faktoren 229
11.5.1 Intelligenzmodelle 230
11.5.2 Bestimmung der Kommunalität
231
11.5.3 Hauptkomponentenanalyse versus Faktorenanalyse gemeinsamer
Faktoren 232
11.6 Faktorenanalyse,
MDS und Clusteranalyse 233
11.7 Explorative
versus konfirmatorische Faktorenanalyse 234
11.8 Übungsaufgaben
236
12 Strukturgleichungsmodellierung
(SEM) 239
12.1
Faktorenanalyse und Strukturgleichungsmodellierung
239
12.1.1 Hauptkomponentenanalyse 240
12.1.2 Faktorenanalyse gemeinsamer Faktoren
241
12.1.3 Ein einfaktorielles Modell 243
12.1.4 Zwei zweifaktorielle Modelle
245
12.2
Modelle mit endogenen Faktoren 247
12.3
Erstellung von Pfaddiagrammen 249
12.4
Rückrechnung von Korrelationen aus Pfadgewichten
251
12.5
SEM von Varianz-Kovarianz-Daten 252
12.6
Fitindizes und ihre Beurteilung 253
12.7
Eine Anwendung: Zum Zusammenhang von Arbeitszufriedenheit und Leistung
256
12.8
Strategien der Modellierung 262
12.9
Probleme der Strukturgleichungsmodellierung
264
12.10
Übungsaufgaben 267
13 Conjoint Measurement
271
13.1
Grundideen des Conjoint Measurements 271
13.2
Ein einfaches Beispiel zur Einführung
272
13.3
Eine typische Anwendung des CM 275
13.4
CM-Modelle und Skalenniveau 278
13.5
Rechentechnische Aspekte des ordinalen CM
280
13.5.1 Iterative Optimierung der Modellanpassung
280
13.5.2 Degenerierte Lösungen 281
13.6
Lineares Conjoint Measurement 282
13.7
Bedeutsamkeit einer CM-Lösung 286
13.8
Normierung der Teilnutzenskalen 287
13.9
Varianten der Datenerhebung 288
13.9.1 Die Trade-Off Methode
288
13.9.2 Reduzierte Erhebungspläne
291
13.9.3 Adaptives Conjoint Measurement
293
13.9.4 Paarvergleiche 295
13.10 Prüfling
der CM-Skalierbarkeit ohne Skalierung 295
13.11 Zur Gültigkeit
des CM 298
13.12 Erweiterungen
und verwandte Methoden 299
13.13 Übungsaufgaben
300
14 Skalenkonstruktion und Klassische Testtheorie
303
14. l Items
und Skalen 303
14.2 Merkmale
von Items 306
14.2.1 Formen von Items 306
14.2.2 Lösung eines Items 307
14.2.3 Itemcharakteristiken 307
14.3 Verfahren
der Skalenkonstruktion 308
14.3.1 Methode der gleicherscheinenden Intervalle
309
14.3.2 Methode der sukzessiven Intervalle
311
14.3.3 Methode der summierten Ratings
313
14.3.4 Klassische Testtheorie 313
14.4 Schritte
bei der Skalenkonstruktion 315
14.4.1 Festlegung des Gegenstandsbereichs
316
14.4.2 Konstruktion einer Testrohform
317
14.4.3 Erprobung der Testrohform an einer Analysestichprobe
319
14.4.4 Itemanalyse 320
14.4.5 Überprüfung der Qualität des Tests
324
14.4.6 Skalierung des Merkmals bei Personen
339
14.5 Einzelitems
und sehr kurze Skalen 341
14.6 Übungsaufgaben
342
15 Probabilistische Testtheorien
345
15.1 Itemcharakteristiken
und Itemkennwerte 345
15.2 Das Rasch-Modell
348
15.2.1 Invarianzeigenschaften des Rasch-Modells
350
15.2.2 Anwendung auf die Daten zur Gefechtsangst
351
15.2.3 Voraussetzungen des Rasch-Modells
353
15.3 Weitere
Modelle für dichotome Daten 354
15.3.1 Das Birnbaum-Modell 355
15.3.2 Das drei-parametrische logistische Modell
356
15.3.3 Rasch, Birnbaum oder 3PL? 357
15.4 Bestimmung
der Skalenwerte 358
15.4.1 Bestimmung der Likelihood 358
15.4.2 Bestimmung der Personenscores
360
15.4.3 Bestimmung der Itemscores 362
15.5 Bewertung
des Modellfits 362
15.5.1 Likelihoodquotiententests 363
15.5.2 Globale Tests von Voraussetzungen und Eigenschaften
365
15.5.3 Item- und Personenindizes 368
15.6 Weitere
probabilistische Modelle 371
15.6.1 Modelle für Items mit geordneten Antwortkategorien
371
15.6.2 Erweiterungen und Spezialfälle
375
15.7 Informationsfunktionen
377
15.8 Speziellere
Anwendungsfelder 378
15.8.1 Differential Item Functioning 378
15.8.2 Computeradaptives Testen 381
15.8.3 Itemanalyse 384
15.9 Probabilistische
versus Klassische Testtheorie 385
15.10 Übungsaufgaben
386
16 Abschließende Anmerkungen zum Begriff
Skalierung 389
16.1 Traditionelle
Unterscheidungen 389
16.2 Fünf
allgemeinere theoretische Perspektiven 391
16.2.1 Skalierung und fundamentales Messen
391
16.2.2 Skalierung als bedingtes Messen
392
16.2.3 Skalierung als Testen von Strukturhypothesen
393
16.2.4 Skalierung als Mittel der Exploration
394
16.2.5 Skalierung als Indexbildung
395
16.3 Empirische
Gesetze und mathematische Modellierung 396
16.4 Übungsaufgaben
398
17 Lösungen zu Übungsaufgaben 399
18 Tabellen
429
18.1 Normalverteilung
430
18.2 x2-Verteilung
432
Literaturverzeichnis 433
Namenverzeichnis 455
Stichwortverzeichnis 461
1.2 Skalenniveaus als Transformierbarkeit
Zu den Aspekten der Skalierung, mit denen der Leser vermutlich schon
zuvor in Kontakt getreten ist, gehört die Unterscheidung verschiedener
Skalenniveaus.
Das Skalenniveau bezeichnet die Transformierbarkeit einer Skala. Hat man
z.B. Temperaturwerte mit der Celsiusskala gemessen, dann ist klar, dass
man sie ebenso gut auch in Fahrenheit ausdrücken könnte, ohne
dass dadurch irgend etwas von Bedeutung verloren ginge. Was aber ist von
Bedeutung? Die formale Antwort, lautet: Genau die Relationen der Messwerte,
die auf verschiedenen Temperaturskalen gleich bleiben. Wenn wir z.B. heute
20 Grad in Celsius messen, während es vor einem Jahr nur 10 Grad waren,
dann ist es heute also doppelt so warm wie vor einem Jahr. Richtig? Fragen
wir dazu, ob dieses Verhältnis gleich (invariant) bleibt, wenn
wir die Messwerte in die Fahrenheitskala überführen (transformieren).
Die Transformation lautet allgemein: s(x) Grad Celsius entsprechen s'(x)
= 32 + 1.8 • s(x) Grad Fahrenheit [FN1]. Also entsprechen
20 Grad Celsius 68 Grad Fahrenheit und 10 Grad Celsius 50 Grad Fahrenheit.
Ausgedrückt in Fahrenheit-Werten lautet das obige Temperatur Verhältnis
68 : 50. Dieses Verhältnis ist aber nicht mehr gleich 2. Wir sehen
daher, dass Aussagen über Verhältnisse auf der Temperaturskala
empirisch
bedeutungslos sind, weil das Temperaturverhältnis ja nicht abhängig
von der willkürlich gewählten Skala sein soll, auf der es einmal
2, ein andermal 1.36 ist. Verhältnisbildungen auf diesen Temperaturskalen
sind also nicht sinnvoll [FN2].
Fußnoten:
FN1 Mit, s(x) bezeichnen wir
einen Skalenwert der Temperatur x (hier in Grad Celsius) und mit s'(x)
einen anderen Skalenwert der gleichen Temperatur (hier in Grad Fahrenheit).
FN2 Wenn diese Aussagen stets
als auf die Skala bezogen verstanden werden, auf der die Messungen erfolgen,
ergeben sich keine Kommunikationsprobleme. Wenn aber ein Ame-[>4]rikaner
einem Deutschen erklärt, in Florida sei es heute 'doppelt so warm'
wie hier in Oberammergau, sollte man unter Umstände rückfragen,
wie das gemeint ist.
..."
"16 Abschließende
Anmerkungen zum Begriff Skalierung
Unter Skalierung wird in der methodischen und angewandten Literatur
sehr Unterschiedliches verstanden. Wir greifen hier unsere pragmatisch
orientierte Darstellung im Einleitungskapitel wieder auf und zeigen, dass
sich die verschiedenen Auffassungen konzeptuell einigen wenigen Grundansätzen
zuordnen lassen.
16.1 Traditionelle Unterscheidungen
Das Gebiet der Skalierungsmethoden ist riesig. Obwohl wir in den obigen
Kapiteln zahlreiche Skalierungsmethoden dargestellt haben, sind dies längst
nicht alle. Wir haben uns bei unserer Auswahl vor allem davon leiten lassen,
welche dieser Methoden in der Anwendung am häufigsten eingesetzt werden
oder wurden. Einige Methoden wurden auch deshalb diskutiert, weil sie interessante
Anwendungen versprechen oder weil sie Wege aufzeigen, die man weiter verfolgen
könnte. Gleichzeitig muss man aber festhalten, dass der Begriff der
Skalierung selbst verschieden verwendet wird, so dass allein schon dadurch
nicht eindeutig geklärt ist, was man nun in einem solchen Buch behandeln
soll oder nicht.
Wir wollen im Folgenden einige der Grundauffassungen
diskutieren. Diese werden von Methodikern oft vehement und meist mit einem
gewissen Alleinvertretungsanspruch bzw. in Unkenntnis alternativer Auffassungen
vertreten. Sie zu kennen ist auch von praktischem Nutzen, weil man so gewisse
Antworten hat, die es ermöglichen, die allseits beliebten Grundsatzdiskussionen
abzukürzen und zur eigentlichen inhaltlichen Arbeit überzugehen
[FN1].
Zunächst seien nochmals die Hauptformen des
Begriffs Skalierung, so wie er heute in der Literatur Verwendung findet,
unterschieden. Danach wird unter Skalierung verstanden:
Während sich der Zweck der Skalierung im Sinne von (1.) bis
(3.) selbst erklärt, liegt er für (4.) ausschließlich darin,
einen besseren Zugang zu gegebenen Daten herzustellen. Bei (5.) und (6.)
wird zudem gefragt, ob die Daten überhaupt im jeweils gewählten
Skalierungsmodell darstellbar sind bzw. wie gut dies möglich ist.
Die Darstellbarkeit ist nur für Daten mit besonderen Eigenschaften
garantiert und somit nicht trivial. Ist sie gegeben, so verweist dies auf
eine besondere Struktur in den Daten. Bei theoretisch begründeter
Auswahl des Modells ist dies in Bezug auf die innere Konsistenz der Daten
bereits ein Validitätsnachweis, während man für (1.) bis
(3.) stets externe Kriterien benötigt (z.B. die Vorhersagbarkeit anderer
Testleistungen).
Die Unterscheidung zwischen einer reinen Datendarstellung
(meist: Visualisierung) einerseits und testbaren Modellen andererseits
ist in der Praxis allerdings weniger klar als in der Theorie. Man kann
jedes triviale Modell durch externe Zusatzforderungen an die Darstellung
zu einem nicht-trivialen, testbaren Modell machen. Meist werden bei der
Skalierung ja sowieso gewisse Hypothesen hinsichtlich der Struktur der
Repräsentation formuliert, die nicht trivial sind. So kann man etwa
in der Clusteranalyse vorhersagen, dass sich bestimmte Variablen zu Clustern
zusammenfinden; in der Faktorenanalyse, dass die Dimensionalität der
Repräsentation klein ist und / oder dass alle Faktorladungen nicht-negativ
sind; in der MDS, dass die Lösung in bestimmte Regionen partitionierbar
ist; oder in der Thurstone-Skalierung, dass sich eine bestimmte Ordnung
der Punkte ergibt. Andererseits werden manche nicht-triviale Modelle vielfach
so eingesetzt, als ob sie trivial wären.
In der Anwendung wird die Frage nach der Darstellbarkeit
der Daten im Modell oft wenig beachtet. Dafür gibt es mehrere Gründe.
Der erste ist, dass die Falsifizierbarkeit des Modells nicht bekannt ist.
Das scheint vor allem in der älteren Literatur (z.B. bei Thurstone-Skalen)
der Fall zu sein. Ein zweiter Grund ist, dass man einfach eine Skala haben
will oder braucht und dabei ganz andere Gütekriterien als den Fit
(z.B. die Vorhersagevalidität) für wichtig hält [FN2].
Ein dritter Grund ist, dass die Skalierungsmethode lediglich dazu dienen
soll, ein ungefähres Bild der Datenstruktur zu liefern (z.B. eine
zweidimensionale MDS-Darstellung), um damit die Exploration der Struktur
der Daten zu erleichtern.
... ..."
Fußnoten:
FN1 Synge (1960, S. 3) merkt
dazu Folgendes an: „Among physicists at large, there is comparatively little
inquiry into why or how they do what they are doing, and this is not to
be depreciated, because human activities are inhibited by introspection."
FN2 Nicht selten schafft man sich zuvor
den lästigen Missfit dadurch vorn Hals, dass man einige Items eliminiert.
Literatur (Auswahl)
Das Buch enthält ein umfangreiches Literaturverzeichnis (433-453).
Suchen in der IP-GIPT,
z.B. mit Hilfe von "google": <suchbegriff>
site:www.sgipt.org
Buchpräsentation site:www.sgipt.org. |
korrigiert: isr 17.5.8