Psychologisch-Psychopathologische Testtheorie
der Allgemeinen und Integrativen Psychotherapie (GIPT)
Originalarbeit von Rudolf Sponsel, D-Erlangen
Vorbemerkung fuer Fachkundige
(1-3): Zum Einstieg empfohlen: "Wie
geht es Ihnen?" Historisch koennen wir drei
testtheoretische Haupt-Richtungen unterscheiden:
(1) die naive norm-sortierende traditionelle
(sog. "klassische") Testtheorie, die eine
Loesung des Messproblems voraussetzt und nicht, wie oft faelschlich angenommen,
bietet. Items2), die alle in einem
bestimmten Sinne beantworten, werden hier eliminiert.1)
Das kann fuer spezielle Stichproben fatal sein. Gibt es naemlich z. B.
ein Item, das fuer ein Syndrom positiv oder negativ aequivalent ist, wuerde
genau dieses Item, das am besten kennzeichnet, entfernt werden. Diese absurde
Paradoxie gilt auch fuer das folgende (2) logistische Test-Modell
Raschs.
(2) Die logistische Testtheorie (Rasch 1960 ff; Fischer 1974) setzt voraus, dass die Auspraegung von Merkmalen durch Loesungshaeufigkeiten (und Loesungshaeufigkeitsverhaeltnisse) richtig repraesentiert werden, was meist wohl nur bei Faehigkeitsmerkmalen, nach denen die Menschen streben, also bei den Leistungs- und Intelligenztests, gilt. Diese Testtheorie setzt also wie die traditionelle eine statistische Erhebung voraus. Im Unterschied zur traditionellen Testtheorie strebt das logistische Model des daenischen Mathematikers Georg Rasch eine populationsunabhaengige, sogenannte "spezifisch-objektive" Messung an. Das Konzept ist inhaltlich und methodologisch problematisch, wobei die Probleme von den BefuerworterInnen gewoehnlich verleugnet werden. Das Rasch-Modell wie alle Testmodelle mit naturwissenschaftlichen Anspruechen wurde besonders von Hilke (1984) grundlegend kritisiert. In der Psychologie gibt es weitgehend keine Messungen wie in der Naturwissenschaft. Das wollen viele akademische PsychologInnen nicht wahrhaben. Eine psychologieangemessene Mess- und Testtheorie koennen sie meist nicht entwickeln und deshalb gibt es so viele numerologische Esoteriken, die nur auf den ersten aeusserlichen Blick in ihrer Verkleidung mathematisch serioes anmuten, wobei sich meist bei genauerer Betrachtung sehr schnell herausstellt, dass es sich nicht selten um moderne Zahlenmagie handelt.
(3) die
kriterien-orientierte Testtheorie (Klauer 1987), die vor allem im Bereich
der Paedagogik eine wichtige Rolle spielt kommt unseren Vorstellungen am
naechsten. Man kann daher sagen: die GIPT-Testtheorie ist kriterienorientiert,
ohne normsortierende oder die spezifisch objektiven Ansprueche des Raschmodells
und den vernuenftig erscheinenden Ansatz des Grundmodells der logistischen
Funktion gering zu schaetzen.
|
(4)
Der
neue testtheoretische Weg in der
Allgemeinen und Integrativen Psychotherapie.
Bevor wir irgendwelche Formalismen entwickeln oder uns von solchen abhaengig machen oder indoktrinieren lassen, ueberlegen wir in bester Erlanger-Konstruktiver Tradition: was sind unsere Zwecke und Ziele, was wollen wir mit einem Test, wozu brauchen wir Tests?
Nun, im psychopathologisch-psychotherapeutischen Bereich interessieren uns besonders folgende Fragen:
(1) Welche - therapierelevanten - Merkmale zeigt ein Mensch in welcher Auspraegung unter welchen Bedingungen? Dazu gehoeren besonders:
(1.1) Stoerungen, Krankheiten, Syndrome, Symptome, Beschwerden, Probleme mit der Fragestellung: was ist und soll veraendert werden?
(1.2) Positive Ressourcen, Faehigkeiten, Merkmale in welchen Auspraegungen? Worauf kann man aufbauen, womit kann man arbeiten?
(1.3) Rahmen-, Hintergrund- und Situationsbedingungen, in die
ein Mensch mit seinen Merkmalen eingebettet ist und aus denen er sich entwickelt
hat.
(2) Welche Verfahren, Methoden, Techniken kann man bei diesen
oder jenen Stoerungen, Krankheiten, Syndromen, Symptomen dieses Menschen
in dieser konkreten idiographischen Situation mit diesem Realitaetsrahmen
erfolgversprechend anwenden?
Beispiele:
Merkmal (latente Dimension) | Operationalisierung(en) |
(a) Innere Unruhe | Ich bin innerlich unruhig und nervös. |
(b) Angst | Ich fühle Angst. |
(c) Depression | Nicht selten ist alles wie grau und tot und in mir ist nur Leere. |
|
Die kleinste Testeinheit heisst gewoehnlich "Item", sie repraesentiert eine kleinste zaehlbare Einheit. Formal ist ein Test also wie folgt aufgebaut:
Die aeussere Erscheinung eines Tests (Beispiel)
Angaben zur Person (Demographische, Epidemiologische, Statistische Angaben)
Item 001 [--> Dimension, Untertest (Skala) Dj]
Item 002 [--> Dimension, Untertest (Skala) Dq]
...
...
Item i [--> Dimension, Untertest
(Skala) Dr]
...
...
Item n [--> Dimension, Untertest
(Skala) Dw]
Der innere Aufbau eines Tests (Beispiel)
Kriterium (Dimension, Untertest, Skala) 01
Item 01.1, 01.2, ..., 01.m
Kriterium (Skala, Dimension oder Untertest, Skala, ) 02
Item 02.1, 02.2, ..., 02.m
Kriterium (Dimension, Untertest, Skala) i
Item i.1, i.2, ..., i.m
Kriterium (Dimension, Untertest, Skala) n
Item n.1, n.2, ..., n.m
Das Dimensions- (Untertest, Skalenformations-) Problem
Zum Beispiel: Was "ist" Intelligenz? Die testpsychologische Antwort lautet: Intelligenz "ist" das, was "ein" Intelligenztest misst. Nun, dann gibt es aber im Prinzip so viele "Intelligenzen" wie es Intelligenzteste gibt und das sind nicht wenige. Wissenschaftlich und praktisch ein unbefriedigender Zustand. Die Frage kann beliebig gestellt werden: Was "ist" eine "Depression"? Was "ist" eine "Schizophrenie"? Was "ist" eine "Konzentrationsstoerung"? Was "ist" ein "Verlust"?, Was "ist" Liebe? Es empfiehlt sich Vorsicht (Was-ist-fragen). Dem Philosophen und Wissenschaftstheoretiker Wolfgang Stegmüller verdanken wir naemlich eine sehr interessante Schrift "Sprache und Logik", in der er auf 11 Seiten zum Woertchen "ist" wie folgt einleitet: "Eines der wichtigsten Woerter unserer Sprache ist das Wort 'ist'. Es ist zugleich eines der philosophisch gefaehrlichsten." (S. 67).
Das Dimensionsproblem fuehrt sofort zum Definitionsproblem:
Definitionen,
Nominal- und Realdefinitionen
Terminologische Konventionen der Allgemeinen und Integrativen
Psychotherapie
In der Definitionslehre wird gewoehnlich zwischen Nominal- und Realdefinitionen unterschieden. Ueblicherweise versteht man unter Nominaldefinition eine Festlegung, die nicht wahr oder falsch sein kann, sondern durch Ziele und Zwecke begruendet sein muss.
Die Realdefinition hat wenigstens zwei Hauptbedeutungen: (1) Realdefinition des Sprachgebrauchs und (2) Realdefinition als Existenzbehauptung. Eine moegliche wichtige dritte: Realdedefinition als nuetzliche Fiktion (Hilfsbegriff, Konstruktion) ordnen wir der Nominaldefinition zu. Beide Realdefinitionen koennen wahr oder falsch sein in folgendem Sinne: (1) macht eine Aussage, wie ein Wort verwendet wird. (2) macht eine Aussage, ob der Begriffsinhalt eine Entsprechung in einer Bezugswelt hat. "Pegasus", ein Pferd mit Fluegeln, existiert in der Welt der Mythologie (psychologisch: Phantasiewelt), aber nicht in der wirklichen Welt. Angst, Wahrnehmungsfaehigkeit, Tisch, Baum z. B. haben Entsprechungen in der Wirklichkeit. Definiert man einen Baum als das und das, dann kann man nachsehen draussen in der Welt, ob es so etwas wie Baeume gibt. Der Begriffsinhalt des Wortes "Baum" existiert also auf der Erde; auf dem Mond oder Mars haette er wohl wenig Sinn, ausser dass man verneint, dass es dort so etwas wie einen Baum gibt.
Wie ist das nun z. B. mit der Intelligenz? Nun, eine Test-Intelligenz ist sicher - aber nicht nur - eine Nominal-Definition, also eine durch bestimmte Ziele und Zwecke - hoffentlich! - begruendbare operationale Definition. Eine solche Begruendung koennte z. B. in einer Eignungsselektion liegen, um z. B. geeignete KandidatInnen fuer hoehere Schulen auszuwaehlen. Viele Nominal-Definitionen bergen reale Inhalte, aber die Zusammenfassung, die Konstruktion dieser Inhalte ist nicht wahr oder falsch, sondern durch bestimmte Ziele und Zwecke bestimmt. Viele Nominal-Definitionen wie z. B. spezielle Test-Intelligenzen oder spezielle Persoenlichkeitsmerkmale bergen Real-TEILE, aber gewoehnlich nicht die ganze Realitaet.
Zur Abbildung 01: Die Teile 1.2, 2.2 und 3.2 illustrieren bzw. symbolisieren faelschlich erfasste Realteile, die Teile 1.1, 2.1 und 3.1 richtig erfasste Realteile. Der grosse "Rest"-Bereich innerhalb des Rechteckes illustriert bzw. symbolisiert einen grossen Teil des Realbereiches, der gar nicht erfasst wird.
Was macht man in der Psychologie, wenn man die Ausprägung eines Merkmals M schätzen will? Im allgemeinen operationalisiert man das Merkmal M in Items I1, I2, ...In, , die gewöhnlich kleinste Einheit in einem Test, und wählt dann meist die Summenscorefunktion als Schätzer der Ausprägung. Das heißt, man zählt die Items im Sinne der Merkmalserfassung zusammen. Wurde ein Merkmal z.B. durch 5 Operationalisierungen erfasst, so gibt es 6 Ausprägungen, nämlich 0, 1, 2, 3, 4, 5. Die formal-mathematischen Voraussetzungen zur Anwendung der Summenscorefunktion sind erforscht und geklärt, aber nicht die inhaltlichen. Es ist leider geradezu typisch für die psychologische Testtheorie, dass man sich um inhaltliche Fragen weitgehend nicht kümmert, sondern möglichst schnell in mathematisch-statistische Bereiche flüchtet. Als ich den Charakter-Struktur-Test nach Fritz Riemann konstruierte, habe ich mich erstmals mit dem Inhaltsthema intensiv befasst und die inhaltliche Itemanalyse auch ausbiebig dargestellt ()03-02-050-01 bis 26 und im Interpretationsteil die Motivgruppenbeziehungen - jede mit jeder - noch einmal ausführlich erörtert (06-02-0110-01 bis 06-02-0530-06).
Darstellung der Prüfmöglichkeiten
an der Motivgruppe D-Harmnie aus dem CST (Beispiel):
Man beachte bitte die normalpsychologischen Strukturbedeutungen
bei Fritz Riemann.
Die folgende Darstellung gibt 1. die 5-Items der Motivgruppe D-Harmnie,
2. den verallgemeinerten Bedeutungsgehalt dieser Motivgruppe, 3. Lösungshäufigkeiten,
Prozentränge, Interkorrelationen der 5 Items und eine inhaltliche
Venn-Diagramm-Analyse
wieder. (N=648)
4. Pruefmöglichkeiten zur Operationalisierung der Motivgruppe D-Harmonie
Wenn D-Harmonie (DH) richtig operationalisert wurde, sollte folgendes der Fall sein:
_ _ _ |
Die 20 D-Items haben zwar einen dominanten Eigenwert, der aber mit 22,8% keinen Generalfaktor repräsentiert. Für einen Generalfaktor wären hier mindestens 40% zu fordern, besser 50%. Auch die vier folgenden Eigenwerte sind etwas zu niedrig und auch nicht in vergleichbarer Größenordnung. |
Korrelationsmatrix
aus Eigenwertvorgabe 82222029...
Dass es zu der vorgegebenen Eigenwertstruktur 8, 2, 2, 2, 2, 0.29,
0.28, 0.28, 0.27, 0.27, 0.27, 0.27, 0.27, 0.27, 0.26, 0.26, 0.26, 0.26,
0.25, 0.24 (Summe=20) eine - positiv-definite
- Korrelamatrix gibt, zeigt das Beispiel:
Sprachproblem,
Verstaendnis und Interpretationsproblem
Die Vieldeutigkeit der Sprache.
Wir koennen an dieser Stelle durchaus die sinnige Frage stellen: wie
kommt es ueberhaupt dazu, das bestimmte Worte als Traeger von Begriffen
entstehen. Fast alle Worte der Alltagssprache sind
Homonyme,
also Traeger vieldeutiger Begriffe. Nehmen wir zum Beispiel das Wort
"Star". Ein Augenarzt denkt an die Krankheit Star1, eine Schauspielschuelerin
an eine Karriere als Star2, einem Durchschnittsmenschen faellt
als erstes der Vogel Star3 ein. Wir wissen um die begriffliche
Bedeutung eines Wortes meist aus dem Zusammenhang. Was heisst es dann,
wenn ein Teenager sagt, dass er gestern wieder seine "Depression" hatte?
Spricht dieser Twen von einer "Depression" im klinisch-psychopathologischen
Sinne? Wohl nicht. Sie oder er will wohl sagen, sie oder er war nicht gut
drauf, es ging ihr/ ihm nicht so gut. Hier hat sich aus dem klinisch-psychopathologischen
Begriff der Depression durch ein Eindringen in den Alltag die urspruengliche
Bedeutung sehr veraendert und verwaessert, obwohl eine Kernbedeutung, die
negative Befindlichkeit (nicht gut gehen, nicht gut drauf sein, ...) erhalten
blieb.
Entstehung der
Worte und Begriffe
Die Begriffe und die sie tragenden Worte entstehen aus vielfaeltigen Beduerfnissen: die Wirklichkeit, sich selbst und andere zu begreifen, sich in sich selbst, mit anderen und in der Wirklichkeit (Welt, Natur, Umgebung) zurecht finden (auskennen, Orientierung), sich auf sich selbst, andere und die Wirklichkeit einstellen,auf sich selbst, auf andere und die Wirklichkeit einwirken können. Es wird berichtet, Eskimos haben sehr viele Begriffe für unterschiedliches "Weiss", Wuestenbewohner haben sehr viele Begriffe fuer unterschiedliches "sandfarben". Die Lateiner (Roemer) hatten viele Begriffe fuer toeten. In Deutschland gibt es zum Beispiel viele Begriffe fuer Geschlechtsverkehr und Geld. In bisexuellen Gesellschaften gibt es keine unterschiedlichen Worte fuer Anal- und Koitalverkehr. All das sind Beispiele dafuer, wie sehr die Sprache in den affektiven Beduerfnissen der Menschen verankert ist. Aber nachdem die Worte einmal entstanden sind, entfaltet sich "die"
Sprache, die ja in einer lebendigen, sich entwickelnden und sich veraendernden
Gesellschaft gesprochen wird, auch eigendynamisch. "Die" Sprache befindet
sich in einer staendigen Veränderung. Es gibt Worte, die untergehen
und Neuschöpfungen, noch mehr aber den Bedeutungswandel der üblichen
Worte. "Cool" ist ein Wort der jungen Generation der 90iger Jahre, es hat
das zu meiner Jugendzeit gültige "stark" in der Bedeutung "bemerkenswert,
beachtlich" in etwa ersetzt.
|
Besonders fuer Fragebogentests ergibt sich daher:
Das Formulierungsproblem.
Tests bedienen sich oft der Sprache, aber die Sprache
ist sehr vieldeutig und wird von vielen Menschen aus ihren jeweiligen
individuellen Lebensgeschichten und Situationskontexten heraus interpretiert,
verstanden und gebraucht. Was kann, was muss man tun, um ein Verstaendnis
bei der TestbearbeiterIn zu erzeugen, die Aufgabe in der Weise zu behandeln,
wie es gewuenscht und gewertet wird?
Das Formulierungsproblem hat zwei gegensaetzliche
und zugleich wichtige Aspekte:
Das Klarheitsproblem einerseits
und das Projektionssproblem andererseits. Mit Projektion meint man
in der Psychologie etwas Inneres in ein Auesseres verlagern,
es dort wahrnehmen. Sehe ich in einer Wolkenformation ein springendes Pferd,
dann habe ich wahrscheinlich ein inneres Vorstellungsbild in eine geeignete
Wolkenstruktur "hineingesehen" oder projiziert, wie wir auch sagen.
Jeder Mensch hat seine eigenen, individuellen und in letzter Instanz nicht
"objektiv" zugaenglichen Erlebnisweisen. Die sprachlichen Worte sind -
genau und streng betrachtet - solchen "Wolkenstrukturen", in die
jeder Mensch seine inneren Erlebnisweisen "hineinsehen" oder auch
nicht
"hineinsehen"
kann, vergleichbar.
Einerseits sollte ein Item also so einfach und klar wie moeglich formuliert sein, dass Menschen unterschiedlichster Bildung und Herkunft, es gleichermassen verstehen koennen (Klarheitsproblem).
Andererseits sollten die Begriffe so viel individuellen Spielraum, so viel "Weite" und Unschaerfe haben, dass Menschen unterschiedlichster Bildung und Herkunft sich und ihr Leben in den Begriffsinhalten auch "entdecken koennen" (Projektionsproblem).
Beispiel a): "Ich erlebe oefter starke Angst."
Beispiel b): "Ich bekomme genuegend Liebe und Zuwendung."
Beispiel c): "Ich fuehle mich manchmal ganz fremd, als ob ich jemand
anderer waere."
Diskussion:
a) Es gibt wohl niemand, der nicht Angst kennt und
der nicht weiss, was mit oefter oder stark gemeint ist. Und doch sind diese
Begriffe trotz ihrer scheinbaren Klarheit zugleich subjektiv sehr vieldeutig.
Jeder Mensch erlebt Angst auf seine individuelle und letztlich nicht intersubjektiv
streng ueberpruefbare Weise. Fuer den einen ist "oefter" 3 mal im Jahr,
fuer einen anderen drei mal in der Woche. Aehnlich kann es sich mit "stark"
verhalten. Das ist aber kein Nachteil, sondern ein Vorteil, weil es dadurch
erst moeglich wird, Menschen bezueglich bestimmter Aussagen zu vergleichen.
b) Auch hier ist es wohl so, dass jeder die Worte
Liebe und Zuwendung kennt, zugleich aber auf seine individuelle Weise versteht.
c) Hier ist es schwieriger. Zwar kennt jeder das
Wort "fremd" und auch seine gewoehnliche Bedeutung. Aber mit dem Begriff
in dieser Frage koennen nur Menschen wirklich etwas anfangen, die selbst
schon einmal ein Entfremdungserlebnis hatten. Diejenigen, die das Erlebnis
nicht kennen, werden bei Konfrontation mit dieser Frage unsicher sein und
raetseln: was soll denn das sein, was ist da wohl gemeint?
Das Einraeumen-Problem. Das beste Testitem nutzt nichts, wenn Befragte den Inhalt zwar bei sich sehen oder nicht sehen, es aber nicht einraeumen (zugeben) koennen oder wollen. Auch das muss bei der Testkonstruktion besonders beruecksichtigt werden, kann aber letztlich nur durch empirische Erhebungen, Versuche und Kontrollen herausgefunden werden.
Wir definieren: Eine Aussage, die keine direkte Verneinung (nicht)
enthaelt und dann gewertet wird, heisst positiv gepolt. Entsprechend:
Eine Aussage, die eine direkte Verneinung (nicht) enthaelt
und dann gewertet wird, heisst, negativ gepolt.
Beispiel positive Polung Harmonie | Beispiel negative Polung Harmonie |
An Harmonie ist mir sehr gelegen. (fuer Harmonie) | Harmonie ist fuer mich nicht sehr wichtig. (fuer Harmonie) |
(negativ fuer Konfliktfaehigkeit und (positiv fuer Konfliktfaehigkeit und Dis-Harmonie aushalten koennen) | (positiv fuer Konfliktfaehigkeit und Dis-Harmonie aushalten koennen) |
Bemerkung: Die Polung von Harmonie wird im zweiten Beispiel (untere
Reihe) in Bezug auf Konfliktfaehigkeit interpretiert.
|
Wozu braucht man Polungen?
Polungen sind manchmal wichtig, um stereotypische Antworttendenzen
einer Richtung und damit jeweils eine Neupruefung hinsichtlich der Stimmigkeit
oder Nichtstimmigkeit des Merkmals zu foerdern. Tests, denen man anmerkt,
dass das entsprechende Merkmal immer dann, wenn man sich zustimmend (oder
ablehnend) auessert, erfasst wird, enthalten sozusagen einen Serieneffekt-
oder Antworttendenzfehler.
"Hoehere Polungen".
Man kann nun nicht nur bei den kleinsten Testeinheiten, z. B. Fragen
in Fragebogentests,
nach der Polung fragen, sondern auch bei Untertesten oder Dimensionen
im Hinblick auf bestimmte Kriterien (Diagnosen, Krankheiten, Stoerungen).
Beispiel:
Die Dimension "Geduld" ist fuer die Diagnose AD-H-D
als negativ gepolt anzusehen, das heisst, geringe Auspraegungen in dieser
Dimension sprechen fuer AD-H-D, hohe Werte in Geduld sprechen gegen AD-H-D.
Umgekehrt ist es mit der Dimension "Ungeduld". Hier wird man geringe Werte
gegen die Diagnose AD-H-D auslegen und hohe Werte
fuer die Diagnose AD-H-D ansehen.
Bei Auswertungen und Interpretationen kann die Polung manchmal zu Verwirrungen fuehren, wenn man sozusagen oefter umdenken muss, etwa in solchen Faellen: Item negativ gepolt, Dimension positiv gepolt, Dimension fuer das Kriterien negativ gepolt. Anders ausgedrueckt: Verneinung fuehrt zu positiven Werten in der Dimension. Positive Werte der Dimension fuehren zu negativer Wertung fuer das Kriterium.
Die Item-Schwierigkeit
in der Allgemeinen und Integrativen Testtheorie
Die Zustimmung oder Ablehnung einer Aussage kann schwer oder leicht
gemacht werden. Sachverhalte, die erleichternd oder erschwerend wirken,
nennen wir Schwierigkeits-
Operatoren
oder allgemein Quantoren.
Es sind gewoehnlich Woerter wie "immer", "nie", "oft",
"manchmal", "selten", "stimmt genau", "nicht ganz
falsch", "sehr", "ein wenig" oder Bedingungen "nur,
wenn ...",
Die folgenden Beispiele zeigen, wie man Aussagen schwerer und leichter
macht:
Es besteht wohl kaum ein Zweifel, dass, wenn wir das Woertchen "entsetzlich"
herausnehmen, eine andere Angstqualitaet erfragt wird.
Vergleicht man A...E mit a...e paarweise, ist klar,
dass gilt:
A>a, B>b, C>c, D>d, E>e.
Dies muss natuerlich, wenn man den Auspraegungen Zahlenwerte zuordnet 3) beruecksichtigt werden.
Ein schwieriges Problem entsteht, wenn alle A...E und a...e in eine
Reihenfolge und Ordnung gebracht werden muessen. Es ist hier durchaus moeglich,
dass hier fuer verschiedene Menschen unterschiedliche Ordnungen sinnvoll
sind.
Suchen in der IP-GIPT,
z.B. mit Hilfe von "google": <suchbegriff>
site:www.sgipt.org
z.B. Testtheorie site:www.sgipt.org. |