Internet Publikation  für Allgemeine und Integrative Psychotherapie
    IP-GIPT DAS=01.04.2006 Internet-Erstausgabe, letzte Änderung TT.MM.JJ
    Impressum: Diplom-PsychologInnen Irmgard Rathsmann-Sponsel und Dr. phil. Rudolf Sponsel
    Stubenlohstr. 20     D-91052 Erlangen * Mail: sekretariat@sgipt.org_Zitierung  &  Copyright _

    Anfang  SMA und Linearitäts-Paradox_ Überblick _Relativ Aktuelles  _ Rel. Beständiges  _ Titelblatt  _  Konzept  _  Archiv _ Region _ Service iec-verlag  _ _ Wichtige Hinweise zu Links und Empfehlungen

    Willkommen in der Abteilung Wissenschaft, Methodologie, Meßproblematik, Statistik und Wissenschaftstheorie besonders in Psychologie, Psychotherapie und Psychotherapieforschung  unserer Internet-Publikation IP-GIPT 1)

    Standard-Matrix-Ananalyse (SMA) und Nicht-Linearitäts-Paradox in Korrelationsmatrizen?

    Mit Erörterungen zur Reproduktionsgüte
    Beispieldokumentation und eine Vermutung

    von Rudolf Sponsel, Erlangen

    Einführung * Behauptung * Urdaten * Korrelationsmatrix * Eigenwerte und Eigenvektoren * Matrixanalyse * Befund * Vermutung * Fragen * Folgerungen *  Paradox * Faktorenanalytische Interpretation * Querverweise

    Einführung (Hintergrund) Gibt es in einer Korrelationsmatrix lineare Abhängigkeiten, so zeigt sich dies u.a. darin, daß die Determinante 0, mindestens ein Eigenwert 0 und der Rang um die Anzahl der linearen Abhängigkeiten in der Matrix vermindert ist. Werden empirische Daten ("Messungen") verwendet und/oder mit Computern und daher notwendigerweise mit Rundungen oder Abschneidungen gerechnet, so zeigen sich diese Phänomene auf einer "Fast"-Ebene, d.h. Determinante und mindestens ein Eigenwert sind "fast" 0, wobei der Rang der Korrelationsmatrix voll erhalten erscheint bei gewöhnlich sehr hoher numerischer Instabilität bis hin zur bösartigen Entgleisung mit negativen Eigenwerten (wie im Beispiel unten) und damit indefiniter (Pseudo-) Korrelations-Matrix.
        Beschreibung des Problemsachverhalts: Wie es scheint, gilt das oben Ausgeführte zur Determinante, Eigenwerten und Rang der Matrix nicht nur für lineare Abhängigkeiten, sondern auch für nicht-lineare, was mich verblüffte und inhaltlich etwas paradox anmutet. Bei der Interpretation von Korrelationskoeffizienten empfiehlt sich daher Vorsicht und es stellt sich erneut die Frage: was bedeuten Korrelationskoeffizienten eigentlich genau ? Eine Frage, mit der sich Mathematiker und StatistikerInnen gewöhnlich - leider - nicht befassen.

    Behauptung:
     
    Auch nicht-lineare, quasi-funktionale Zusammenhänge in den Rohdaten können zu sehr hohen linearen Korrelationskoeffizienten führen, wie durch das Beispiel "Urdatenliste" und deren Korrelationen durch Modellbildung bewiesen wird:

    Beispiel Urdatenliste (N=15, V=8)

    i\j:  1     2     3     4      5      6      7      8
     1    1     1     1     1      1      1      1      1
     2    3     9     27    81     243    729    2187   6561
     3    1     1     1     1      1      1      1      1
     4    4     16    64    256    1024   4096   16384  65536
     5    1     1     1     1      1      1      1      1
     6    3     9     27    81     243    729    2187   6561
     7    2     4     8     16     32     64     128    256
     8    1     1     1     1      1      1      1      1
     9    4     16    64    256    1024   4096   16384  65536
     10   3     9     27    81     243    729    2187   6561
     11   2     4     8     16     32     64     128    256
     12   2     4     8     16     32     64     128    256
     13   3     9     27    81     243    729    2187   6561
     14   2     4     8     16     32     64     128    256
     15   2     4     8     16     32     64     128    256

    Die Urdatenliste wurde konstruiert nach X=X^k für K=1,2,....,8, wobei von den 15 Zeilen 11 gleiche vorkommen. Es gibt also neben der vollständigen funktionalen Abhängigkeit der Werte nach der Konstruktionsregel auch noch zusätzlich 11 lineare Abhängigkeiten.
    Nach der Theorie gilt: Zeilenrang = Spaltenrang. Nachdem die Zeilen 1,3,5,8 [3 LA]; 2,6,10,13 [3 LA]; 4,9 [1 LA]; 7,11,14,15 [4 LA]  gleich sind, finden sich in den 15 Zeilen insgesamt 11 lineare Abhängigkeiten, also ist nach den Zeilen der Rang 4 und nach dem Satz Zeilenrang = Spaltenrang auch der Spaltenrang = 4.

    Standard Matrix Analyse

    Abstract (für Quelle Korrelationen RWE3B.D08)

    Samp _Ord_ MD_ NumS_ Condition_ Determinant_HaInRatioR_ OutInK_ Norm_ C Norm
     15    8    0   --3    4.3D+18      0       7.31D-51    797.9   0(6)  -1(-1)

    **********    Summary of standard correlation matrix analysis   ***********
    File = RWE3B.D08     N-order= 8   N-sample= 15   Rank= 8   Missing data =  0
    Positiv Definit=Cholesky successful________= No with  3 negat. eigenvalue/s
    HEVA: Highest eigenvalue abs.value_________=    7.5584045376409071
    LEVA: Lowest eigenvalue absolute value_____=    1.7347234759768071D-18
    CON: Condition number HEVA/LEVA___________~=    4.3571235659820871D+18
    DET: Determinant original matrix (OMIKRON)_=   -1.7356107677457671D-88
    DET: Determinant (CHOLESKY-Diagonal^2)_____=   -999 (not positive definit)
    DET: Determinant (PESO-CHOLESKY)___________=   -999 (not positive definit)
    DET: Determinant (product eigenvalues)_____=   -1.4411511391474387D-88
    DET: Determ.abs.val.(PESO prod.red.norms)__=    4.6722614410629956D-88
    HAC: HADAMARD condition number_____________=    6.6338901598846685D-92
    HCN: Heuristic condition |DET|CON__________=    3.9833866115168662D-107
    D_I: Determinant Inverse absolute value____=    5.7616604977555681D+87
    HDA: HADAMARD Inequality absolute value___<=    7.8742172465472728D+137
    HIR: HADAMARD RATIO: D_I / HDA ____________=    7.3171215847289083D-51
    Highest inverse positive diagonal value____=    2.5325570432493188D+16
      thus multiple r( 8.rest)_________________=    1
      and  2 multiple r > .99
    Highest inverse negative diagonal value____=   -3.3275022858770112D+16
      thus multiple r( 1.rest)_________________=    1 (!)
      and there are  6 multiple r > 1 (!)
     Maximum range (upp-low) multip-r( 8.rest)_=    .018
    LES: Numerical stability analysis:
     Ratio maximum range output / input _______=    797.92139607602617
    PESO-Analysis correlation least Ratio RN/ON=    0 (<-> Angle = 0 )
    Number of Ratios correlation RN/ON < .01__ =    6
    PESO-Analysis Cholesky least Ratio RN/ON__ = (Not positiv definit)

     Ncor  L1-Norm  L2-Norm  Max  Min    m|c|   s|c|  N_comp   M-S   S-S
      64    60.4     7.57    1    .757   .936   .069   378    .075  .065

     class boundaries and distribution of the correlation coefficients
     -1  -.8  -.6  -.4  -.2   0    .2   .4   .6   .8   1
        0    0    0    0    0    0    0    0    4    60

    Korrelationsmatrix
    Original data with  17, input read with  17, computet with 19,
     and showed with  3 digit accuracy
    (for control here the analysed original matrix):

    z/s    1     2     3     4     5     6    7      8
    1    1     .981  .937  .889  .846  .809  .780  .757
    2    .981  1     .987  .960  .931  .903  .880  .860
    3    .937  .987  1     .992  .976  .958  .942  .927
    4    .889  .960  .992  1     .995  .986  .975  .965
    5    .846  .931  .976  .995  1     .997  .992  .986
    6    .809  .903  .958  .986  .997  1     .998  .995
    7    .780  .880  .942  .975  .992  .998  1     .999
    8    .757  .860  .927  .965  .986  .995  .999  1

    i.Eigenvalue  Cholesky   i.Eigenvalue  Cholesky   i.Eigenvalue  Cholesky
      1.  7.5584    1         2.  .43077    .1963       3.  .01082   .0348
      4.  0         0         5.  0        -.991        6.  0       -1.9669
      7.  0        -2.9319    8.  0        -3.8919
     The matrix is not positive definit. Cholesky decomposition is not success-

    Eigenvalues in per cent of trace =  8
      1     .9448   2     .0538   3     0,0014     4     0       5     0
      6     0       7     0       8     0

    Eigenvectors:
     .327 -.663  .562  .045  .173 -.237 -.21  -.075
     .351 -.405 -.173 -.28  -.281  .574  .306  .32
     .361 -.168 -.444  .412  .018 -.206  .42  -.505
     .363  .02  -.397 -6D-3 -.409 -.393 -.555  .282
     .362  .161 -.202  .076  .626  .454 -.438 -.082
     .358  .265  .032 -.325  .425 -.421  .416  .407
     .354  .34   .253 -.524 -.288  .047 -.045 -.577
     .351  .395  .44   .603 -.261  .178  .106  .23
     

    [Intern: analysed: 10/19/02 16:41:18  PRG version 05/24/94  MA9.BAS
    File = C:\OMI\NUMERIK\MATRIX\SMA\RWE3B\RWE3B.SMA
     with data from C:\OMI\NUMERIK\MATRIX\SMA\RWE3B\RWE3B.D08
    Date: 10/19/02  Time:16:41:18]



    Befund
    Mathematisch bedeutet zwei Meßwertreihen zu korrelieren, daß die zwei Regressionsgeraden so bestimmt werden, daß die quadrierten Abstände zu diesen Regressionsgeraden ein Minimum ergeben. Der Winkel, den die beiden Regressionsgeraden eingehen gibt den Grad der Korrelation an. Stehen die beiden Geraden senkrecht aufeinander, so gibt es keinen Zusammenhang, die Korrelation ist 0. Fallen die beiden Regressionsgeraden zusammen in ein einzige Gerade, ist die Korrelation, je nach Richtung, +- 1. Man kann diese Prozedur auch als einen Formalismus des Linearisierens bezeichnen, wobei natürlich auch andere und beliebige Anpassungskurven möglich sind. Was immer auch die Ursprungswerte für eine Beziehung zueinander haben: am Ende der Korrelations-Prozedur werden sie durch je zwei Geraden repräsentiert. Das eigentlich Erstaunliche und Überraschende ist, daß auch hochgradig nicht-lineare funktionale Beziehungen in den Rohdaten durch die Korrelationsprozedur - zumindest in einigen Fällen - einen sehr hohen linearen Korreleationskoeffizienten ergeben können, so daß wieder einmal die Frage aufwirft: was bedeuten Korrelationskoeffizienten eigentlich genau, d.h. wann bedeuten sie was?

    Vermutung
    In vielen nicht-linearen Beziehungen sind lineare Beziehungen unterschiedlich ausgeprägt "enthalten". So betrachtet könnt der lineare Korrelationskoeffizient auch Ausdruck von Linearität in nicht-linearen Beziehungen sein. Eine andere Interpretation wäre, daß nicht-lineare Beziehungen durch die Unterwerfung einer Korrelationsprozedur "künstlich" (technisch. artefiziell) "linearisiert" werden.

    Fragen
    (1) Ist das mit allen funktionalen bzw. fast-funktionalen Abhängigkeiten so? Falls nein: (2) unter welchen Bedingungen ist das der Fall bzw. (3) nicht der Fall? (4) Was bedeutet der Zahlenwert, wie kann man den Zahlenwert des Korrelationskoeffizienten - besonders in nicht-linearen Beziehungen - interpretieren? (5) Ist der Korrelationskoeffizient aufgrund seiner Vieldeutigkeit überhaupt als interpretationsfähiges Zusammenhangs-Maß geeignet? Diese Frage stellt sich verschärft, wenn man sich klar macht, daß "die" Korrelation zwischen zwei Variablen nicht die Korrelation zwischen den beiden, sondern die Korrelation der beiden und der - verdeckt - mit ihnen verbundenen Variablen ausdrückt (> partielle Korrelationen) und daß nicht-lineare Beziehungen hohe oder niedrige Korreleationskoeffzienten hervorrufen und starke lineare Zusammenhänge unkorreliert erscheinen können.

    Folgerungen
    Geboten scheint die Unterscheidung zwischen linerarer Abhängigkeit und ihrer Bedeutung. Auch aus sehr hohen - fast Funktionalität anzeigenden - Korrelationskoeffizienten kann nicht auf lineare Zusammenhänge in den Rohdaten geschlossen werden.  Auch nicht-lineare, quasi-funktionale Zusammenhänge in den Rohdaten erscheinen in der Korrelationsmatrix als scheinbar lineare - weil sie durch die Korrelationsprozedur linearisiert werden. Andererseits erscheinen offenkundig hochgradig lineare Abhängigkeiten als unkorreliert (Beispiel).

    Paradox
    Wieso nicht-lineare Beziehungen in den Rohdaten durch die Korrelationsprozedur zu hochgradig linearen Zusammenhängen wie sie sich in Korrelationskoeffizienten nahe oder gar = |1| ausdrücken führen können erscheint paradox und widerspruchsvoll.
     



    Faktorenanalytische Interpretation

    Vorbemerkung: Bevor in dieser Matrix die Faktoren berechnet werden können, müssen erst die negativen Eigenwerte beseitigt werden. Das kann hier durch 0 setzen geschehen, weil die negativen Eigenwerte erst ab der 17 Nachkommastelle wirksam werden.

    Beispiel und Matrix scheinen auf den ersten Blick ein Musterbeispiel für eine Generalfaktorlösung. Der erste Eigenwert erklärt 94,48% der Varianz. Das ist eine ganze Menge. Die Interpretation eines Generalfaktores macht hier Sinn, denn im Grunde gibt es nur eine einzige Variable x, die etwas verrauscht durchpotenziert wird. Während in den Urdaten 7 minimal verrauschte nicht-lineare Abhängigkeiten vorliegen, erkennt die faktorenanalytische Interpretation im wesentlichen einen sog. General- Faktor. Das ist ein Argument für die Sinnig- oder Nützlichkeitkeit faktorenanalytischer Interpretation. [Zur Kritik der Faktorenanalyse].

    Einerseits zeigt die genaue Residualanalyse, daß die Reproduktion der Original-Korrelationsmatrix durch die Generalfaktor- Lösung ziemlich ungenau ist. Eine sehr gute Reproduktion ergibt sich erst durch die 2-faktorielle Lösung, woran man - zumindest für dieses Beispiel - sehen kann, daß ungefähr 99% der Eigenwertsumme nötig sind, um eine wirklich gute Reproduktion der ursprünglichen Korrelationsmatrix zu erhalten.
        Andererseits spricht dieses Beispiel für eine großzügigere Fehlertoleranz-Praxis. Wir wissen ja, daß es hier nur einen Generalfaktor gibt, so daß man von diesem Beispiel her gesehen, Reproduktionsgüten auf der Basis von Eigenwertbeträgen > 90%  tolerieren könnte, was man noch genauer zu untersuchen müßte.

    1-faktorielle bzw. Generalfaktorlösung

    Analysis from 10/19/02  19:20:12  with  KORFAK1.BAS (08/31/94)
     1 Factors data from file C:\OMI\NUMERIK\MATRIX\SMA\RWE3B\FAK\RWE3B.F1
    Reproduction matrix in C:\OMI\NUMERIK\MATRIX\FAK\NEU\RWE3BIMA
    Reproduction correlations in C:\OMI\NUMERIK\MATRIX\FAK\NEU\RWED.F08
    Einlesen im MAT-Format 11,12,13,...N*M-Wwerte
    eingelesen  8 urspruengl. Zahl Variable
    reproduziert durch  1 Faktoren
    Eingelesen 8 urspruengl. Variablenzahl
    Reproduziert durch 1 Faktoren

    Faktormatrix F:
     .898
     .964
     .993
     .999
     .994
     .985
     .974
     .965

    Transpose Factor Matrix F' :
     .898  .964  .993  .999  .994  .985  .974  .965

    Reproduction Matrix F * F' with DET= -1.3387182418693085D-135
     .807  .866  .892  .898  .893  .885  .875  .867
     .866  .929  .957  .963  .958  .949  .939  .930
     .892  .957  .986  .992  .987  .978  .967  .958
     .898  .963  .992  .998  .993  .984  .974  .964
     .893  .958  .987  .993  .988  .979  .969  .959
     .885  .949  .978  .984  .979  .970  .960  .950
     .875  .939  .967  .974  .969  .960 .950  .940
     .867  .930  .958  .964  .959  .950  .940  .931

    Residualanalyse 1-faktorielle (generalfaktorielle) Lösung

    Residual-Analysis: Mean= .03935459  Sigma= .03677616  Maximum range= .192888 (r1.1)

    Matrix residuals (whole matrix inclusive diagonal):
      Mean absolute values of residuals =  .039354587174156118
      Sigma absolute values of residuals =  .036776159986607634
      Maximum range absolute values =  .19288800268411586 (r1.1)

    Matrix residuals upper triangular matrix without diagonal:
      Mean absolute values of residuals =  .037091037799766047
      Sigma absolute values of residuals =  .03212778
      Maximum range absolute values =  .11456271398847758 (r1.2)
     

    2-faktorielle Lösung

    Analysis from 10/19/02  19:22:40  with  KORFAK1.BAS (08/31/94)
     2 Factors data from file C:\OMI\NUMERIK\MATRIX\SMA\RWE3B\FAK\RWE3B.F2
    Reproduction matrix in C:\OMI\NUMERIK\MATRIX\FAK\NEU\RWE3BIMA
    Reproduction correlations in C:\OMI\NUMERIK\MATRIX\FAK\NEU\RWED.F08
    Einlesen im MAT-Format 11,12,13,...N*M-Wwerte
    eingelesen  8 urspruengl. Zahl Variable
    reproduziert durch  2 Faktoren
    Eingelesen 8 urspruengl. Variablenzahl
    Reproduziert durch 2 Faktoren

    Faktormatrix F:
     .898 -.435
     .964 -.266
     .993 -.111
     .999  .013
     .994  .106
     .985  .174
     .974  .223
     .965  .259

    Transpose Factor Matrix F' :
     .898  .964  .993  .999  .994  .985  .974  .965
    -.435 -.266 -.111  .013  .106  .174  .223  .259

    Reproduction Matrix F * F' with DET=  3.2133565966049679D-116
     .997  .982  .94   .892  .847  .809  .778  .754
     .982  1     .986  .96   .93   .903  .88   .861
     .94   .986  .998  .99   .975  .959  .943  .929
     .892  .96   .99   .998  .995  .986  .976  .967
     .847  .93   .975  .995  1     .997  .992  .987
     .809  .903  .959  .986  .997  1     .998  .995
     .778  .88   .943  .976  .992  .998  .999  .998
     .754  .861  .929  .967  .987  .995  .998  .998

    Residualanalyse 2-faktorielle Lösung

    Residual-Analysis: Mean= 0,00105997  Sigma= 0,00084087 Maximum range= 0,00341534 (r1.1)

    Matrix residuals (whole matrix inclusive diagonal):
      Mean absolute values of residuals =  0,0010599715600319786
      Sigma absolute values of residuals =  0,00084086582805294614
      Maximum range absolute values =  0,0034153443448344399 (r1.1)

    Matrix residuals upper triangular matrix without diagonal:
      Mean absolute values of residuals =  0,0010181110908423096
      Sigma absolute values of residuals =  0.00078832
      Maximum range absolute values =  0,002701991536163343 (r1.3)



    Änderungen wird gelegentlich überarbeitet, ergänzt und vertieft * Anregungen und Kritik willkommen
    00.00.00



    Querverweise
    Standort: Standard-Matrix-Analyse (SMA) und Nicht-Linearitäts-Paradox in Korrelationsmatrizen.
    *
    Basisdaten einer Fehlersimulation mit Parametern eines Quaders zur explorativen Untersuchung des Verhaltens der Eigenwerte und Faktoren in Abhängigkeit vom variierten Fehlerbereich 1-50% *  Thurstone'scher Trapezoid * Kritik Faktorenanalyse * Überblick: Numerisch instabile Matrizen in der Psychologie *
    *
    Suchen in der IP-GIPT, z.B. mit Hilfe von "google": <suchbegriff> site:www.sgipt.org
    z.B. Paradoxien Korrelation site:www.sgipt.org. 
    *
    Dienstleistungs-Info.
    *

    Fußnoten
    1) GIPT= General and Integrative Psychotherapy, internationale Bezeichnung für Allgemeine und Integrative Psychotherapie.

    Zitierung
    Sponsel, R.  (DAS). Standard-Matrix-Ananalyse (SMA) und Nicht-Linearitäts-Paradox in Korrelationsmatrizen. Mit Erörterungen zur Reproduktionsgüte Beispieldokumentation und eine Vermutung. IP-GIPT. Erlangen:  https://www.sgipt.org/wisms/nis/sma/linpara.htm
    Copyright & Nutzungsrechte
    Diese Seite darf von jeder/m in nicht-kommerziellen Verwertungen frei aber nur original bearbeitet und nicht  inhaltlich verändert und nur bei vollständiger Angabe der Zitierungs-Quelle benutzt werden. Das Einbinden in fremde Seiten oder Rahmen, die die Urheberschaft der IP-GIPT nicht jederzeit klar erkennen lassen, ist nicht gestattet. Sofern die Rechte anderer berührt sind, sind diese dort zu erkunden. Sollten wir die Rechte anderer unberechtigt genutzt haben, bitten wir um Mitteilung. Soweit es um (längere) Zitate aus  ...  geht, sind die Rechte bei/m ... zu erkunden oder eine Erlaubnis einzuholen.
    Ende  SMA und Linearitäts-Paradox
    _ Überblick _Relativ Aktuelles  _ Rel. Beständiges  _ Titelblatt  _  Konzept  _  Archiv _ Region _ Service iec-verlag  _ _ Wichtige Hinweise zu Links und Empfehlungen