Internet Publikation für Allgemeine und Integrative Psychotherapie
(ISSN 1430-6972)
IP-GIPT DAS=22.04.2001 Internet-Erstausgabe, letzte Änderung: 19.01.20
Impressum: Diplom-Psychologe Dr. phil. Rudolf Sponsel Stubenlohstr. 20 D-91052 Erlangen
Mail: sekretariat@sgipt.org_ Zitierung & Copyright
Anfang _ Bilanzkennzahzlen Chemische Ind. _Datenschutz_Überblick _ Relativ Aktuelles _ Rel. Beständiges _ Titelblatt _ Konzept _ Archiv _ Region _ Service iec-verlag _ Wichtige Hinweise zu Links und Empfehlungen_
Willkommen in der Abteilung Kritik der Handhabung der Faktorenanalyse, hier (noch nicht zweit-korrigiert):Dokumentation-01
Bilanzkennzahlen
der Chemischen Industrie
in
den Jahren 1965 bis 1980
Eine korrelative, faktorenanalytische und numerische Studie
von Rudolf Sponsel, Erlangen
Datenquelle: HARTUNG, J. & ELPELT, B. (1984). Multivariate Statistik". München, S. 641
Eine
Erklärung der Kennwerte der Matrixanalysen finden professionell Interessierte
hier
Für
numerische Laien empfehle ich vorab diese Seite
Übersichtsseite:
Wissenschaft in der SGIPT
Bei der Durchsicht der "Multivariaten Statistik"
von Hartung & Elpelt (1984, S. 641) stieß ich mehr zufällig
auf die dort veröffentlichten Rohdaten "Bilanzkennzahlen der Chemischen
Industrie in den Jahren 1965 bis 1980. Zur Durchführung von numerischen
Rundungsexperimenten sind Rohdaten, aus denen Korrelationsmatrizen gerechnet
werden können, sehr nützlich. Das war damals, 1994, wahrscheinlich
der Grund (ich weiß es nicht mehr genau) für die Berechnung.
Die Produkt-Moment-Korrelationsmethode führte zu einer originären
7*7 Korrelationsmatrix. Die erste Matrixanalyse erbrachte für mich
überraschend, daß zwei Eigenwerte "sehr
nahe" bei 0 lagen (0.00698 und 0.00098), zeigte also zwei Kollinearitäten
(lineare Abhängigkeiten) an, so daß eine 5er Hauptkomponenten-
Faktorenanalyse sehr erfolgversprechend war. Aus den fünf-Faktoren
rechnete ich daraufhin die Matrix zurück, um zu vergleichen, wie genau
die Reproduktion war. Sie war so gut, daß eine 2. Matrixanalyse mit
der aus den 5 Faktoren rückgerechneten 'Korrelationsmatrix' nur eine
mittlere Abweichung vom Betrage 0.0006 mit einem maximalen Abweichungsbetrag
0.0047 ergab. Diese Ergebnisse entsprechen im hohen Maße einer intuitiven
Vorstellung von fast "gleich". Obwohl die Abweichungen minimal sind, zeigt
doch die Matrixanalyse der aus den 5 Faktoren rückgerechneten Korrelationsmatrix
einen sehr kleinen negativen Eigenwert mit -.0000000000000000067220534694101275
an, der aber genügt, um die Matrix restlos entgleisen zu lassen mit
einer Reihe von imaginären Werten und der Folge, daß vier multiple
Korrelationskoeffizienten unzulässige Werte > 1 produzieren. Die Matrix
wurde "psychotisch". Das ist hier nicht weiter schlimm, wenn man vor
der
multivariaten Weiterverarbeitung die Matrix in Ordnung bringt. Das ist
im vorliegenden Fall besonders einfach, wenn man die Fast-Einsen in der
Hauptdiagonale auf 1 rundet. Die 3. Matrixanalyse bestätigt, daß
die Matrix dann wieder positiv definit wird. Vergleicht man die Konditionzahl
zur Schätzung der numerischen Stabilität der ersten und originären
Korrelationsmatrix (5163) mit der aus der 3. Matrixanalyse (6842),
so sind beide zwar sehr hoch, aber noch in der gleichen Größenordnung.
Die Konditionszahl der aus den 5-Faktoren rückgerechneten Matrix mit
1110000000000000000, also einer guten Trillion, zeigt eindrucksvoll, wie
minimalste Veränderungen im 10.000stel Bereich in der Haupdiagonale
extrem auf die numerische Stabilität der Matrix einwirken. Das genau
illustriert den Sinn von Stabilität bzw. Instabilität sehr gut.
|
Urdatenliste
(nach Quelle Tabelle 9, S. 641):
i (Jahr)\j
(Variable):
1=AI 2=EA 3=ER 4=UR
5=LIQ 6=DVR 7=KU
1
44.9 43.6 15.6 5.8
142.8 30.3 119.5
2
46.2 42.7 17.7 6.5
122 31 117.6
3
43.5 42.5 12.1 4.6
131.6 27.4 113.5
4
40.3 43.1 13.8 5.5
156.2 27.1 111.3
5
38.3 41.1 15.8 6
134.7 24.9 110.4
6
40.4 39.2 11.2 4.3
127.3 21.3 104.1
7
40.4 38.9 9.1
3.4 131.5 18.7 106.3
8
40.2 39 9.6
3.6 128.6 18.9 106
9
38 38.6 8.7
3 124.8 18.4
113.8
10
35.1 37.6 10.7 3.1
119.3 19 131.7
11
36.2 38.5 7.4
2.4 128.3 16.7 120.7
12
35.7 37.9 10.7 3.2
121.4 18.7 131.9
13
35.2 39 8.1
2.5 129.6 17.6 131.2
14
34.5 39.1 9
2.7 132.6 18.1 131
15
31.6 38 10.2
2.8 123.9 18.4 143.1
16
31.3 38.3 9
2.4 121.6 17.8 149.5
Die Matrix wird hier nur in dreistelliger Genauigkeit angegeben. Sie wurde auf Atari mit Omikron-Basic mit 17-stelliger (doppelter Genauigkeit) gerechnet.
Original
input data with 17-digit-accuracy and read with
17-digit-accuracy
(for control here the analysed original matrix):
1
.793 .672 .8 .377 .815 -.742
.793
1 .802 .872 .685 .949 -.428
.672
.802 1 .96 .341 .923 -.296
.8
.872 .96 1 .482 .94
-.531
.377
.685 .341 .482 1 .483 -.415
.815
.949 .923 .94 .483 1 -.379
-.742
-.428 -.296 -.531 -.415 -.379 1
Numerische Laien hier und Professionell Interessierte hier |
Samp Or
MD NumS Condit Determinant HaInRatio R_OutIn
K_Norm C_Norm
16
7 0 - 5163 .000000139
.0000000013 59230 .03(0) .042(2)
**********
Summary of standard correlation matrix analysis ***********
File =
H641A16.D07 N-order= 7 N-sample= 16
Rank= 7 Missing data = 0
Positiv
Definit=Cholesky successful________= Yes with 0 negat. eigenvalue/s
HEVA:
Highest eigenvalue abs.value_________= 5.0394588345069376
LEVA:
Lowest eigenvalue absolute value_____= 9.7606899236595901D-4
CON: Condition
number HEVA/LEVA___________~= 5163.0149855405772
DET: Determinant
original matrix___________= 1.3904058985278835D-7
HAC: HADAMARD
condition number_____________= 1.4172973438030602D-9
HCN: Heuristic
condition |DET|CON__________= 2.6930115493017602D-11
D_I: Determinant
Inverse absolute value____= 7192144
HDA: HADAMARD
Inequality absolute value___<= 5.519269913256784D+15
HIR: HADAMARD
RATIO: D_I / HDA ____________= 1.3030970609009614D-9
Highest
inverse positive diagonal value____= 566.772907622
thus multiple r( 4.rest)_________________= .999117423
and 5 multiple r > .99
There
are no negative inverse diagonal values.
Maximum
range (upp-low) multip-r( 5.rest)_= .088
LES: Numerical
stability analysis:
Ratio
maximum range output / input _______= 59229.755251538215
PESO-Analysis
correlation least Ratio RN/ON= .030233 (<-> Angle = 1.73 )
Number
of Ratios correlation RN/ON < .01__ = 0
PESO-Analysis
Cholesky least Ratio RN/ON__ = .042004 (<-> Angle = 2.41 )
Number
of Ratios Cholesky RN/ON < .1 _____ = 2
Ncor
L1-Norm L2-Norm Max Min m|c|
s|c| N_comp M-S S-S
49 34.4 5.19 1 -.742
.652 .223 210
.266 .183
class
boundaries and distribution of the correlation-coefficients
-1
-.8 -.6 -.4 -.2 0 .2
.4 .6 .8 1
0 2 6 4
0 0 4 4
6 23
Original
input data with 17-digit-accuracy and read with
17-digit-accuracy
(for control here the analysed original matrix):
1
.793 .672 .8 .377 .815 -.742
.793
1 .802 .872 .685 .949 -.428
.672
.802 1 .96 .341 .923 -.296
.8
.872 .96 1 .482 .94
-.531
.377
.685 .341 .482 1 .483 -.415
.815
.949 .923 .94 .483 1 -.379
-.742
-.428 -.296 -.531 -.415 -.379 1
i.Eigenvalue
Cholesky i.Eigenvalue Cholesky i.Eigenvalue
Cholesky
1. 5.03946 1
2. .95064 .6091
3. .75552 .5941
4. .22089 .1735 5.
.02554 .437
6. 6.98D-3 .0987
7. 9.8D-4 .1377
Cholesky
decomposition successful, thus the matrix is (semi) positive definit.
analysed:
12.04.94 20:07:34 PRG version 15/03/94 MA_BAT6.BAS
Gesamtzeit_____________ 42
Ergebnis: Die Korrelationsmatrix zeigt zwei Eigenwerte "sehr" nahe bei 0 (0.00698 und 0.00098), weshalb eine Faktorenanalyse mit einer 5-Faktorenlösung sehr erfolgversprechend und numerisch begründet erscheint, zumal die Matrix positiv definit ist, wie aus der gelungenen Choleskyzerlegung folgt, aber auch alle sämtlich positiven Eigenwerte anzeigen, was aufgrund der schlechten numerischen Eigenschaften von Matrizen und Computern keineswegs selbstverständlich ist; hier liegt eher ein Glücksfall vor. Andererseits wäre es aber auch kein Problem gewesen, mögliche "sehr" kleine negative Eigenwerte mit Hilfe der Centroidmethode von Thurstone oder der Singulärwertzerlegung SVD zu "therapieren" (wird später noch behandelt) - aber: man muß es auch tun, sonst kann es aufgrund völlig entgleister ("psychotischer") Werte zu bösen Überraschungen kommen. |
Die Faktorisierung
der Matrix K = FF' bedeutet, daß die Korrelationsmatrix in zwei Matrizen
aus Faktoren derart zerlegt wird, daß die Matrix der Faktoren (F)
multipliziert mit ihrer Transponierten (F') die Korrelationsmatrix reproduziert.
Dies funktioniert nur, wenn die Matrix positiv definit ist, was sie sein
soll, aber nicht immer ist. Man muß hier aufpassen, denn es gilt
zu unterscheiden zwischen phänotypischen und genotypischen Korrelationsmatrizen.:
eine genotypische sieht aus wie phänotypische und ist auch eine, weil
positiv definit, eine phänotypische Korrelationsmatrix sieht u. U.
nur so aus (quadratisch, symmetrisch, Hauptdiagonalen 1, und für alle
alle Koeffizienten gilt: -1 <= K > +1, obwohl sie, wie z. B. negative
Eigenwerte anzeigen, entgleist (für Kliniker: "psychotisch" wird).
Daten in
C:\OMI\NUMERIK\MATRIX\SMA\H641A16\H641A5FD.IMA
Ursprungsmatrix
A von C:\OMI\NUMERIK\MATRIX\SMA\H641A16\H641A5FD.FAK
Faktorrückgerechnete
Korrelationen HD=1 in:
C:\OMI\NUMERIK\MATRIX\SMA\H641A16\H641A5FD.F07
Auswertung
vom 12.04.94 23:46:56
.8848
-.212 .3176 -.2496 .0935
.9488
.0823 -.2153 -.1909 -.0941
.8793
.4103 .0964 .2166 .0433
.9641
.1523 .0905 .195 -.0123
.609
-.3468 -.7085 .0621 .0536
.9564
.2614 2D-3 -.1082 -.0227
-.6067
.7202 -.298 -.1471 .0503
Ursprungsmatrix
B von
.8848
.9488 .8793 .9641 .609
.9564 -.6067
-.212
.0823 .4103 .1523 -.3468 .2614
.7202
.3176
-.2153 .0964 .0905 -.7085 2D-3
-.298
-.2496
-.1909 .2166 .195 .0621
-.1082 -.1471
.0935
-.0941 .0433 -.0123 .0536 -.0227
.0503
Produkt-Matrix
A * B mit Determinante= -1.3679202680667077D-40
.9997
.7925 .6717 .7997 .3769
.8164 -.7427
.7925
.9986 .8018 .8717 .6849
.9513 -.4288
.6717
.8018 .9996 .9607 .3406
.924 -.2964
.7997
.8717 .9607 .9991 .4816
.9413 -.5315
.3769
.6849 .3406 .4816 1
.4824 -.4146
.8164
.9513 .924 .9413 .4824
.9953 -.3778
-.7427
-.4288 -.2964 -.5315 -.4146 -.3778
.9998
5.
Vergleichsanalyse zwischen Originärer Korrelations- und aus 5-Faktoren
rückgerechneter 'Korrelationsmatrix'
*******************
Residual analysis *********************
Matrix
residuals (whole matrix inclusive diagonal):
Mean absolute values of residuals = 6.0572659716564304D-4
Sigma absolute values of residuals = 8.0376863274828258D-4
Maximum range absolute values = 4.6626932473200503D-3 (r6.6)
Matrix
residuals upper triangular matrix without diagonal:
Mean absolute values of residuals = 5.1731670278616708D-4
Sigma absolute values of residuals = 5.6597583770644069D-4
Maximum range absolute values = 2.5512331849943305D-3 (r2.6)
6.
Die 2. Matrix-Analyse der aus den 5-Faktoren rückgerechneten
7*7 Korrelationsmatrix, wobei die Hauptdiagonalelemente wie rückgerechnet
belassen wurden.
Numerische Laien hier und Professionell Interessierte hier |
H641A5FD.F07
Samp
Or MD NumS Condit Determinant HaInRatio
R_OutIn K_Norm C_Norm
16
7 0 --1 1.1D+18
0 2.72D-82 59229.8
0(2) -1(-1)
**********
Summary of standard correlation matrix analysis ***********
File =
H641A5FD.F07 N-order= 7 N-sample= 16 Rank=
7 Missing data = 0
Positiv
Definit=Cholesky successful________= No with 1 negat. eigenvalue/s
HEVA:
Highest eigenvalue abs.value_________= 5.0394588345069375
LEVA:
Lowest eigenvalue absolute value_____= 4.3368086899420177D-18
CON: Condition
number HEVA/LEVA___________~= 1.1620200923768012D+18
DET: Determinant
original matrix (OMIKRON)_= -6.0521944228970387D-37
DET: Determinant
(CHOLESKY-Diagonal^2)_____= -999 (not positive definit)
DET: Determinant
(PESO-CHOLESKY)___________= -999 (not positive definit)
DET: Determinant
(product eigenvalues)_____= -5.9518242913044131D-37
DET: Determ.abs.val.(PESO
prod.red.norms)__= 7.1980499862686598D-37
HAC: HADAMARD
condition number_____________= 6.1692821860382305D-39
HCN: Heuristic
condition |DET|CON__________= 5.2083388769275519D-55
D_I: Determinant
Inverse absolute value____= 1.652293251216018D+36
HDA: HADAMARD
Inequality absolute value___<= 6.0569163549289598D+117
HIR: HADAMARD
RATIO: D_I / HDA ____________= 2.7279446411232426D-82
Highest
inverse positive diagonal value____= 8.7207402937168458D+16
thus multiple r( 4.rest)_________________= 1
and 3 multiple r > .99
Highest
inverse negative diagonal value____= -1.0818433882826868D+15
thus multiple r( 5.rest)_________________= 1 (!)
and there are 4 multiple r > 1 (!)
Maximum
range (upp-low) multip-r( 5.rest)_= .088
LES: Numerical
stability analysis:
Ratio
maximum range output / input _______= 59229.755251538215
PESO-Analysis
correlation least Ratio RN/ON= 0 (<-> Angle = 0 )
Number
of Ratios correlation RN/ON < .01__ = 2
PESO-Analysis
Cholesky least Ratio RN/ON__ = (Not positiv definit)
Ncor
L1-Norm L2-Norm Max Min
m|c| s|c| N_comp M-S
S-S
49 34.4 5.19
1 -.743 .652 .223
210 .267 .183
class
boundaries and distribution of the correlation coefficients
-1
-.8 -.6 -.4 -.2 0 .2
.4 .6 .8 1
0 2 6 4
0 0 4 4
8 21
Original
data with 17, input read with 17, computet with 19,
and
showed with 5 digit accuracy
(for control
here the analysed original matrix):
Aus-5-Faktoren-rückgerechnete
Matrix
.99975
.79253 .67166 .79972 .37691 .81641 -.74271
.79253
.99858 .8018 .87168 .68491 .95129 -.42882
.67166
.8018 .99957 .96065 .34063 .92401 -.29639
.79972
.87168 .96065 .99906 .48163 .94129 -.5
.37691
.68491 .34063 .48163 .99996 .48241 -.41461
.81641
.95129 .92401 .94129 .48241 .99534 -.37781
-.74271
-.42882 -.29639 -.5 -.41461 -.37781 .99979
i.Eigenvalue
Cholesky i.Eigenvalue Cholesky i.Eigenvalue
Cholesky
1. 5.03946 .9999 2. .95064
.6085 3. .75552 .5936
4. .22089 .1695 5.
.02554 .4239 6.
0 0
7. 0 -.1427
The matrix
is not positive definit. Cholesky decomposition is not success-
Eigenvalues
in per cent of trace = 6.9920466982559025
1 .7207 2 .136 3 .1081 4 .0316
5 3.7D-3 6 0
7 0
Anmerkung zu dem "sehr" kleinen negativen Eigenwert und den Folgen
Die vollstaendige Nachkommaausgabe der Eigenwerte
ergibt:
5.0394588345069375 .95063997598015075 .75551885824615693 .22089318183831747 .025535847684339808 4.3368086899420177D-18 -6.7220534694101275D-18 = -.0000000000000000067220534694101275 Obwohl man diesen negativen Eigenwert für Zahlengenauigkeiten auf PC's als praktisch "klein" bezeichnen kann, führt er doch zu einer Entgleisgung der Matrix und produziert 4 multiple Korrelationskoeffizienten > 1 und eine Reihe von imaginären Werten (negative Zahlen in der Wurzel), nämlich: Multiple correlations of original matrix and derived
reduced norms (Cholesky)
|
analysed:
04/21/01 00:52:42 PRG version 05/24/94 MA9.BAS
Gesamtzeit_____________ 47.42
Rang_____________ 0
Determinante_____ 5E-3
Eigenwerte/Vekt__ 0
Peso Kor+Chol____ .46
NuStabAnalyse____ .115
Statistik________ .045
File =
C:\OMI\NUMERIK\MATRIX\SMA\H641A5FD\H641A5FD.SMA
with
data from C:\OMI\NUMERIK\MATRIX\SMA\H641A5FD\H641A5FD.F07
Date:
04/21/01 Time:00:52:42
7.
Die 3. Matrix-Analyse der aus den 5-Faktoren rückgerechneten 7*7 Korrelationsmatrix,
wobei die Hauptdiagonalelemente auf 1 gerundet bzw. gesetzt wurden.
Numerische Laien hier und Professionell Interessierte hier |
Samp
Or MD NumS Condit Determinant HaInRatio
R_OutIn K_Norm C_Norm
-1
7 -1 - 6842
.000000054 3.53 D-10 59230 0(2)
.036(2)
**********
Summary of standard correlation matrix analysis ***********
File =
H641A5F1.F07 N-order= 7 N-sample=-1
Rank= 7 Missing data = ?
Positiv
Definit=Cholesky successful________= Yes with 0 negat. eigenvalue/s
HEVA:
Highest eigenvalue abs.value_________= 5.0408565187688885
LEVA:
Lowest eigenvalue absolute value_____= 7.3675891530261333D-4
CON: Condition
number HEVA/LEVA___________~= 6841.9348772975862
DET: Determinant
original matrix___________= 5.4283579972084107D-8
HAC: HADAMARD
condition number_____________= 5.523584641276689D-10
HCN: Heuristic
condition |DET|CON__________= 7.9339515715362855D-12
D_I: Determinant
Inverse absolute value____= 18421777
HDA: HADAMARD
Inequality absolute value___<= 5.2094244451973746D+16
HIR: HADAMARD
RATIO: D_I / HDA ____________= 3.5362403469999529D-10
Highest
inverse positive diagonal value____= 788.357293758
thus multiple r( 4.rest)________________= .999365569
and 5 multiple r > .99
There
are no negative inverse diagonal values.
Maximum
range (upp-low) multip-r( 5.rest)_= .088
LES: Numerical
stability analysis:
Ratio
maximum range output / input _______= 59229.755251538215
PESO-Analysis
correlation least Ratio RN/ON= 4.47D-4 (<-> Angle
= .03 )
Number
of Ratios correlation RN/ON < .01__ = 2
PESO-Analysis
Cholesky least Ratio RN/ON__ = .035615 (<-> Angle
= 2.04 )
Number
of Ratios Cholesky RN/ON < .1 _____ = 2
Ncor
L1-Norm L2-Norm Max Min
m|c| s|c| N_comp M-S
S-S
49 34.4 5.19
1 -.743 .652 .223
210 .267 .183
class
boundaries and distribution of the correlation-coefficients
-1
-.8 -.6 -.4 -.2 0 .2
.4 .6 .8 1
0 2 6 4
0 0 4 4
8 21
Original
input data with 17-digit-accuracy and read with
17-digit-accuracy
(for control here the analysed original matrix):
Aus-5-Faktoren-rückgerechnete
Matrix und Diagonalelemente auf 1 gerundet
1
.7925 .6717 .7997 .3769 .8164 -.7427
.7925
1 .8018 .8717 .6849 .9513
-.4288
.6717
.8018 1 .9607 .3406 .924
-.2964
.7997
.8717 .9607 1 .4816 .9413
-.5315
.3769
.6849 .3406 .4816 1 .4824
-.4146
.8164
.9513 .924 .9413 .4824 1
-.3778
-.7427
-.4288 -.2964 -.5315 -.4146 -.3778 1
i.Eigenvalue
Cholesky i.Eigenvalue Cholesky i.Eigenvalue
Cholesky
1. 5.04086 1
2. .95122 .6098
3. .7557 .5946
4. .22172 .173 5.
.02627 .4351 6.
3.49D-3 .0749
7. 7.4D-4 .114
Cholesky
decomposition successful, thus the matrix is (semi) positive definit.
analysed:
13.04.94 00:15:00 PRG version 04/04/94 MA6.BAS
Gesamtzeit_____________ 56