Das statistische Problem der Korrelation als Variations und Eigenwertproblem und sein Zusammenhang mit der Ausgleichsrechnung. (Q2582656)
From MaRDI portal
| This is the item page for this Wikibase entity, intended for internal use and editing purposes. Please use this page instead for the normal view: Das statistische Problem der Korrelation als Variations und Eigenwertproblem und sein Zusammenhang mit der Ausgleichsrechnung. |
scientific article
| Language | Label | Description | Also known as |
|---|---|---|---|
| English | Das statistische Problem der Korrelation als Variations und Eigenwertproblem und sein Zusammenhang mit der Ausgleichsrechnung. |
scientific article |
Statements
Das statistische Problem der Korrelation als Variations und Eigenwertproblem und sein Zusammenhang mit der Ausgleichsrechnung. (English)
0 references
1941
0 references
Verf. stellt sich die Aufgabe, ein Maß der Korrelation zwischen zwei Zufallsveränderlichen \(x\), \(y\) zu konstruieren, das 1) durch sein Verschwinden anzeigt, daß \(x\) und \(y\) unabhängig voneinander sind, 2) den Wert 1 annimmt, wenn zwischen \(x\) und \(y\) (auch nichtlineare) funktionale Abhängigkeit besteht, und 3) gegenüber einer (auch nichtlinearen) Transformation der Veränderlichen \(x\) und \(y\) je für sich (also insbesondere gegenüber einer beliebigen Maßstabänderung auf der Abszissen- oder Ordinatenachse) invariant ist. Der klassische Korrelationskoeffizient \(r\) besitzt bekanntlich keine dieser drei Eigenschaften. Um die gestellte Aufgabe zu lösen, macht Verf. den folgenden, auf einer Verallgemeinerung des Korrelationskoeffizienten beruhenden Ansatz: Ist \(w(x, \,y)\) die gegebene Wahrscheinlichkeitsdichte, so sind die Funktionen \(f(x)\) und \(g(y)\) so zu bestimmen, daß der Ausdruck \[ \left\{ \iint f(x) \,g(y) \,w(x, \,y) \,dxdy \right\}^2 \tag{1} \] unter den Nebenbedingungen \[ \begin{aligned} \iint f(x) \,w(x, \,y) \,dxdy &=\iint g(y) \,w(x, \,y) \,dxdy=0, \\ \iint f^2(x) \,w(x, \,y) \,dxdy &=\iint g^2(y) \,w(x, \,y) \,dxdy=1 \end{aligned} \tag{2} \] sein Maximum \(K^2\) erreicht (alle Integrale sind von \(-\infty\) bis \(+\infty\) zu erstrecken). Verf. zeigt, daß \(K^2\), das offenbar der Bedingung 3) genügt, auch die Eigenschaften 1) und 2) besitzt. Genauer gilt: \(0 \leqq K^2 \leqq 1\); \(K^2 = 0\) dann und nur dann, wenn \(x\) und \(y\) stochastisch unabhängig sind; \(K^2 = 1\), wenn \(y\) eine umkehrbar eindeutige Funktion von \(x\) ist. Dagegen folgt aus \(K^2 = 1\) nicht, daß funktionaler Zusammenhang im üblichen Sinne vorliegt. So gilt z. B. \(K^2 = 1\) auch für die Verteilung \[ w(x, \,y)=\frac{1}{\alpha^2+(1-\alpha)^2} \text{ für } 0 \leqq x<\alpha, \; 0 \leqq y<\alpha \text{ und } \alpha \leqq x<1, \; \alpha \leqq y<1, \] \[ w(x, \,y)=0 \text{ für alle übrigen } x, \,y, \] und zwar für jeden zwischen 0 und 1 gelegenen Wert von \(\alpha\), obwohl \(w(x, \,y)\) für \(\alpha \to 0\) (und für \(\alpha \to 1\)) in eine stochastisch unabhängige Verteilung übergeht. Dieses unbefriedigende Verhalten von \(K^2\) hängt damit zusammen, daß beim Ansatz des Verf. als maßstabändernde Funktionen beliebige, auch nicht umkehrbar eindeutige \(f(x)\) und \(g(y)\) zugelassen werden. Ein anderer Weg zur Gewinnung von maßstabinvarianten Korrelationsmaßen ist vom Ref. eingeschlagen worden (Schr. math. Inst. angew. Math. Univ. Berlin 5 (1940), 181-233; Arch. math. Wirtschafts- u. Sozialforsch. 7 (1941), 49-70; F.~d.~M. 66, 649; 67, nachstehende Besprechung). Wenn somit die Größe \(K^2\) nach Ansicht des Ref. das Problem der Messung des stochastischen Abhängigkeitsgrades nicht in befriedigender Weise zu lösen vermag, so eröffnet die Arbeit in mancher Beziehung neue und interessante Ausblicke. Bemerkenswert ist, wie sich andere bekannte Korrelationsmaße in die Theorie des Verf. einfügen. Für \(f(x)=\dfrac{x-a}{s}\), \(g(y)=\dfrac{y-b}{t}\) (wo \(a\), \(b\) die Mittelwerte, \(s^2\), \(t^2\) die Streuungen von \(x\), \(y\) bezeichnen) geht (1) in \(r^2\), für \[ f(x)=\frac{x-a}{s}, \,g(y)=\text{ const } \left( \frac{\int xw(x, \,y) \,dx}{\int w(x, \,y) \,dx}-a \right) \] (also im wesentlichen die Regressionslinie) in das Quadrat des Pearsonschen Korrelationsverhältnisses \(k_{xy}^2\) über, so daß \(r^2 \leqq k_{xy}^2 \leqq K^2\) \(\Biggl(\) und analog \(r^2 \leqq k_{yx}^2 \leqq K^2\) \(\Biggr)\) gilt. Durch Umformung des Variationsproblems (1), (2) ergibt sich \(K^2\) als das Reziproke des kleinsten Eigenwerts der Integralgleichung \[ f(x)=\lambda \int \frac{W(x, \,z)-w_1(x)w_2(z)}{w_1(x)} f(z) \,dz, \tag{3} \] wo \[ W(x, \,z)=\int \frac{w(x, \,y) \,w(z, \,y)}{w_2(y)}dy, \;\; w_1(x)=\int w(x, \,y) \,dy, \;\; w_2(y)=\int w(x, \,y) \,dx. \] Sind \(\lambda_1=K^2\), \(\lambda_2, \ldots\) die Eigenwerte von (3), so erhält man folgende interessante Darstellung von Pearsons mittlerer quadratischer Kontingent: \[ J=\iint \frac{(w(x, \,y)-w_1(x) \,w_2(y))^2}{w_1(x) \,w_2(y)}\, dx\, dy= \frac{1}{\lambda_1}+\frac{1}{\lambda_2}+\cdots. \] Die Theorie des Verf. läßt sich auch leicht auf diskontinuierliche Verteilungen übertragen, wobei an die Stelle der Integralgleichung ein linares Gleichungssystem tritt. Weiterhin behandelt Verf. die Entwicklung von \(w(x, \,y)\) nach normierten Orthogonalpolynomen \(\varphi_i(x)\), \(\psi_j(y)\) mit den Belegungen \(w_1(x)\) bzw. \(w_2(y)\): \[ w(x, \,y)=\sum_{i, \,j=0}^{\infty} c_{ij} \varphi_i(x) \psi_j(y) \, w_1(x) \,w_2(y). \tag{4} \] Unter der Annahme der gleichmäßigen Konvergenz dieser Reihe ergeben sich folgende Darstellungen für die verschiedenen Korrelationsmaße: \[ r=c_{11}, \;\; k_{yx}^2=\sum_{i=1}^{\infty} c_{i1}^2, \;\; k_{xy}^2=\sum_{j=1}^{\infty} c_{1j}^2, \;\; J=\sum_{i, \,j=1}^{\infty} c_{ij}^2. \] (Die Entwicklung (4) ist in einer spezielleren Form von \textit{H. Eyraud} (Giorn. Ist. Ital. Attuari 6 (1935), 57-68; F.~d.~M. 61\(_{\text{II}}\), 1303) und später vom Ref. (a. a. O.) verwendet worden.) Durch den Ansatz \(f(x)=\sum\limits_{i=0}^{\infty} a_i \varphi_i(x)\), \(g(y)=\sum\limits_{j=0}^{\infty} b_j \psi_j(y)\) erhält Verf. auch eine neue Fassung des Variationsproblems (1), (2). Eine Anwendung der Entwicklung nach den Orthogonalpolynomen \(\varphi_i(x)\), \(\psi_j(y)\) auf das Problem der Ausgleichung empirischer Kurven, wobei die Ausgleichskurve in der Form \(F_n(x)=b+t \sum\limits_{i=1}^{n} c_{i1} \varphi_i(x)\) angesetzt wird, beschließt die gehaltvolle und anregende Arbeit.
0 references