Discrete Kansrekening/Momenten/Covariantie en correlatie

7.4 Covariantie en correlatie

Voor simultane verdelingen is het van belang dat we een maat hebben om de "samenhang" tussen de s.v.- en te meten. Waar we aan denken bij het begrip samenhang zullen we in een voorbeeld verduidelijken.

Voorbeeld 1 (twee worpen met een dobbelsteen; vervolg)
De simultane kansfunctie p_Z,M van Z en M wordt gegeven in de volgende tabel.

p_{Z,M}(z,m)=P(Z=z,M=m)

z

2

3

4

5

6

7

8

9

10

11

12

m

P(M=m)

1

1/36

2

2/36

1/36

3/36

3

2/36

1/36

5/36

4

2/36

1/36

7/36

5

2/36

1/36

9/36

6

2/36

1/36

11/36

P(Z=z)

1/36

2/36

3/36

4/36

5/36

6/36

5/36

4/36

3/36

2/36

1/36

36/36

Daarin kunnen we zien dat kleine waarden voor M samengaan met kleine waarden voor Z, immers als M=1, kan alleen Z=2 voorkomen, en als M=2, zijn voor Z slechts de waarden 3 en 4 mogelijk. Grote waarden van M gaan samen met grote waarden van Z: als M=6, kan Z de waarden 7 tot en met 12 aannemen. Er is weliswaar geen eenduidig verband tussen M en Z, maar we zien dat hoe groter M is, hoe groter waarden voor Z in aanmerking komen.

Om tot een maat voor "samenhang" in de simultane verdeling van twee s.v.-en te komen, bekijken we de afwijkingen X—EX en Y—EY ten opzichte van de verwachtingen: we zien af van de "ligging" van de verdeling. Als kleine waarden van X—EX voornamelijk samengaan met kleine waarden van Y—EY en evenzo de grote waarden, spreken we van een positieve samenhang; het product van de afwijkingen (X—EX)(Y—EY) zal dan overwegend positief zijn. Gaan kleine waarden van de ene s.v. voornamelijk samen met grote waarden van de andere, dan spreken we van een negatieve samenhang en zal (X—EX)(Y—EY) overwegend negatief zijn. De verwachting E(X—EX)(Y—EY) van dit product, covariantie genaamd, zal dus bij positieve samenhang positief zijn en bij negatieve samenhang negatief en karakteriseert dus de samenhang.

Definitie 7.4.1
Onder de covariantie van twee s.v.-en X en Y verstaan we

cov(X,Y) = E((X—EX)(Y—EY)).

Voorbeeld 2 (twee worpen met een dobbelsteen; vervolg)
We berekenen de covariantie van M en Z:

\mathrm {cov} (M,Z)=E((M-EM)(Z-EZ))=E((M-{\frac {161}{36}})(Z-7))=

=(1-{\frac {161}{36}})(2-7){\frac {1}{36}}+(2-{\frac {161}{36}})(3-7){\frac {2}{36}}+...+(6-{\frac {161}{36}})(12-7){\frac {1}{36}}={\frac {105}{36}}=2{\tfrac {11}{12}}

.

We vinden inderdaad een positieve samenhang.

Voor de berekening van cov(X,Y) kunnen we soms handig gebruik maken van de volgende formule, die eenvoudig uit de definitie volgt.

Stelling 7.4.1 (rekenformule voor covariantie)
Voor de covariantie van twee s.v.-en X en Y geldt:

cov(X,Y) = E(XY) — EX·EY.

Voorbeeld 3 (twee worpen met een dobbelsteen; vervolg)
We berekenen de covariantie van M en Z met de rekenformule. Daartoe bepalen we eerst:

EMZ=1\times 2\times {\frac {1}{36}}+2\times 3\times {\frac {2}{36}}+...+6\times 12\times {\frac {1}{36}}={\frac {1232}{36}}

,

zodat volgt:

\mathrm {cov} (M,Z)=EMZ-EM\cdot EZ={\frac {1232}{36}}-{\frac {161}{36}}\times 7={\frac {105}{36}}

.

Overigens kunnen we EMZ ook handig als volgt bepalen:

EMZ=E(E(MZ|M))=E(M\cdot E(Z|M))={\frac {1232}{36}}

,

waarin we gebruik hebben gemaakt van al eerder gemaakte berekeningen en de volgende tabel:


$m$	1	2	3	4	5	6	totaal

$P(M=m)$	1/36	3/36	5/36	7/36	9/36	11/36	36/36
$\operatorname {E} (Z\|M=m)$	2	10/3	24/5	44/7	70/9	102/11
$m\operatorname {E} (Z\|M=m)P(M=m)$	2/36	20/36	72/36	176/36	350/36	612/36	1232/36	$=\operatorname {E} MZ$

Enkele voor de hand liggende eigenschappen van de covariantie vermelden we in de volgende stelling.

Stelling 7.4.2 (eigenschappen van covariantie)
Laat X en Y een simultane verdeling hebben en X₁, X₂ en Y eveneens, dan geldt:

(a) cov(X,Y) = cov(Y,X)

(b) cov(X,X) = var X

(c) cov(X₁ + X₂,Y) = cov(X₁,Y) + cov(X₂,Y)

(d) cov(aX+b,Y) = a cov(X,Y), voor alle a,b ∈ R

(e) als X en Y o.o. zijn, is cov(X,Y) = 0.

Bewijs: We bewijzen alleen e. Als X en Y o.o. zijn, is EXY = EX·EY, dus volgt het gestelde direct uit de rekenformule.

Voorbeeld 4 (twee worpen met een dobbelsteen; vervolg)
We berekenen de covariantie van M en X + Y (= Z).

\mathrm {cov} (M,X+Y)=\mathrm {cov} (M,X)+\mathrm {cov} (M,Y)

.

Nu is

EMX=E(E(MX|M))=E(M\cdot E(X|M))={\frac {616}{36}}

,

zodat

\mathrm {cov} (M,X)=\mathrm {cov} (M,Y)=EMX-EM\cdot EX={\frac {616}{36}}-{\frac {161}{36}}\times {\frac {7}{2}}={\frac {35}{24}}

.

We vinden dus ook op deze manier dat:

\mathrm {cov} (M,Z)=\mathrm {cov} (M,X+Y)=2\,\mathrm {cov} (M,X)={\frac {35}{12}}

.

Vergelijk met voorbeeld 2.

De laatste uitspraak van stelling 2 verdient nog enige aandacht. Het lijkt vanzelfsprekend dat cov(X,Y) = 0 als X en Y o.o. zijn en er dus geen samenhang is. Het omgekeerde is echter niet waar, dwz. uit het feit dat cov(X,Y) = 0 mogen we niet de conclusie trekken dat X en Y onafhankelijk zijn. De covariantie is nl. een maat voor "lineaire samenhang" tussen twee s.v.-en en als cov(X,Y) = 0, dan kunnen we slechts zeggen dat er geen lineaire samenhang is tussen X en Y; ze kunnen dan wel in andere zin samenhangen en dus afhankelijk zijn, zoals uit het volgende voorbeeld blijkt.

Voorbeeld 5
Kies X en Y zo dat P(X=0 en Y=±1) = P(X=±1 en Y=0) = 1/4; dan is EXY = EX = EY = 0, zodat cov(X,Y) = 0. Echter X en Y zijn afhankelijk, want P(X=1 en Y=1) = 0 ≠ P(X=1)P(Y=1) = 1/16.

Met behulp van de covariantie kunnen we een uitdrukking vinden voor de variantie van de som van een n-tal s.v.-en:

Stelling 7.4.3
Laat X₁,X₂,...,X_n een simultane verdeling hebben met σ(X_i) <∞, dan is:

\mathrm {var} (X_{1}+X_{2}+...+X_{n})=\mathrm {cov} (\sum X_{i},\sum X_{j})=\sum _{i}\sum _{j}\mathrm {cov} (X_{i},X_{j})=

=\sum _{i}\mathrm {var} X_{i}+2\sum _{i\neq j}\mathrm {cov} (X_{i},X_{j})

.

In het bijzonder vinden we dus voor een tweetal s.v.-en X en Y:

var(X + Y) = var X + var Y + 2\ cov(X,Y).

Als X en Y o.o. zijn, is cov(X,Y) = 0, zodat:

var(X + Y) = var X + var Y;

de variantie van de som of van het verschil is dan de som van de varianties.

Stelling 7.4.4
Als de s.v.-en X₁,X₂,...,X_n paarsgewijs of onderling onafhankelijk zijn en σ(X_i) < ∞, is

\mathrm {var} (X_{1}+X_{2}+\ldots +X_{n})=\mathrm {var} \,X_{1}+\mathrm {var} \,X_{2}+\ldots +\mathrm {var} \,X_{n}

We kunnen de bovenstaande relaties handig gebruiken om de variantie van de binomiale en hypergeometrische verdeling te bepalen.

Voorbeeld 6 (twee worpen met een dobbelsteen; vervolg)
We berekenen de variantie van Z = X + Y. Omdat X en Y o.o. zijn en gelijkverdeeld vinden we:

\mathrm {var} Z=\mathrm {var} (X+Y)=\mathrm {var} \,X+\mathrm {var} \,Y=2\,\mathrm {var} \,X={\frac {210}{36}}=5{\tfrac {5}{6}}

,

zoals we al eerder berekenden.

Voorbeeld 7 (variantie van de binomiale verdeling)
Zij X B(n,p)-verdeeld. Bekijk n onafhankelijke alternatieven X_i met succeskans p, dus P(X_i= 1) = 1 — P(X_i= 0) = p. We stellen Y = ∑ X_i, dan hebben X en Y dezelfde verdeling en dus ook dezelfde variantie. We vinden dan: var X = var Y = var ∑ X_i = ∑ var X_i = ∑ p(1—p) = np(1—p).

Voorbeeld 8 (variantie van de hypergeometrische verdeling)
Zij X hypergeometrisch verdeeld met parameters M, N en n. We beschouwen een aselecte steekproef van omvang n zonder teruglegging uit een vaas met M rode en N-M witte knikkers. We definiëren X_i = 1 of 0 al naar gelang de i-de trekking een rode dan wel een witte knikker oplevert. De (X_i) vormen weer n alternatieven met parameter p = M/N. We stellen Y = ∑ X_i, dan hebben X en Y dezelfde verdeling en dus dezelfde variantie. We vinden dan:

\mathrm {var} X=\mathrm {var} Y=\mathrm {var} \sum X_{i}=\sum \mathrm {var} X_{i}+2\sum \mathrm {cov} (X_{i},X_{j})=np(1-p)+n(n-1)c

;

daarin is

\,c=\mathrm {cov} (X_{i},X_{j})

voor alle i en j, aangezien de simultane verdeling van X_i en X_j voor alle i en j dezelfde is. We kunnen c direct bepalen door:

\,c=\mathrm {cov} (X_{i},X_{j})=EX_{1}X_{2}-EX_{1}.EX_{2}=P(X_{1}=1\ en\ X_{2}=1)-p^{2}=

{\frac {M(M-1)}{N(N-1)}}-{\frac {M^{2}}{N^{2}}}=-{\frac {M(N-M}{(N-1)N^{2}}}=-{\frac {1}{N-1}}p(1-p).

.

Dus

\mathrm {var} X=np(1-p)-{\frac {1}{N-1}}p(1-p)=np(1-p){\frac {N-M}{N-1}}.

We kunnen c ook bepalen door te bedenken dat c niet afhankelijk is van de steekproefomvang n; dan is voor n = N, dus als we alle knikkers trekken: var X = Np(1-p) + N(N-1)c = 0.

Als cov(X,Y) = 0, noemen we X en Y ongecorreleerd; de term hangt samen met het hierna te bespreken begrip correlatie. Ook voor meer dan twee s.v.-en hanteren we de term ongecorreleerd.

Definitie 7.4.2
We noemen de s.v.-en X₁,X₂,...,X_n ongecorreleerd, als voor elk tweetal X_i en X_j geldt dat cov(X_i, X_j) = 0.

Het teken van de covariantie is, zoals we gezien hebben, een maat voor de "aard" van de lineaire samenhang. De grootte van de covariantie is een maat voor de "sterkte" van die lineaire samenhang, in die zin dat hoe meer de samenhang op een lineair verband lijkt hoe groter, absoluut gezien, de waarde van de covariantie is. Daarbij moeten we wel opmerken dat we de absolute grootte van de covariantie moeten zien in relatie met de spreiding; immers de covariantie E(X-EX)(Y-EY) wordt niet alleen bepaald door de samenhang, maar ook door de grootte van de afwijkingen, dus door de spreiding in de verdelingen van X en Y. Als een of beide s.v.-en in een andere schaal gaan meten, veranderd de spreiding gemeten door de standaardafwijking evenredig met de schaalverandering en eveneens de covariantie, zoals uit stelling 2 bleek. We kunnen de covariantie dus standaardiseren door te delen door de standaardafwijkingen; deze gestandaardiseerde vorm noemen we correlatiecoëfficiënt.

Definitie 7.4.3
Onder de correlatiecoëfficiënt ρ(X,Y) van twee s.v.-en X en Y verstaan we

\rho (X,Y)={\frac {\mathrm {cov} (X,Y)}{\sigma (X)\sigma (Y)}}

,

mits σ_X en σ_Y beide bestaan.

Voorbeeld 9 (twee worpen met een dobbelsteen; vervolg)
We berekenen de correlatiecoëfficiënt van M en Z:

\rho (M,Z)={\frac {\mathrm {cov} (M,Z)}{\sigma (M)\sigma (Z)}}\approx {\frac {2{,}92}{1{,}40\times 2{,}42}}=0{,}86.

M en Z zijn dus tamelijk sterk positief gecorreleerd; dat is ook wel te begrijpen, want kleine waarden voor M gaan samen met kleine waarden voor Z en grote waarden voor M met grote voor Z.

De correlatiecoëfficiënt ρ(X,Y) kan slechts waarden aannemen gelegen tussen -1 en 1 (de grenzen meegerekend); de grootte is een directe maat voor de lineaire samenhang tussen X en Y.

We vermelden enkele eigenschappen in de volgende stelling.

Stelling 7.4.5 (eigenschappen van de correlatiecoëfficiënt
Laat X en Y een simultane verdeling hebben, dan geldt:

(a) ρ(X,Y) = ρ(Y,X)

(b) ρ(aX+b,Y) = sgn(a)·ρ(X,Y), voor alle a,b ∈ R, a≠0. (hierin is sgn(a) = 1 als a > 0 en sgn(a) = —1 als a < 0);

(c) |ρ(X,Y)| ≤ 1

(d) |ρ(X,Y)| = 1, dan en slechts dan als X en Y lineair samenhangen, dwz. als P(Y=aX+b) = 1, voor zekere a≠0 en b. Het teken van r is gelijk aan het teken van a.

(e) als X en Y o.o. zijn, is ρ(X,Y) = 0.

Bewijs: We bewijzen alleen c en d. Zij volgen uit de relatie

0\leq \mathrm {var} ({\tfrac {X}{\sigma _{X}}}\pm {\tfrac {Y}{\sigma _{Y}}})=2\pm 2\rho (X,Y)

.

Als het gelijkteken geldt, is ${\tfrac {X}{\sigma _{X}}}\pm {\tfrac {Y}{\sigma _{Y}}}$ ontaard; dus als ρ(X,Y) = ±1, is voor zekere b

P({\tfrac {X}{\sigma _{X}}}\pm {\tfrac {Y}{\sigma _{Y}}}=b)=1

,

dus voor bijna alle uitkomsten s (op een gebeurtenis met kans 0 na) hangen X en Y lineair samen.

Voorbeeld 10 (de hypergeometrische verdeling; vervolg)
We berekenen de correlatiecoëfficiënt van een tweetal X'en:

\rho (X_{1},X_{2})={\frac {\mathrm {cov} (X_{1},X_{2})}{\sigma (X_{1})\sigma (X_{2})}}={\frac {c}{\mathrm {var} X_{1}}}=-{\frac {1}{N-1}}

.

Hieruit blijkt dat X₁ en X₂ negatief samenhangen. Dat is ook begrijpelijk, want als de eerste knikker rood is (X₁= 1), is de voorwaardelijke kans op een tweede rode knikker (X₂= 1) kleiner dan wanneer de eerste knikker wit is (X₂= 0). Verder neemt de afhankelijkheid in betekenis af als N toeneemt, overeenkomstig het feit dat bij toenemende N het verschil tussen steekproeftrekking met en zonder teruglegging aan betekenis verliest.

Voorbeeld 11 (multinomiale verdeling; vervolg)
We bekijken weer drie s.v.-en X, Y en Z, en berekenen de covariantie van het tweetal X en Y. Omdat X en Y beide binomiaal verdeeld zijn met parameters respectievelijk n en p₁ en n en p₂, weten we al dat EX = np₁ en EY = np₂. We leiden af: