공분산과 상관계수

Math/Statistics

hyuckee 2023. 1. 25. 20:35

분산이란 기댓값으로부터 데이터가 흩뿌려진 정도를 나타낸다.

$V[X] = E[(X-\mu)^{2}] = E[X^{2}] - \{E[X]\}^{2}$

제곱된 값이므로 단위가 달라 값 자체로 쓰임새를 하려면 주로 표준편차를 이용한다.

2개의 확률변수에 대해 공분산이 정의된다.

$X, Y$의 기대값이 각각 $\mu, \nu$일 때, $Cov[X, Y] = E[(X-\mu)(Y-\nu)]$

공분산은 확률변수 사이의 경향성을 나타낸다.

이는 X와 Y의 기댓값을 각 축으로 하는 2차원 평면 상(결합분포)에서 분포를 봤을 때 명확히 이해 가능하다.

(마치 1차 함수 같은 방향성을 가진다)

공분산의 경우 축적에 따라 값이 천차만별이다.

이를 보정하기 위해 표준화(표준편차로 나눔)하면 다음과 같이 상관계수를 얻을 수 있다.

$\displaystyle Cov[\frac{X}{\sigma_{X}},\frac{Y}{\sigma_{Y}}]=\frac{Cov[X, Y]}{\sqrt{V[X]}\sqrt{V[Y]}}=\sigma_{XY}$

상관계수가 -1 ~ 1 사이의 값인 것을 감안하면 경향성 파악에 도움이 된다.

하지만 공분산과 상관계수가 측정할 수 없는 모습도 있으므로, 산점도도 그려보는 게 낫다.

728x90

하늘이 이뻐요.

하늘 보면서 살자구요