지금, 나는 

Art is anything you can get away with.

Math/Statistics

공분산과 상관계수

hyuckee 2023. 1. 25. 20:35
반응형

분산이란 기댓값으로부터 데이터가 흩뿌려진 정도를 나타낸다.

$V[X] = E[(X-\mu)^{2}] = E[X^{2}] - \{E[X]\}^{2}$

 

제곱된 값이므로 단위가 달라 값 자체로 쓰임새를 하려면 주로 표준편차를 이용한다.

 

2개의 확률변수에 대해 공분산이 정의된다.

$X, Y$의 기대값이 각각 $\mu, \nu$일 때, $Cov[X, Y] = E[(X-\mu)(Y-\nu)]$

 

공분산은 확률변수 사이의 경향성을 나타낸다.

  • Cov > 0   한쪽이 크면 다른 쪽도 큰 경향이 있다. (양의 상관관계)
  • Cov < 0   한쪽이 크면 다른 쪽은 반대로 작은 경향이 있다. (음의 상관관계)
  • Cov = 0   한쪽이 크다고 해서 다른 쪽이 크거나 작거나 하는 경향이 없다. (무상관)
    (두 변수가 서로 독립일 때도 0이 나온다)

이는 X와 Y의 기댓값을 각 축으로 하는 2차원 평면 상(결합분포)에서 분포를 봤을 때 명확히 이해 가능하다.

(마치 1차 함수 같은 방향성을 가진다)

 

공분산의 경우 축적에 따라 값이 천차만별이다.

이를 보정하기 위해 표준화(표준편차로 나눔)하면 다음과 같이 상관계수를 얻을 수 있다.

$\displaystyle Cov[\frac{X}{\sigma_{X}},\frac{Y}{\sigma_{Y}}]=\frac{Cov[X, Y]}{\sqrt{V[X]}\sqrt{V[Y]}}=\sigma_{XY}$

 

상관계수가 -1 ~ 1 사이의 값인 것을 감안하면 경향성 파악에 도움이 된다.

 

하지만 공분산과 상관계수가 측정할 수 없는 모습도 있으므로, 산점도도 그려보는 게 낫다.

728x90

'Math > Statistics' 카테고리의 다른 글

조건부 확률  (0) 2023.07.08
경우의 수 공식  (0) 2023.07.08
결합 확률, 주변 확률, 조건부 확률  (0) 2023.01.25