반응형
분산이란 기댓값으로부터 데이터가 흩뿌려진 정도를 나타낸다.
$V[X] = E[(X-\mu)^{2}] = E[X^{2}] - \{E[X]\}^{2}$
제곱된 값이므로 단위가 달라 값 자체로 쓰임새를 하려면 주로 표준편차를 이용한다.
2개의 확률변수에 대해 공분산이 정의된다.
$X, Y$의 기대값이 각각 $\mu, \nu$일 때, $Cov[X, Y] = E[(X-\mu)(Y-\nu)]$
공분산은 확률변수 사이의 경향성을 나타낸다.
- Cov > 0 한쪽이 크면 다른 쪽도 큰 경향이 있다. (양의 상관관계)
- Cov < 0 한쪽이 크면 다른 쪽은 반대로 작은 경향이 있다. (음의 상관관계)
- Cov = 0 한쪽이 크다고 해서 다른 쪽이 크거나 작거나 하는 경향이 없다. (무상관)
(두 변수가 서로 독립일 때도 0이 나온다)
이는 X와 Y의 기댓값을 각 축으로 하는 2차원 평면 상(결합분포)에서 분포를 봤을 때 명확히 이해 가능하다.
(마치 1차 함수 같은 방향성을 가진다)
공분산의 경우 축적에 따라 값이 천차만별이다.
이를 보정하기 위해 표준화(표준편차로 나눔)하면 다음과 같이 상관계수를 얻을 수 있다.
$\displaystyle Cov[\frac{X}{\sigma_{X}},\frac{Y}{\sigma_{Y}}]=\frac{Cov[X, Y]}{\sqrt{V[X]}\sqrt{V[Y]}}=\sigma_{XY}$
상관계수가 -1 ~ 1 사이의 값인 것을 감안하면 경향성 파악에 도움이 된다.
하지만 공분산과 상관계수가 측정할 수 없는 모습도 있으므로, 산점도도 그려보는 게 낫다.
728x90
'Math > Statistics' 카테고리의 다른 글
조건부 확률 (0) | 2023.07.08 |
---|---|
경우의 수 공식 (0) | 2023.07.08 |
결합 확률, 주변 확률, 조건부 확률 (0) | 2023.01.25 |