확률변수 X, Y에 대해, X=a고 Y=b가 될 확률은 P(X=a, Y=b)이다.
이렇게 여러 조건을 지정하고 모든 조건이 동시에 성립하는 확률을 결합 확률이라고 부른다.
이와 대비해서 P(X=a)나 P(Y=b) 같은 단독 확률은 주변 확률이라고 부른다.
이들의 목록을 결합분포, 주변분포라 할 수 있다.
(주변분포가 지정됐다고 해서 그것으로 결합분포를 결정할 수는 없다)
3차원 확률밀도함수로 생각하면, 주변분포는 그래프를 축에 대한 수직면으로 자른 단면(2차원 확률밀도함수)과 같다.
더 나아가 조건부 분포는 단면 영역에서 y좌표를 지정하는 것과 같다(곡선).
결합 확률과 주변 확률의 관계
$\displaystyle P(X=a) = \sum_{b} P(X=a, Y=b)$
결합 확률과 주변 확률의 분모는 전체 영역이다.
이와 달리 조건부 확률은 분모의 영역을 제한한다.
X=a일 때, Y=b인 확률은 P(Y=b | X=a)이다.
$\displaystyle P(X=a, Y=b) = P(Y=b | X=a) P(X=a)$
조건부 확률 문제의 경우 교차표로 나타내서 면적으로 푸는게 효과적일 때가 많다.
이때 행이나 열의 비율이 일정하다면, 결합확률의 비가 일정하다는 것이고,
P(Y=b | X=a) = P(Y=b)이므로 P(Y=b, X=a) = P(Y=b)P(X=a)이다.
이러한 상황은 확률변수가 독립임을 나타낸다.
X=a와 Y=b가 독립이다라는 것의 정의는 P(X=a | Y=b) = P(X=a | Y!=b)이다.
확률변수가 많아지면 표현이 어려워질 뿐이지 나타내는 것은 비율이다.
P(OO, XX, △△) = P(OO | XX, △△) P(XX, △△) = P(OO | XX, △△) P(XX | △△) P(△△)
P(OO, XX | △△) = P(OO | XX, △△) P(XX | △△)
그렇다면 P(원인)과 P(결과 | 원인)이 주어졌을 때,
즉 사전 확률과 사후 확률이 주어졌을 때 P(원인 | 결과)를 구할 수 있을까?
다시 말해, 결과를 보고 원인을 추정할 수 있을까?
이에 대한 방법이 베이즈 공식이다.
$ P(X=a | Y=b) = \displaystyle\frac{P(Y=b | X=a) P(X=a)}{\displaystyle\sum_{j=x_{1}}^{x_{n}} P(Y=b | X=j) P(X=j)}$
'Math > Statistics' 카테고리의 다른 글
조건부 확률 (0) | 2023.07.08 |
---|---|
경우의 수 공식 (0) | 2023.07.08 |
공분산과 상관계수 (0) | 2023.01.25 |