가정
$\varepsilon_i\sim N(0,\sigma^2)$이고, $x_i$는 자료 수집 전 고정된 것이면,
$Y_i\sim N(\beta_0+\beta_1x_i,\sigma^2)$이다.
$\sigma^2$의 추론
$SS_E=\displaystyle\sum_{i=1}^n(y_i-\bar{y})^2+(\hat{\beta}_1)^2\sum_{i=1}^n(\bar{x}-x_i)^2-2\hat{\beta}_i\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})=S_{yy}-\hat{\beta}_1S_{xy}$
$\frac{SS_E}{\sigma^2}\sim\chi_{n-2}^2$ 이므로 $E(SS_E)=(n-2)\sigma^2$
잔차평균제곱
$\hat{\sigma}^2=MS_E=\frac{SS_E}{n-2}=\frac{\sum_{i=1}^n(e_i-\bar{e})^2}{n-2}$
n개 잔차의 자유도는 n-2로 잔차들은 서로 독립이 아니다.
$\sigma^2$의 $100(1-\alpha )$% 신뢰구간
$\frac{SS_E}{\chi_{\frac{\alpha}{2},n-2}}\leq\sigma^2\leq\frac{SS_E}{\chi_{1-\frac{\alpha}{2},n-2}}$
회귀유의성 검정
총 편차 = 설명 안되는 편차 + 설명되는 편차
$y_i-\bar{y}=(y_i-\hat{y}_i)+(\hat{y}_i-\bar{y})$
$SS_T=S_{yy}=\displaystyle\sum_{i=1}^n(y_i-\bar{y})^2=\sum_{i=1}^n(\hat{y}_i-\bar{y})^2+\sum_{i=1}^n(y_i-\hat{y}_i)^2$
총 제곱합 = 회귀제곱합 + 잔차제곱합
회귀제곱합: 회귀식에 의해 설명되는 변동
$SS_R=\displaystyle\sum_{i=1}^n(\hat{y}_i-\bar{y})^2=\hat{\beta}_1S_{xy}=\frac{S_{xy}^2}{S_{xx}}$
잔차제곱합: 회귀식에 의해 설명되지 않는 변동
$SS_E=\displaystyle\sum_{i=1}^n(y_i-\hat{y}_i)^2=S_{yy}-\hat{\beta}_1S_{xy}$
평균제곱
$MS_R=\frac{SS_R}{1}$ $E(MS_R)=\sigma^2+\beta_1^2S_{xx}$
$MS_E=\frac{SS_E}{n-2}$ $E(MS_E)=\sigma^2
$H_0:\beta_1=0$ vs $H_1:\beta_1\neq 0$
$\frac{SS_E}{\sigma^2}\sim\chi_{n-2}^2$ 이고 $H_0$이 사실이면 $\frac{SS_R}{\sigma^2}\sim\chi_1^2$ 이다.
귀무가설이 사실이면 검정통계량:
$F_0=\frac{MS_R}{MS_E}=\Big[\frac{\hat{\beta}_1}{\sqrt{\frac{MS_E}{S_{xx}}}}\Big]^2\sim F_{1,n-2}=[t_{\frac{\alpha}{2},n-2}]^2$
P-값: $P(F_0>f_0)$
| 변동원인 | 제곱합 | 자유도 | 평균제곱 | $F_0$ |
| 회귀 | $SS_R=\hat{\beta}_1S_{xy}$ | 1 | $MS_R$ | $MS_R/MS_E$ |
| 오차 | $SS_E=SS_T-\hat{\beta}_1S_{xy}$ | n-2 | $MS_E$ | |
| 합계 | $SS_T$ | n-1 |
$\beta_1$의 추론
$\frac{S_{xy}}{S_{xx}}=\hat{\beta}_1\sim N\Big(\beta_1,\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\Big)$
$Z=\frac{\hat{\beta}_1-\beta_1}{\sqrt{\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}}\sim N(0,1)$ $T=\frac{\hat{\beta}_1-\beta_1}{\sqrt{\frac{MS_E}{\sum_{i=1}^n(x_i-\bar{x})^2}}}\sim t_{n-2}$
$\beta_1$의 $100(1-\alpha )$% 신뢰구간
$\hat{\beta}_1\pm t_{\frac{\alpha}{2},n-2}\sqrt{\frac{MS_E}{\sum_{i=1}^n(x_i-\bar{x})^2}}$
$H_0:\beta_1=\beta_{1,0}$ vs $H_1:\beta_1\neq\beta_{1,0}$
검정통계량: $T_0=\frac{\hat{\beta}_1-\beta_{1,0}}{\sqrt{\frac{MS_E}{\sum_{i=1}^n(x_i-\bar{x})^2}}}\sim t_{n-2}$
P-값: $2P(T_0>|t_0|)$
$H_0:\beta_1=0$을 기각하지 못하면 x와 y 사이에 선형관계가 없다는 결론을 내린다.
$\beta_0$의 추론
$\hat{\beta}_0\sim N\Big(\beta_0,\sigma^2\Big(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\Big)\Big)$
$Z=\frac{\hat{\beta}_0-\beta_0}{\sqrt{\sigma^2\Big(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\Big)}}\sim N(0,1)$ $T=\frac{\hat{\beta}_0-\beta_0}{\sqrt{MS_E\Big(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\Big)}}\sim t_{n-2}$
$\beta_0$의 $100(1-\alpha )$% 신뢰구간
$\hat{\beta}_0\pm t_{\frac{\alpha}{2},n-2}\sqrt{MS_E\Big(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\Big)}$
$H_0:\beta_0=\beta_{0,0}$ vs $H_1:\beta_0\neq\beta_{0,0}$
검정통계량: $T_0=\frac{\hat{\beta}_0-\beta_{0,0}}{\sqrt{MS_E\Big(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\Big)}}\sim t_{n-2}$
P-값: $2P(T_0>|t_0|)$
평균반응의 추론
$x_0$에서 $Y$의 기댓값: $\mu_{Y|x_0}=E(Y|x_0)=\beta_0+\beta_1x_0$
$\mu_{Y|x_0}$의 점추정량:
$\hat{\mu}_{Y|x_0}=\hat{E}(Y|x_0)=\hat{\beta}_0+\hat{\beta}_1x_0\sim N\Big(\mu_{Y|x_0},\sigma^2\Big[\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\Big]\Big)$
$\mu_{Y|x_0}$의 $100(1-\alpha )$% 신뢰구간
$\hat{\mu}_{Y|x_0}\pm t_{\frac{\alpha}{2},n-2}\sqrt{MS_E\Big[\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\Big]}$
$H_0:\mu_{Y|x_0}=\mu_0$ vs $H_1:\mu_{Y|x_0}\neq\mu_0$
검정통계량: $T_0=\frac{\hat{\mu}_{Y|x_0}-\mu_0}{\sqrt{MS_E\Big[\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\Big]}}\sim t_{n-2}$
P-값: 2P(T_0>|t_0|)$
회귀모형의 적합도
$\hat{\sigma}$이 너무 크면 산점도에 관측치들이 회귀선에서 멀리 떨어져 적합하지 못하다.
분산분석 시 회귀선이 유의하지 못하다는 귀무가설이 채택되면 다른 모형을 개발해야 한다.
결정계수가 지나치게 작으면 회귀선은 적합하지 못하다.
잔차를 이용해 모형의 가정사항을 만족하는지 검토한다.
가정사항의 타당성 검토
1) 오차항이 정규분포를 따르는지
2) 오차항의 평균이 0이고 서로 독립이며 등분산을 갖는지
오차항에 대한 가정이 위배되지 않는다면 잠정모형을 최종 예측모형으로 사용가능
정규성 검토: 잔차의 히스토그램이나 정규확률그림을 그려 정규분포 검토
분포의 꼬리가 정규분포보다 두텁고 표본크기도 작은 경우 회귀계수 추정치가 민감할 수 있다.
정규성이 만족되지 않으면 Box-Cox 변환 등의 정규화 변환을 적용하거나
다른 강건한 회귀기법을 적용할 수 있다.
독립성 검토
관측순서에 따라 잔차의 값들이 0을 중심선으로 무작위로 산포하지 않고 상관이 존재할 경우 의심
오차항 간의 상관을 자기상관(autocorrelation)이라고 한다.
독립성 가정이 만족되지 않으면 일반화 최소제곱법을 사용하거나
오차가 자기상관을 가지는 회귀모형(시계열 등)을 고려할 수 있다.
등분산 검토
$e_i$와 $\hat{y}_i$, $e_i$와 $x_i$ 그림을 통해 검토
등분산 조건을 만족하도록 변환을 시행한 후 분석하거나 가중최소제곱법을 사용
오차분산이 funnel형: 가중회귀분석 사용 (poison 분포) (깔때기 모양)
double bow형: x, y 변환 필요 (이중 활 모양)
비선형: 설명변수 추가 필요
결정계수(coefficient of determination)
$R^2=\frac{SS_R}{SS_T}=1-\frac{SS_E}{SS_T}$, 단 $0\leq R^2 \leq 1$
결정계수가 지나치게 작으면 회귀선은 적합하지 못하다.
$E(R^2)\cong\frac{\hat{\beta}_1^2S_{xx}}{\hat{\beta}_1^2S_{xx}+\sigma^2}$이므로 x의 산포가 매우 크면 결정계수가 클 수 있고,
매우 작으면 변수 간의 관계를 검출하지 못해 결정계수가 작을 수 있다.
'Math > Statistics' 카테고리의 다른 글
| 상관분석 (0) | 2026.02.23 |
|---|---|
| 단순선형회귀분석 예측 (0) | 2026.02.23 |
| 단순선형회귀 (0) | 2026.02.23 |
| 반복이 없는 2요인 요인실험(이원배치법) (0) | 2026.02.23 |
| 반복이 있는 2요인 요인실험(이원배치법) (0) | 2026.02.22 |