현업에서 데이터를 다루다 보면 이런 궁금증이 생길 때가 있습니다. '우리 공장의 요일별 불량품 발생 건수가 정말 균일할까?', 'A, B, C 세 가지 원자재의 사용 비율이 특정 비율을 따르고 있다고 할 수 있을까?' 와 같은 질문들이죠. 이런 질문에 대해 "대충 비슷해 보입니다"가 아니라, 통계적 근거를 가지고 명확하게 답할 수 있게 해주는 방법이 바로 **카이제곱(Chi-squared, $X^2$) 적합도 검정**입니다. 오늘은 이 적합도 검정을 엑셀로 어떻게 쉽고 정확하게 수행할 수 있는지 단계별로 알아보겠습니다.
적합도 검정이란 무엇일까요? 🤔
적합도 검정(Goodness-of-Fit Test)은 한마디로 '관측된 데이터가 특정 이론적 분포나 기대치에 얼마나 잘 맞는지를 평가하는 통계적 가설 검정 방법'입니다. 우리가 가진 데이터(관측도수)가 우리가 예상하는 분포(기대도수)와 차이가 있는지 없는지를 카이제곱($X^2$)이라는 통계량을 사용해 판단합니다.
만약 관측도수와 기대도수의 차이가 크다면, 우리가 가정한 분포가 실제 데이터와 맞지 않다고 결론 내릴 수 있습니다. 반대로 차이가 작다면, 데이터가 우리가 가정한 분포를 잘 따른다고 볼 수 있는 것이죠.
적합도 검정은 **하나의 범주형 변수**에 대해 사용됩니다. 예를 들어 '요일'이라는 변수의 범주(월, 화, 수, 목, 금)별로 불량품 수를 비교하거나, '혈액형'이라는 변수의 범주(A, B, O, AB)별 인원 분포를 확인할 때 사용합니다.
적합도 검정, 언제 사용할까요? 📊
적합도 검정은 다양한 분야에서 유용하게 사용될 수 있습니다. 특히 품질관리 현장에서는 다음과 같은 상황에서 활용할 수 있습니다.
- 불량 발생 패턴 분석: 특정 생산 라인, 설비, 작업조, 요일 등에서 발생하는 불량 건수가 균일한지, 아니면 특정 범주에 집중되는지 확인할 때
- 고객 클레임 유형 분석: 접수된 고객 클레임이 특정 유형(예: 기능, 외관, 포장)에 따라 기존에 알려진 비율과 일치하는지 검증할 때
- 공정 산포 확인: 생산된 제품의 특정 치수가 정규분포를 따르는지 검정하고 싶을 때 (연속형 데이터를 구간으로 나누어 범주화한 후 적용)
- 시장 점유율 비교: 자사 제품의 시장 점유율 분포가 목표했던 분포와 일치하는지 확인할 때
카이제곱 적합도 검정을 정확하게 사용하려면 각 범주의 **기대도수가 5 이상**이어야 한다는 조건을 만족하는 것이 좋습니다. 만약 기대도수가 5 미만인 범주가 많다면, 인접한 범주를 통합하여 조건을 만족시킨 후 검정을 수행해야 합니다.
엑셀(Excel)로 적합도 검정 따라하기 🧮
자, 그럼 실제 예시를 통해 엑셀로 적합도 검정을 수행하는 방법을 단계별로 알아보겠습니다. 백문이 불여일견이죠!
예시: 요일별 불량품 발생 건수 분석 📝
한 주(월~금) 동안 발생한 총 불량품은 150건이었습니다. 만약 불량 발생이 요일과 무관하게 균일하게 발생한다면, 매일 30건(150건 / 5일)의 불량이 기대됩니다. 실제 데이터가 이 기대치와 부합하는지 적합도 검정으로 확인해 보겠습니다.
가설 설정:
- 귀무가설($H_0$): 요일별 불량 발생 건수의 분포는 균일하다 (차이가 없다).
- 대립가설($H_1$): 요일별 불량 발생 건수의 분포는 균일하지 않다 (차이가 있다).
유의수준(α): 0.05 (일반적으로 사용되는 기준, 95% 신뢰수준을 의미)
1단계: 데이터 입력 및 기대도수 계산
먼저 엑셀에 아래와 같이 데이터를 정리합니다. '관측도수'는 실제 측정한 불량 건수이고, '기대도수'는 총 불량 건수(150)를 요일 수(5)로 나눈 값입니다.
| 요일 (범주) | 관측도수 (Observed, O) | 기대도수 (Expected, E) |
|---|---|---|
| 월요일 | 38 | 30 |
| 화요일 | 25 | 30 |
| 수요일 | 28 | 30 |
| 목요일 | 33 | 30 |
| 금요일 | 26 | 30 |
| 합계 | 150 | 150 |
2단계: 카이제곱($X^2$) 통계량 계산
카이제곱 통계량은 다음 수식으로 계산됩니다. 이 값은 관측값과 기대값의 차이를 나타내는 척도입니다.
카이제곱 통계량 공식 📝
$$X^2 = \sum \frac{(O - E)^2}{E}$$
엑셀에서 D열을 추가하여 각 범주별로 $\frac{(O - E)^2}{E}$ 값을 계산합니다. 예를 들어, D2 셀에는 =(B2-C2)^2/C2 수식을 입력하고 아래로 채웁니다. 그 후 D열의 합계를 구하면 최종 카이제곱 통계량이 됩니다.
| 요일 | 관측(O) | 기대(E) | (O-E)²/E |
|---|---|---|---|
| 월요일 | 38 | 30 | 2.13 |
| 화요일 | 25 | 30 | 0.83 |
| 수요일 | 28 | 30 | 0.13 |
| 목요일 | 33 | 30 | 0.30 |
| 금요일 | 26 | 30 | 0.53 |
| 카이제곱($X^2$) 합계 | 3.93 | ||
3단계: p-value(유의확률) 계산 및 결론
이제 계산된 카이제곱 통계량을 바탕으로 p-value를 구해 가설을 검증할 차례입니다. p-value는 '귀무가설이 사실일 때, 우리가 관측한 것과 같거나 더 극단적인 결과가 나타날 확률'을 의미합니다. 엑셀에서는 두 가지 편리한 함수를 제공합니다.
방법 1: CHISQ.TEST 함수 사용 (가장 간편)
관측도수 범위와 기대도수 범위를 인수로 넣어주면 바로 p-value를 반환합니다.
수식: =CHISQ.TEST(B2:B6, C2:C6) → 결과: **0.415**
방법 2: CHISQ.DIST.RT 함수 사용
직접 계산한 카이제곱 통계량과 자유도를 인수로 넣어 p-value를 계산합니다.
- 자유도(Degrees of Freedom, df) = (범주의 수) - 1 = 5 - 1 = 4
수식: =CHISQ.DIST.RT(3.93, 4) → 결과: **0.415**
계산된 p-value(0.415)는 우리가 설정한 유의수준(α=0.05)보다 큽니다. (p > α)
따라서, **"귀무가설을 기각할 수 없다"**는 결론을 내립니다. 즉, '요일별 불량 발생 건수가 통계적으로 유의미하게 다르다고 말할 수 없으며, 불량 발생은 요일별로 균일하다'고 해석할 수 있습니다.
핵심 내용 요약 📝
오늘 알아본 엑셀을 이용한 적합도 검정의 핵심을 다시 한번 정리해 보겠습니다.
- 적합도 검정의 목적: 관측된 데이터의 분포가 기대하는 이론적 분포와 일치하는지 통계적으로 확인하는 것입니다.
- 가설 설정: 귀무가설($H_0$)은 '차이가 없다(기대분포와 같다)', 대립가설($H_1$)은 '차이가 있다(기대분포와 다르다)'로 설정합니다.
- 엑셀 함수 활용: CHISQ.TEST 함수를 사용하면 관측/기대도수 범위만으로 p-value를 바로 구할 수 있어 매우 편리합니다.
- 의사결정: p-value가 유의수준(보통 0.05)보다 작으면 귀무가설을 기각하여 '분포에 차이가 있다'고 결론 내리고, 크면 귀무가설을 기각하지 못하여 '차이가 있다고 말할 수 없다'고 결론 내립니다.
엑셀 적합도 검정 핵심 요약
자주 묻는 질문 ❓
이제 여러분도 엑셀을 활용하여 데이터의 분포를 자신 있게 검증할 수 있습니다.



댓글 쓰기