데이터 분포, 가설이 맞을까? 엑셀 적합도 검정으로 확인하는 방법

엑셀을 사용하여 카이제곱 적합도 검정을 수행하는 방법을 수식과 함께 단계별로 설명합니다. 관측된 데이터가 특정 분포에 맞는지 통계적으로 검증하고, 품질관리 현장에서 데이터 기반의 의사결정을 내리는 법을 배워보세요.

 

[엑셀 적합도 검정이란?] 현장에서 관찰된 데이터 분포가 우리가 기대하거나 가설로 세운 분포와 얼마나 잘 들어맞는지 통계적으로 검증하는 강력한 도구입니다. 이 글을 통해 데이터 뒤에 숨겨진 패턴을 발견하고, 데이터 기반의 현명한 의사결정을 내리는 방법을 배워보세요!

현업에서 데이터를 다루다 보면 이런 궁금증이 생길 때가 있습니다. '우리 공장의 요일별 불량품 발생 건수가 정말 균일할까?', 'A, B, C 세 가지 원자재의 사용 비율이 특정 비율을 따르고 있다고 할 수 있을까?' 와 같은 질문들이죠. 이런 질문에 대해 "대충 비슷해 보입니다"가 아니라, 통계적 근거를 가지고 명확하게 답할 수 있게 해주는 방법이 바로 **카이제곱(Chi-squared, $X^2$) 적합도 검정**입니다. 오늘은 이 적합도 검정을 엑셀로 어떻게 쉽고 정확하게 수행할 수 있는지 단계별로 알아보겠습니다. 

 

적합도 검정

적합도 검정이란 무엇일까요? 🤔

적합도 검정(Goodness-of-Fit Test)은 한마디로 '관측된 데이터가 특정 이론적 분포나 기대치에 얼마나 잘 맞는지를 평가하는 통계적 가설 검정 방법'입니다. 우리가 가진 데이터(관측도수)가 우리가 예상하는 분포(기대도수)와 차이가 있는지 없는지를 카이제곱($X^2$)이라는 통계량을 사용해 판단합니다.

만약 관측도수와 기대도수의 차이가 크다면, 우리가 가정한 분포가 실제 데이터와 맞지 않다고 결론 내릴 수 있습니다. 반대로 차이가 작다면, 데이터가 우리가 가정한 분포를 잘 따른다고 볼 수 있는 것이죠.

💡 알아두세요!
적합도 검정은 **하나의 범주형 변수**에 대해 사용됩니다. 예를 들어 '요일'이라는 변수의 범주(월, 화, 수, 목, 금)별로 불량품 수를 비교하거나, '혈액형'이라는 변수의 범주(A, B, O, AB)별 인원 분포를 확인할 때 사용합니다.

 

적합도 검정, 언제 사용할까요? 📊

적합도 검정은 다양한 분야에서 유용하게 사용될 수 있습니다. 특히 품질관리 현장에서는 다음과 같은 상황에서 활용할 수 있습니다.

  • 불량 발생 패턴 분석: 특정 생산 라인, 설비, 작업조, 요일 등에서 발생하는 불량 건수가 균일한지, 아니면 특정 범주에 집중되는지 확인할 때
  • 고객 클레임 유형 분석: 접수된 고객 클레임이 특정 유형(예: 기능, 외관, 포장)에 따라 기존에 알려진 비율과 일치하는지 검증할 때
  • 공정 산포 확인: 생산된 제품의 특정 치수가 정규분포를 따르는지 검정하고 싶을 때 (연속형 데이터를 구간으로 나누어 범주화한 후 적용)
  • 시장 점유율 비교: 자사 제품의 시장 점유율 분포가 목표했던 분포와 일치하는지 확인할 때
⚠️ 주의하세요!
카이제곱 적합도 검정을 정확하게 사용하려면 각 범주의 **기대도수가 5 이상**이어야 한다는 조건을 만족하는 것이 좋습니다. 만약 기대도수가 5 미만인 범주가 많다면, 인접한 범주를 통합하여 조건을 만족시킨 후 검정을 수행해야 합니다.

 

엑셀(Excel)로 적합도 검정 따라하기 🧮

자, 그럼 실제 예시를 통해 엑셀로 적합도 검정을 수행하는 방법을 단계별로 알아보겠습니다. 백문이 불여일견이죠!

예시: 요일별 불량품 발생 건수 분석 📝

한 주(월~금) 동안 발생한 총 불량품은 150건이었습니다. 만약 불량 발생이 요일과 무관하게 균일하게 발생한다면, 매일 30건(150건 / 5일)의 불량이 기대됩니다. 실제 데이터가 이 기대치와 부합하는지 적합도 검정으로 확인해 보겠습니다.

가설 설정:

  • 귀무가설($H_0$): 요일별 불량 발생 건수의 분포는 균일하다 (차이가 없다).
  • 대립가설($H_1$): 요일별 불량 발생 건수의 분포는 균일하지 않다 (차이가 있다).

유의수준(α): 0.05 (일반적으로 사용되는 기준, 95% 신뢰수준을 의미)

1단계: 데이터 입력 및 기대도수 계산

먼저 엑셀에 아래와 같이 데이터를 정리합니다. '관측도수'는 실제 측정한 불량 건수이고, '기대도수'는 총 불량 건수(150)를 요일 수(5)로 나눈 값입니다.

요일 (범주) 관측도수 (Observed, O) 기대도수 (Expected, E)
월요일 38 30
화요일 25 30
수요일 28 30
목요일 33 30
금요일 26 30
합계 150 150

2단계: 카이제곱($X^2$) 통계량 계산

카이제곱 통계량은 다음 수식으로 계산됩니다. 이 값은 관측값과 기대값의 차이를 나타내는 척도입니다.

카이제곱 통계량 공식 📝

$$X^2 = \sum \frac{(O - E)^2}{E}$$

엑셀에서 D열을 추가하여 각 범주별로 $\frac{(O - E)^2}{E}$ 값을 계산합니다. 예를 들어, D2 셀에는 =(B2-C2)^2/C2 수식을 입력하고 아래로 채웁니다. 그 후 D열의 합계를 구하면 최종 카이제곱 통계량이 됩니다.

요일 관측(O) 기대(E) (O-E)²/E
월요일38302.13
화요일25300.83
수요일28300.13
목요일33300.30
금요일26300.53
카이제곱($X^2$) 합계3.93

3단계: p-value(유의확률) 계산 및 결론

이제 계산된 카이제곱 통계량을 바탕으로 p-value를 구해 가설을 검증할 차례입니다. p-value는 '귀무가설이 사실일 때, 우리가 관측한 것과 같거나 더 극단적인 결과가 나타날 확률'을 의미합니다. 엑셀에서는 두 가지 편리한 함수를 제공합니다.

방법 1: CHISQ.TEST 함수 사용 (가장 간편)

관측도수 범위와 기대도수 범위를 인수로 넣어주면 바로 p-value를 반환합니다.

수식: =CHISQ.TEST(B2:B6, C2:C6) → 결과: **0.415**

방법 2: CHISQ.DIST.RT 함수 사용

직접 계산한 카이제곱 통계량과 자유도를 인수로 넣어 p-value를 계산합니다.

- 자유도(Degrees of Freedom, df) = (범주의 수) - 1 = 5 - 1 = 4

수식: =CHISQ.DIST.RT(3.93, 4) → 결과: **0.415**

💡 최종 결론!
계산된 p-value(0.415)는 우리가 설정한 유의수준(α=0.05)보다 큽니다. (p > α)
따라서, **"귀무가설을 기각할 수 없다"**는 결론을 내립니다. 즉, '요일별 불량 발생 건수가 통계적으로 유의미하게 다르다고 말할 수 없으며, 불량 발생은 요일별로 균일하다'고 해석할 수 있습니다.

 

핵심 내용 요약 📝

오늘 알아본 엑셀을 이용한 적합도 검정의 핵심을 다시 한번 정리해 보겠습니다.

  1. 적합도 검정의 목적: 관측된 데이터의 분포가 기대하는 이론적 분포와 일치하는지 통계적으로 확인하는 것입니다.
  2. 가설 설정: 귀무가설($H_0$)은 '차이가 없다(기대분포와 같다)', 대립가설($H_1$)은 '차이가 있다(기대분포와 다르다)'로 설정합니다.
  3. 엑셀 함수 활용: CHISQ.TEST 함수를 사용하면 관측/기대도수 범위만으로 p-value를 바로 구할 수 있어 매우 편리합니다.
  4. 의사결정: p-value가 유의수준(보통 0.05)보다 작으면 귀무가설을 기각하여 '분포에 차이가 있다'고 결론 내리고, 크면 귀무가설을 기각하지 못하여 '차이가 있다고 말할 수 없다'고 결론 내립니다.

💡엑셀 적합도 검정 핵심 요약

✨ 목적: 관측된 분포가 기대 분포와 일치하는지 통계적으로 검증
📊 데이터: 하나의 범주형 변수에 대한 빈도(도수) 데이터
🧮 엑셀 핵심 수식:
=CHISQ.TEST(관측도수_범위, 기대도수_범위)
👩‍⚖️ 판단 기준: p-value > 0.05 → 기대분포와 차이 없음 (귀무가설 채택)

자주 묻는 질문 ❓

Q: 자유도(Degrees of Freedom)가 '범주 수 - 1'인 이유는 무엇인가요?
A: 총합계가 고정되어 있기 때문입니다. 예를 들어 5개의 범주가 있고 총합이 150으로 정해져 있다면, 4개 범주의 값이 결정되는 순간 마지막 1개 범주의 값은 자동으로 정해집니다. 이처럼 자유롭게 변할 수 있는 값의 개수가 바로 자유도이며, 그래서 '전체 범주 수 - 1'이 됩니다.
Q: 적합도 검정과 독립성 검정은 어떻게 다른가요?
A: 좋은 질문입니다! 적합도 검정은 '하나의' 범주형 변수가 특정 분포를 따르는지 보지만, 독립성 검정은 '두 개의' 범주형 변수 사이에 연관성이 있는지(독립적인지)를 봅니다. 예를 들어 '요일별 불량률'을 보는 것은 적합도 검정이고, '성별과 선호하는 자동차 색상 간의 관계'를 보는 것은 독립성 검정입니다.
Q: p-value가 0.05보다 아주 약간 큰 경우(예: 0.051)에는 어떻게 해석해야 하나요?
A: 통계적으로는 귀무가설을 기각할 수 없으므로 '차이가 없다'고 결론 내리는 것이 맞습니다. 하지만 유의수준에 매우 근접했다는 것은 '통계적으로 유의미한 차이가 있을 가능성의 경계에 있다'는 의미로 해석할 수 있습니다. 이런 경우, 데이터를 더 수집하여 재검증하거나, 차이를 유발하는 잠재적 원인이 있는지 현장을 좀 더 면밀히 살펴보는 것이 현명한 조치일 수 있습니다.

이제 여러분도 엑셀을 활용하여 데이터의 분포를 자신 있게 검증할 수 있습니다. 

Quality Insights

댓글 쓰기