품질 관리 업무를 하다 보면 "기존 설비와 신규 설비의 성능이 동일한가?", "작업자 A와 B의 측정 결과에 차이가 없는가?" 와 같은 질문에 답해야 할 때가 정말 많습니다. 저도 예전에 비슷한 문제로 골머리를 앓았던 적이 있는데요, 많은 분들이 이때 흔히 2-Sample t-test(2-표본 t-검정)를 사용하고 p-값이 0.05보다 크면 "두 그룹 간에 차이가 없다"고 결론 내리곤 합니다. 하지만 이건 통계적으로 매우 위험한 해석이라는 사실, 알고 계셨나요? 오늘은 바로 이 문제를 해결해 줄 강력한 무기, 동등성 검증(Equivalence Test)에 대해 A부터 Z까지 파헤쳐 보겠습니다. 😊
p-값의 함정: 왜 '차이가 없다'고 말할 수 없을까? 🤔
우리가 흔히 사용하는 가설 검정, 예를 들어 t-검정의 귀무가설($H_0$)은 '두 그룹의 평균에 차이가 없다($\mu_1 = \mu_2$)'입니다. 그리고 대립가설($H_1$)은 '차이가 있다($\mu_1 \neq \mu_2$)'이죠. 검정 결과 p-값이 유의수준(보통 0.05)보다 작으면, 우리는 귀무가설을 기각하고 '차이가 있다'고 결론 내립니다.
문제는 p-값이 0.05보다 클 때 발생합니다. 많은 사람들이 이를 '차이가 없다'는 증거로 받아들이지만, 통계적으로 이는 '차이가 있다는 충분한 증거를 찾지 못했다'는 의미일 뿐입니다. '증거의 부재'가 '부재의 증거'는 아닌 것이죠. 데이터가 부족하거나 산포가 너무 커서 차이를 발견하지 못했을 수도 있습니다.
t-검정에서 p > 0.05가 나왔다고 해서 "두 그룹은 차이가 없으므로 동일하다"고 보고서에 작성한다면, 그것은 통계적 사실을 왜곡하는 것입니다. 이는 두 그룹이 같다는 것을 증명한 것이 아니라, 단지 다르다는 것을 증명하지 못한 상태일 뿐입니다.
새로운 해법, 동등성 검증(Equivalence Test)이란? 🚀
그렇다면 '두 그룹이 실질적으로 같다'는 것을 어떻게 증명할 수 있을까요? 바로 이때 사용하는 것이 동등성 검증입니다. 동등성 검증은 전통적인 가설 검정과 접근 방식이 정반대입니다.
전통적인 검정의 목표가 '차이가 있음'을 증명하는 것이라면, 동등성 검증의 목표는 '차이가 무시할 수 있을 만큼 작아서 두 그룹이 실질적으로 동등하다'는 것을 증명하는 것입니다.
이를 위해 우리는 '이 정도 차이까지는 괜찮아'라고 하는 동등성 한계(Equivalence Limit), 즉 델타($\Delta$)를 먼저 정의해야 합니다. 예를 들어, "두 설비에서 생산된 부품의 평균 길이 차이가 $\pm0.1mm$ 이내라면, 두 설비는 동등하다고 볼 수 있다" 와 같이 실용적인 중요성을 기준으로 설정하는 것이죠.
동등성 검증의 가설은 다음과 같습니다.
- 귀무가설($H_0$): 두 그룹의 차이는 동등성 한계($\Delta$)보다 크거나 같다. 즉, 동등하지 않다. ($|\mu_1 - \mu_2| \ge \Delta$)
- 대립가설($H_1$): 두 그룹의 차이는 동등성 한계($\Delta$)보다 작다. 즉, 동등하다. ($|\mu_1 - \mu_2| < \Delta$)
우리의 목표는 이 귀무가설을 기각하여, 두 그룹이 동등하다는 대립가설을 채택하는 것입니다. 이를 수행하는 가장 일반적인 방법이 바로 TOST(Two One-Sided Tests, 두 번의 단측 검정)입니다.
동등성 한계($\Delta$)를 정하는 것이 가장 중요합니다. 이 값은 통계적으로 결정되는 것이 아니라, 해당 공정의 전문가, 엔지니어, 고객 요구사항 등 도메인 지식(Domain Knowledge)을 통해 '실질적으로 의미 있는 최소 차이'가 얼마인지 합의하여 결정해야 합니다.
엑셀로 직접 해보자! 동등성 검증 실전 가이드 📊
이론은 조금 복잡해 보이지만, 엑셀을 이용하면 의외로 간단하게 동등성 검증을 수행할 수 있습니다. TOST를 직접 계산하는 것보다 더 직관적인 '신뢰구간 접근법'을 사용해 보겠습니다. 유의수준 5%($\alpha=0.05$)에서 동등성 검증을 하는 것은, 두 그룹 평균 차이에 대한 90% 신뢰구간이 동등성 한계 $[-\Delta, +\Delta]$ 안에 완전히 포함되는지 확인하는 것과 같습니다.
[사례: 신규 설비 도입 타당성 검토 📝]
기존 설비 A를 대체할 신규 설비 B를 도입하려고 합니다. 설비 B가 기존 설비 A와 동등한 수준의 제품을 생산하는지 확인해야 합니다. 제품의 핵심 치수를 각각 20개씩 측정했으며, 공학적으로 허용 가능한 차이(동등성 한계, $\Delta$)는 0.5로 설정했습니다.
1단계: 데이터 및 기초 통계량 계산
먼저 각 그룹의 샘플 데이터로부터 평균, 표준편차, 데이터 수를 구합니다.
| 항목 | 설비 A | 설비 B |
|---|---|---|
| 평균 ($\bar{x}$) | 100.2 | 100.1 |
| 표준편차 (s) | 0.8 | 0.7 |
| 데이터 수 (n) | 20 | 20 |
- 평균 계산:
=AVERAGE(데이터_범위) - 표준편차 계산:
=STDEV.S(데이터_범위)
2단계: 평균 차이에 대한 90% 신뢰구간 계산
신뢰구간을 구하기 위해 합동 표준편차($S_p$)와 표준 오차(SE)를 계산해야 합니다.
- 합동 표준편차 ($S_p$) 계산:
$$ S_p = \sqrt{\frac{(n_A-1)s_A^2 + (n_B-1)s_B^2}{n_A+n_B-2}} = \sqrt{\frac{(19)0.8^2 + (19)0.7^2}{20+20-2}} \approx 0.752 $$
- 표준 오차 ($SE(\bar{x}_A - \bar{x}_B)$) 계산:
$$ SE = S_p \sqrt{\frac{1}{n_A} + \frac{1}{n_B}} = 0.752 \sqrt{\frac{1}{20} + \frac{1}{20}} \approx 0.238 $$
- 자유도(df) 및 임계값(t) 계산:
자유도(df) = $n_A+n_B-2 = 38$
90% 신뢰수준(양측 유의수준 0.1)의 t 임계값: 엑셀 함수
=T.INV(0.95, 38)또는=ABS(T.INV(0.05, 38))$\approx 1.686$ - 90% 신뢰구간 계산:
신뢰구간 = $(\bar{x}_A - \bar{x}_B) \pm t \times SE$
평균 차이 = $100.2 - 100.1 = 0.1$
신뢰구간 = $0.1 \pm 1.686 \times 0.238 = 0.1 \pm 0.401$
신뢰구간 = [-0.301, 0.501]
3단계: 판정
계산된 90% 신뢰구간 [-0.301, 0.501]과 우리가 설정한 동등성 한계 [-0.5, 0.5]를 비교합니다.
신뢰구간의 하한(-0.301)은 동등성 하한(-0.5)보다 크고, 신뢰구간의 상한(0.501)은 동등성 상한(0.5)보다 아주 약간 큽니다. 신뢰구간이 동등성 한계 내에 완전히 포함되지 않으므로, 우리는 "두 설비가 동등하다고 결론 내릴 수 없다"고 판정합니다. 만약 신뢰구간이 [-0.4, 0.4] 와 같이 나왔다면 동등하다고 결론 내릴 수 있었을 것입니다.
동등성 검증 한눈에 보기
자주 묻는 질문 ❓
동등성 검증은 '같음'을 증명해야 하는 모든 품질 및 공정 관리 분야에서 매우 강력하고 유용한 도구입니다. 이제부터는 신규 설비를 도입하거나 공정 조건을 변경할 때, 막연한 판단 대신 동등성 검증을 통해 데이터를 기반으로 명확하고 논리적인 결론을 내리시길 바랍니다.



댓글 쓰기