품질 업무를 하다 보면 측정 데이터의 신뢰성에 대해 고민하는 순간이 꼭 찾아옵니다. "우리가 지금 사용하는 계측기, 정말 믿을만 한가?", "작업자마다 측정값이 다른데, 이건 누구의 문제일까?" 이런 고민을 해결하기 위해 우리는 측정 시스템 분석, 즉 MSA(Measurement Systems Analysis)를 수행하죠. 특히 Gage R&R은 MSA의 핵심 중 하나입니다. 그런데 Gage R&R을 분석하는 방법에도 '평균-범위(Average & Range) 방법'과 '분산 분석(ANOVA) 방법' 두 가지가 있어서 많은 분들이 헷갈려 하십니다. 저도 실무에서 두 가지 방법을 모두 사용해보면서 그 차이를 명확히 이해하게 되었는데요, 오늘 그 핵심적인 차이와 실제 데이터 분석 결과를 공유해 드릴게요! 😉
Gage R&R의 두 가지 분석법: 평균-범위 vs. ANOVA 📊
본격적인 비교에 앞서, 두 방법의 기본적인 개념부터 간단히 짚고 넘어가겠습니다. Gage R&R은 측정 시스템의 변동이 얼마나 큰지를 평가하는 통계적 방법으로, 크게 반복성(Repeatability)과 재현성(Reproducibility)으로 구성됩니다.
- 반복성 (EV, Equipment Variation): 한 명의 평가자가 동일한 부품을 동일한 계측기로 여러 번 측정했을 때 발생하는 변동입니다. 즉, '계측기 자체의 정밀도'라고 할 수 있습니다.
- 재현성 (AV, Appraiser Variation): 여러 평가자가 동일한 부품을 동일한 계측기로 측정했을 때 발생하는 평균값의 변동입니다. '사람(평가자) 간의 차이'로 이해할 수 있습니다.
평균-범위법과 ANOVA법은 바로 이 반복성과 재현성을 계산하는 방식에서 결정적인 차이를 보입니다.
AIAG(Automotive Industry Action Group)의 MSA 4판 매뉴얼에서는 두 가지 방법을 모두 소개하고 있지만, 통계적으로 더 정교하고 정확한 ANOVA 방법을 우선적으로 권장하고 있습니다. 특히 자동차 산업의 품질경영시스템인 IATF 16949에서는 ANOVA 사용을 사실상 표준으로 여기고 있습니다.
결정적 차이: '상호작용'을 보느냐 마느냐 🧐
두 방법의 가장 큰 차이점을 한마디로 요약하면 바로 '평가자와 부품 간의 상호작용(Interaction)'을 분리하여 분석할 수 있는지의 여부입니다.
| 구분 | 평균-범위 (Xbar-R) 방법 | 분산분석 (ANOVA) 방법 |
|---|---|---|
| 개념 | 비교적 간단한 계산과 그래프를 이용한 분석 | 통계적 분산 분석을 통해 변동의 원인을 세분화 |
| 장점 | 계산이 간단하여 엑셀 등으로 쉽게 구현 가능 | 정확도가 높고, '상호작용' 효과를 분석 가능 |
| 단점 | 상호작용을 재현성(AV)에 포함시켜 정확도가 떨어짐 | 계산이 복잡하여 통계 프로그램(예: Minitab) 필요 |
평균-범위법에서는 '상호작용'을 따로 분리하지 못하고 재현성(AV)의 일부로 포함시켜 버립니다. 여기서 말하는 상호작용이란 특정 평가자가 특정 부품을 측정할 때 유독 다른 경향을 보이는 것을 의미합니다. 예를 들어, A 평가자는 유독 3번 부품만 실제보다 크게 측정하는 경향이 있을 수 있습니다. 이런 변동은 순수한 평가자 간의 변동(재현성)이라고 보기 어렵죠.
반면, ANOVA 방법은 이 상호작용을 별도의 변동 요인으로 명확하게 분리해 냅니다. 따라서 측정 시스템의 변동 원인을 훨씬 더 정확하고 상세하게 파악할 수 있게 됩니다.
동일 데이터, 다른 결과: 시뮬레이션 비교 🔬
백문이 불여일견이죠. 제가 직접 동일한 가상 데이터(부품 5개, 평가자 3명, 반복 2회)를 가지고 두 가지 방법으로 Gage R&R을 분석해 보았습니다. 과연 어떤 차이가 있었을까요?
분석 데이터 (가상) 📝
| 부품 | 평가자 | 측정 1 | 측정 2 |
|---|---|---|---|
| 1 | A | 10.2 | 10.3 |
| B | 10.4 | 10.5 | |
| C | 10.2 | 10.1 | |
| 2 | A | 12.5 | 12.6 |
| B | 12.7 | 12.8 | |
| C | 12.4 | 12.5 | |
| 3 | A | 15.1 | 15.2 |
| B | 15.5 | 15.4 | |
| C | 15.8 | 15.9 | |
| 4 | A | 8.8 | 8.7 |
| B | 8.9 | 8.9 | |
| C | 8.6 | 8.5 | |
| 5 | A | 11.0 | 11.1 |
| B | 11.2 | 11.3 | |
| C | 11.0 | 10.9 |
이 데이터를 Minitab(미니탭)과 같은 통계 프로그램을 사용하여 두 가지 방식으로 분석하면 다음과 같은 결과를 얻을 수 있습니다.
| Gage R&R 분석 결과 비교 | ||
|---|---|---|
| 변동의 원인 (%기여도) | 평균-범위 방법 | ANOVA 방법 |
| 총 Gage R&R | 20.53% | 20.24% |
| 반복성 (EV) | 17.15% | 17.15% |
| 재현성 (AV) | 11.45% | 5.84% |
| 재현성 & 상호작용 (AV & INT) | - | 상호작용: 9.77% |
| 부품 간 (PV) | 97.87% | 97.93% |
결과를 보세요! 가장 눈에 띄는 차이는 재현성(AV) 값입니다. 평균-범위법에서는 11.45%였던 재현성이 ANOVA 방법에서는 5.84%로 크게 줄었습니다. 그 이유는 ANOVA 방법에서 상호작용(9.77%)을 별도로 분리해냈기 때문입니다. 즉, 평균-범위법의 재현성(11.45%) 안에는 순수한 재현성(5.84%)과 상호작용(9.77%)이 뒤섞여 있었던 것입니다. (수치가 정확히 더해지지 않는 것은 변동을 계산하는 통계적인 방식 때문입니다.) 만약 상호작용이 문제의 원인이었다면, 평균-범위법으로는 그 원인을 놓치고 엉뚱하게 평가자 교육만 강화하는 실수를 저지를 수도 있었겠죠.
Gage R&R 핵심 요약 카드
자주 묻는 질문 ❓
오늘은 MSA Gage R&R의 두 가지 분석 방법인 평균-범위법과 ANOVA법의 차이를 시뮬레이션을 통해 명확히 비교해 보았습니다. 이제 두 방법의 차이점이 확실히 이해되셨나요? 결론적으로, 더 정확하고 신뢰성 있는 측정 시스템 분석을 위해서는 ANOVA 방법을 사용하시는 것을 강력히 추천합니다. 여러분의 품질 관리 여정에 작은 도움이 되었기를 바랍니다.



댓글 쓰기