기대빈도 5 미만이면, 진짜 문제일까? — 카이제곱 독립성 검정에서 자주 마주치는 오해
카테고리 없음 2025. 5. 10. 10:28 |카이제곱 검정은 사회과학 논문에서 정말 자주 사용됩니다.
집단 간의 분포 차이를 비교하거나, 범주형 변수 간의 관계를 살펴볼 때
가장 먼저 떠올리는 분석이지요.
특히 "집단 A와 B는 어떤 선택을 더 많이 했는가?"
"성별에 따라 태도 차이가 있는가?"
이런 질문을 다룰 때 매우 유용합니다.
분석은 간단합니다.
SPSS에서 교차표 기능만 잘 설정하면,
결과표와 함께 카이제곱 통계량, 유의확률(p값), 기대빈도까지 한 번에 확인할 수 있으니까요.
그런데 여기서 한 가지, 많은 대학원생들이 걸려 넘어지는 부분이 있습니다.
바로 ‘기대빈도(expected count)가 5 미만인 셀이 있으면 안 된다’는 조건입니다.
그리고 이 조건에 너무 엄격하게 반응해서,
"기대빈도가 하나라도 5 미만이면 이 분석은 무효다!"
이렇게 판단해 버리는 경우가 꽤 많습니다.
사실 이건 절반만 맞는 이야기입니다.
원래 이 기준은 표본 수가 적을 때 카이제곱 근삿값이 신뢰할 수 없게 되는 문제를 지적한 것입니다.
그렇기 때문에 “모든 셀이 5 이상이어야 한다”는 건 아주 보수적인 해석에 가깝고,
실제로는 다음과 같은 기준을 더 많이 씁니다:
기대빈도 5 미만 셀이 전체의 20% 미만이면 괜찮다.
기대빈도가 1 미만인 셀이 없어야 한다.
즉, 모든 셀이 5 이상이어야 한다는 건 이상적이지만 현실적인 기준은 아니라는 것입니다.
SPSS에서도 결과표 하단에 이렇게 나옵니다:
“0개의 셀이 기대빈도 5 미만입니다” 혹은 “전체 셀의 16.7%가 기대빈도 5 미만입니다” 같은 안내 문구가 뜨지요.
이 문장을 정확히 읽고 해석해야 합니다.
그런데 이런 조건을 무시하거나 오해하면 다음과 같은 실수가 발생합니다.
기대빈도 5 미만 셀이 조금 있다고 해서 분석을 통째로 버린다.
또는, 기대빈도가 너무 낮은데도 ‘괜찮겠지’ 하고 그냥 사용한다.
더 적절한 대안인 Fisher의 정확검정이나 합치기(re-coding)같은 방법을 고려하지 않는다.
만약 교차표의 셀 수가 너무 많거나 일부 응답이 거의 없다면,
범주를 묶어서 분석 구조를 간단하게 바꾸는 것도 좋은 방법입니다.
또는 SPSS에서 Fisher의 정확검정 옵션을 켜서 함께 보고,
논문에서는 “기대빈도가 일부 낮아 정확검정 결과도 함께 확인했다”는 식으로 기술하면 됩니다.
한 마디로, 기대빈도 기준은 분석을 아예 못 하게 막는 절대 규칙이 아니라,
해석을 신중하게 하라는 신호에 가깝습니다.
통계는 단순히 기준에 맞췄느냐가 아니라,
그 기준이 왜 중요한지를 이해하고, 상황에 맞게 조정하는 태도가 훨씬 중요합니다.
분석 조건에 조금이라도 불안함이 느껴진다면,
무조건 다시 분석할 필요는 없지만,
그 ‘불안함’에 대해 언급하고 보완해 주는 것이 논문에서는 오히려 더 신뢰를 줍니다.
- 통계분석만 20년째 하고 있는 사회조사분석사 입니다.
- 통계문의 chsoo.lee@gmail.com
- 댓글보다는 메일로 주시면 답변이 가장 빠릅니다.