카이제곱 검정은 사회과학 논문에서 정말 자주 사용됩니다.
집단 간의 분포 차이를 비교하거나, 범주형 변수 간의 관계를 살펴볼 때
가장 먼저 떠올리는 분석이지요.

특히 "집단 A와 B는 어떤 선택을 더 많이 했는가?"
"성별에 따라 태도 차이가 있는가?"
이런 질문을 다룰 때 매우 유용합니다.

분석은 간단합니다.
SPSS에서 교차표 기능만 잘 설정하면,
결과표와 함께 카이제곱 통계량, 유의확률(p값), 기대빈도까지 한 번에 확인할 수 있으니까요.

그런데 여기서 한 가지, 많은 대학원생들이 걸려 넘어지는 부분이 있습니다.
바로 ‘기대빈도(expected count)가 5 미만인 셀이 있으면 안 된다’는 조건입니다.
그리고 이 조건에 너무 엄격하게 반응해서,
"기대빈도가 하나라도 5 미만이면 이 분석은 무효다!"
이렇게 판단해 버리는 경우가 꽤 많습니다.

사실 이건 절반만 맞는 이야기입니다.

원래 이 기준은 표본 수가 적을 때 카이제곱 근삿값이 신뢰할 수 없게 되는 문제를 지적한 것입니다.
그렇기 때문에 “모든 셀이 5 이상이어야 한다”는 건 아주 보수적인 해석에 가깝고,
실제로는 다음과 같은 기준을 더 많이 씁니다:

기대빈도 5 미만 셀이 전체의 20% 미만이면 괜찮다.

기대빈도가 1 미만인 셀이 없어야 한다.

즉, 모든 셀이 5 이상이어야 한다는 건 이상적이지만 현실적인 기준은 아니라는 것입니다.
SPSS에서도 결과표 하단에 이렇게 나옵니다:
“0개의 셀이 기대빈도 5 미만입니다” 혹은 “전체 셀의 16.7%가 기대빈도 5 미만입니다” 같은 안내 문구가 뜨지요.
이 문장을 정확히 읽고 해석해야 합니다.

그런데 이런 조건을 무시하거나 오해하면 다음과 같은 실수가 발생합니다.

기대빈도 5 미만 셀이 조금 있다고 해서 분석을 통째로 버린다.

또는, 기대빈도가 너무 낮은데도 ‘괜찮겠지’ 하고 그냥 사용한다.

더 적절한 대안인 Fisher의 정확검정이나 합치기(re-coding)같은 방법을 고려하지 않는다.

만약 교차표의 셀 수가 너무 많거나 일부 응답이 거의 없다면,
범주를 묶어서 분석
구조를 간단하게 바꾸는 것도 좋은 방법입니다.
또는 SPSS에서 Fisher의 정확검정 옵션을 켜서 함께 보고,
논문에서는 “기대빈도가 일부 낮아 정확검정 결과도 함께 확인했다”는 식으로 기술하면 됩니다.

한 마디로, 기대빈도 기준은 분석을 아예 못 하게 막는 절대 규칙이 아니라,
해석을 신중하게 하라는 신호
에 가깝습니다.

통계는 단순히 기준에 맞췄느냐가 아니라,
그 기준이 왜 중요한지를 이해하고, 상황에 맞게 조정하는 태도
가 훨씬 중요합니다.
분석 조건에 조금이라도 불안함이 느껴진다면,
무조건 다시 분석할 필요는 없지만,
그 ‘불안함’에 대해 언급하고 보완해 주는 것이 논문에서는 오히려 더 신뢰를 줍니다.


 
  • 통계분석만 20년째 하고 있는 사회조사분석사 입니다.
  • 통계문의 chsoo.lee@gmail.com 
  • 댓글보다는 메일로 주시면 답변이 가장 빠릅니다.


:

대응표본 t검정은 통계분석 중에서 꽤 자주 등장합니다.
특히 사전-사후 설계(pre-post design), 또는 동일한 집단을 두 조건에서 비교할 때 주로 사용되지요.
예를 들어, 한 집단의 스트레스 수준을 프로그램 전과 후에 비교한다든가, 동일한 참가자가 두 제품을 사용했을 때 만족도를 비교하는 경우처럼 말입니다.

이 분석은 '같은 사람'에게서 나온 두 관측값 간의 차이를 비교하는 것이기 때문에,
독립표본 t검정과는 다르게 개인 간 차이를 제거하고 순수한 조건 간 차이에 집중할 수 있다는 장점이 있습니다.
하지만 이 분석이 쉬워 보인다고 해서 항상 간단하게 넘어갈 수 있는 건 아닙니다.

우선 기본적으로 데이터는 쌍을 이루고 있어야 합니다.
두 시점 혹은 두 조건이 같은 대상에게서 측정된 것이어야 하지요.
만약 누락된 값이 많아 대응이 성립되지 않는다면, 분석에 포함할 수 없습니다.
(논문 데이터셋 정리에서 종종 빠뜨리는 부분이기도 합니다.)

그리고 또 하나, 대응표본 t검정도 차이값의 정규성이라는 전제를 가지고 있습니다.
많은 연구자들이 이 부분을 간과하는데요,
단순히 두 시점의 데이터가 정규분포인지 보는 것이 아니라,
‘두 값의 차이’를 구해서 그 차이의 분포가 정규성을 띠는지를 봐야 합니다.
SPSS에서는 이때 ‘탐색적 데이터 분석’ 기능이나 Kolmogorov-Smirnov 검정을 통해 확인할 수 있죠.

실제로 통계 분석 의뢰를 받다 보면, 대응표본 t검정을 적용하면서도
차이값 정규성 검정을 거치지 않은 경우가 많습니다.
이 조건이 충족되지 않으면, 평균의 차이에 대해 신뢰성 있는 결론을 내릴 수 없습니다.
이럴 경우에는 대응표본 t검정 대신 윌콕슨 부호순위검정(Wilcoxon signed-rank test) 같은 비모수 검정을 사용하는 것이 더 적절할 수 있습니다.

또 하나, 유의한 차이가 있다는 것이 곧 현실적으로 중요한 차이를 의미하는 건 아닙니다.
통계적으로는 p값이 0.05 아래로 떨어졌지만, 평균 차이가 크지 않다면 해석에 신중해야 합니다.
논문 심사에서 이 부분—통계적 유의성과 실제적 의미의 구분—을 꼼꼼하게 짚는 교수님들도 많습니다.

한 마디로, 대응표본 t검정은 구조상 간단해 보여도
데이터 구조와 가정 확인, 해석의 균형까지 챙겨야 제대로 된 분석입니다.
숫자 하나로 결론을 내리기보다는, 그 뒤에 숨은 조건들을 성실히 확인하는 태도가 연구의 신뢰도를 좌우합니다.

분석을 준비 중이시라면, 단순히 “두 시점 비교니까 t검정”이라는 식으로 접근하기보다는
자료의 구조와 전제를 면밀히 살펴보는 과정이 꼭 필요합니다.
이런 부분에 대해 더 깊이 점검이 필요하시다면, 같이 검토해드릴 수 있습니다.
분석은 빠르게도 할 수 있지만, 신중하게 할 때 훨씬 오래 갑니다.


통계분석만 20년째 하고 있는 사회조사분석사 입니다.

통계문의 chsoo.lee@gmail.com 

댓글보다는 메일로 주시면 답변이 가장 빠릅니다.



:

공분산분석, 즉 ANCOVA는 실험이나 비교연구에서 그룹 간 차이를 보다 정확하게 비교하고자 할 때 자주 사용됩니다.
특히 초기 상태의 차이나 외부 영향을 통제하려는 목적에서 많이 선택되지요.
표면적으로는 분산분석(ANOVA)에 공변량 하나를 추가하는 정도로 보이지만, 실제로는 몇 가지 중요한 전제조건을 충족해야 신뢰할 수 있는 결과를 얻을 수 있습니다.

우선 공변량은 종속변수와 유의미한 상관이 있어야 합니다.
공변량이 종속변수와 아무런 관련이 없다면, 굳이 ANCOVA를 적용할 이유가 없습니다.
오히려 필요 없는 변수를 넣음으로써 모델이 불필요하게 복잡해질 수 있습니다.
따라서 분석에 앞서 공변량과 종속변수 간 상관관계를 반드시 확인해야 하며, 단순히 유의성 여부를 보는 것을 넘어, 실제로 의미 있는 수준의 상관계수(correlation coefficient)가 확보되는지도 고려해야 합니다.

또한 공변량의 평균은 집단 간 차이가 없어야 합니다.
실험군과 통제군 간에 이미 공변량 수준이 유의하게 다르다면, 공정한 비교를 기대하기 어렵습니다.
이 조건은 독립표본 t-검정을 통해 확인할 수 있으며, 만약 공변량 평균이 집단 간 유의하게 다르다면 ANCOVA 결과를 해석할 때 매우 신중해야 합니다.

필요하다면 분석 설계를 다시 검토하는 것도 고려해야 합니다.

마지막으로, 공변량과 종속변수 간의 관계(회귀선의 기울기)가 집단별로 동일해야 합니다.
이를 '회귀선의 동질성(homogeneity of regression slopes)'이라 부르는데, 쉽게 말해 집단 A와 집단 B 모두에서 공변량이 종속변수에 미치는 영향이 유사해야 한다는 의미입니다.
이 조건은 공변량과 집단 간 상호작용항을 추가해 검정할 수 있습니다.
만약 집단별로 기울기가 다르다면, 단순한 ANCOVA가 아니라 집단과 공변량 간 상호작용까지 고려한 복잡한 모델을 적용해야 합니다.

많은 대학원생들이 ANCOVA를 적용할 때 '공변량 하나만 넣으면 된다'고 가볍게 생각하는 경우가 있습니다.
하지만 위의 조건들이 충족되지 않으면 ANCOVA 결과는 왜곡될 수 있으며, 논문 심사 과정에서 심각한 지적을 받을 위험이 있습니다.
공변량 설정이 적절하지 않거나, 전제조건 검증이 누락되었다면 분석을 다시 해야 하는 경우도 적지 않습니다.

본격적인 분석에 앞서 이런 조건들을 철저히 점검하는 것은 연구의 완성도를 높이는 기본이 됩니다.
논문 통계 분석에 대해 더 궁금한 점이 있거나, ANCOVA를 포함한 고급 분석을 계획하고 계시다면, 함께 방향을 꼼꼼히 잡아가는 과정부터 도와드릴 수 있습니다.

처음부터 정확하게 출발하면 연구도 훨씬 매끄럽게 완성될 수 있습니다.

 



:

통계 분석을 하다 보면 자주 마주치는 검정 중 하나가 t-검정입니다. 아마 대학원생이라면 "독립표본 t-검정"과 "대응표본 t-검정"이라는 용어를 한 번쯤은 들어보셨을 겁니다. 그러나 막상 논문을 작성할 때, 두 검정을 정확하게 구분하여 적용하는 것은 생각보다 쉽지 않습니다. "t-검정을 실시했다"고 표현하는 경우는 많지만, 어떤 조건에서 어떤 검정을 써야 하는지 정확히 이해하고 적용하는 사례는 그리 많지 않습니다.

가장 기본적인 차이부터 정리해 보겠습니다.
독립표본 t-검정
은 서로 독립된 두 집단의 평균을 비교할 때 사용하는 방법입니다. 예를 들어, 남학생과 여학생의 시험 점수를 비교하거나, 두 가지 다른 치료법을 적용한 환자 그룹의 결과를 비교할 때 적용합니다. 이때 중요한 점은 두 집단 사이에 아무런 연관성이 없어야 한다는 것입니다. 완전히 독립적인 두 그룹이어야 합니다.

반면, 대응표본 t-검정은 같은 대상을 두 번 측정하거나, 짝을 이루는 데이터를 비교할 때 사용합니다. 예를 들어, 다이어트 프로그램 시작 전 체중과 8주 후 체중을 비교하는 경우, 또는 한 집단에 대해 약 복용 전과 후의 변화를 측정하는 경우가 이에 해당합니다. 쉽게 말씀드리면, 같은 대상, 다른 시점또는 짝지어진 데이터를 비교할 때 대응표본 t-검정을 사용한다고 보시면 됩니다.

논문 작성 시 자주 발생하는 실수는,
"집단이 두 개니까 독립표본 t-검정이다",
"전후 자료니까 무조건 대응표본 t-검정이다"
이렇게 단순하게 접근하는 것입니다. 실제로는 두 집단이 진짜 독립적인지, 데이터가 짝지어져 있는지를 꼼꼼히 확인해야 합니다. 예를 들어, "자매"처럼 서로 연관이 있는 두 사람을 비교하는 경우라면, 독립표본이 아니라 대응구조로 봐야 할 수도 있습니다.

SPSS에서는 이 두 가지 검정을 비교적 간단하게 수행할 수 있습니다.

  • [분석] → [비모수 검정] → [독립 샘플 t-검정]
  • [분석] → [비모수 검정] → [대응 샘플 t-검정]
    메뉴를 통해 접근하실 수 있습니다.
    (다만, 이때 정규성 가정과 같은 기본 전제들도 함께 점검하셔야 합니다.)

논문 심사를 받을 때 심사위원이 가장 먼저 확인하는 부분 중 하나가, 바로 검정 방법의 적절성입니다. 집단 구조를 잘못 해석하고 엉뚱한 검정을 선택하면, 분석 결과 전체가 흔들릴 수 있습니다. 그리고 심사위원들은 생각보다 이런 실수를 매우 잘 찾아냅니다.

혹시 "어떤 검정을 선택해야 할지 애매하다", "집단 구성이 헷갈린다"는 고민이 드신다면, 혼자 끙끙대지 마시고 도움을 받으시는 것도 좋은 방법입니다.
논문 통계 분석은 결국, 선택과 해석의 문제이니까요.
필요하시면 논문 통계 분석 의뢰를 통해 데이터 이해부터 결과 해석까지 함께 꼼꼼하게 도와드리겠습니다.



:

논문을 하다 보면 ‘이 변수가 결과에 영향을 미치는지’가 늘 궁금하죠. 예를 들어 “스트레스 수준이 직무만족도에 영향을 미칠까?” 또는 “SNS 사용 시간이 우울감에 영향을 줄까?” 같은 질문들이죠. 이런 의문에 답하기 위해 사용하는 분석기법이 바로 회귀분석입니다.

가장 기본적인 회귀분석은 단순회귀분석(simple regression)입니다. 하나의 독립변수(X)가 하나의 종속변수(Y)에 어떤 영향을 주는지를 분석하죠. 마치 Y를 X로 예측하려는 거예요. 예를 들어 설명하자면, 스트레스 점수가 높아질수록 직무만족도가 낮아진다고 가정해봅시다. 이 두 변수의 관계를 수치로 보여주는 것이 바로 회귀계수입니다.

회귀계수는 “X가 1 증가할 때 Y가 얼마나 변화하는가”를 알려줍니다. 그리고 그 변화가 통계적으로 의미 있는지 알려주는 게 ‘유의확률(p값)’이죠. 이때 p값이 .05보다 작으면 일반적으로 유의하다고 보고, 이 회귀계수를 믿을 수 있다고 해석합니다.

그럼 SPSS에서는 어떻게 진행하느냐고요?

[분석] > [회귀분석] > [선형]으로 들어가세요.

종속변수(Y)와 독립변수(X)를 각각 지정해줍니다.

‘확인’을 누르면 결과표가 나오는데, 여기서 R제곱값(R²), 회귀계수(B), 유의확률(p)등을 확인할 수 있습니다.

R제곱값은 모델의 설명력을 의미해요. 예를 들어 R² = 0.36이면, X변수가 Y를 36%만큼 설명한다는 뜻입니다. 나머지는 다른 요인들이겠죠.

여기서 하나 덧붙이자면, 실전 논문에서는 단순회귀보다 **다중회귀(Multiple Regression)**를 훨씬 자주 씁니다. 왜냐하면 하나의 종속변수에 영향을 미치는 요인이 복합적이기 때문이죠. 예를 들어 우울감은 SNS 사용시간만이 아니라, 사회적 지지, 수면 시간, 경제적 스트레스 등 다양한 요인과 연관될 수 있거든요. 그럴 때는 여러 개의 독립변수를 한꺼번에 투입해서 영향을 비교 분석하는 다중회귀를 사용하게 됩니다. 이건 다음 포스팅에서 자세히 다뤄볼게요.

회귀분석은 논문에서 단골로 등장하는 분석기법입니다. 특히 요인 간의 인과관계를 설명하고자 할 때 매우 유용하죠. 분석 결과를 해석할 때는 단순히 p값만 볼 게 아니라, 표준화 회귀계수(beta), 다중공선성(VIF), 잔차의 분포까지점검해야 실질적인 해석이 가능합니다. 이 부분은 중급 분석 파트에서 다시 짚어보겠습니다.

- 논문통계관련 문의는 chsoo.lee@gmail.com 으로 부탁드립니다. 



:

논문 통계 의뢰를 하다 보면, 많은 대학원생분들이 통계 결과를 받아보고 가장 먼저 보는 게 평균(mean) 아닐까 합니다. 
예를 들어 이런 거죠.
"우리 샘플의 평균 점수가 3.8이 나왔어요, 교수님!"
그럼 대부분 거기까지만 보고 안심을 하거나 당황하죠.

그런데 사실 평균만 보는 건, 사람 체온을 잴 때 오로지 이마 온도만 측정하는 것과 같아요.
그 순간의 상태만 보여줄 뿐, 그 온도가 의미 있는지, 정상인지, 위태로운지 알려면 다른 지표도 함께 봐야 하거든요.
바로 그게 오늘 이야기할 분산(variance)과 표준편차(standard deviation)입니다

분산은 쉽게 말해, 자료들이 평균에서 얼마나 흩어져 있는지를 알려줘요.
예를 들어 어떤 시험 점수에서 평균이 80점인데, 한 명은 100점, 다른 한 명은 60점이라면
둘 다 평균 80점이지만 이 두 점수의 차이는 크죠.
이럴 때 그 흩어짐 정도를 수치로 보여주는 게 분산입니다

근데 분산은 계산 과정에서 제곱을 해서 값이 좀 커지는 경향이 있어요.
그래서 현실적인 해석을 위해 제곱근을 씌워서 원래 단위로 돌려놓은 것표준편차에요.

결국 표준편차는 자료들이 평균을 중심으로 얼마나 고르게 분포해 있는지, 아니면 들쭉날쭉한지보여주는 지표죠.
표준편차가 작으면 자료가 평균 근처에 모여 있다는 뜻이고,
크면 평균에서 많이 흩어져 있다는 뜻이에요.

이게 왜 중요하냐면, 논문에서는 평균 점수만 봐선 절대 안 되는 이유가 여기 있어요.
어떤 두 집단의 평균이 같아도 표준편차가 다르면,
한 집단은 점수가 비슷비슷하고, 다른 집단은 극단적인 점수가 섞여 있을 수 있거든요.
그걸 놓치면 해석이 엉뚱해지고, 논문 지도가 꼬일 수 있어요.

논문에서 가장 많이 사용하는 SPSS 프로그램에서도
[분석] → [기술통계] → [탐색적 데이터 분석]
메뉴에서
평균, 표준편차, 분산을 한 번에 볼 수 있어요.
의뢰해주시는 분들 보면 SPSS 기본값만 보고 그냥 넘어가시는 경우 많은데,
이걸 꼭 확인해야 해요.

혹시 지금 본인 논문 데이터에서 평균만 확인하고 계신 분이라면,
오늘 포스팅을 보고 한 번 표준편차와 분산 값도 같이 확인해보세요.
생각보다 재미있는 발견이 있을 거예요.

그리고 만약 데이터 해석이 애매하거나 통계 처리 과정이 복잡하다 싶으면,
언제든 편하게 의뢰 주세요.
20년 가까이 논문통계를 분석해온 사회조사분석사 입장에서
꼼꼼하게 정리해드릴게요.

‘데이터는 수치보다 해석이 중요하다’  꼭 기억해두세요.



:

논문 통계 분석을 하다 보면 대학원생 분들께 가장 많이 받는 질문이 있어요.
"이 변수는 어떤 척도로 봐야 하나요?"
그리고 대부분은 ‘그게 뭐였더라...’ 하는 표정을 지으시죠.

사실 척도(scale)란 게 별건 아닙니다. 우리가 어떤 개념이나 현상을 수치화해서 표현할 때, 그 수치가 갖는 의미와 성격을 구분해놓은 체계거든요. 예를 들어볼게요.

누군가의 성별을 조사한다면 '남자', '여자' 라는 값에는 크고 작음이 없죠. 그냥 구분만 되는 거예요. 이런 걸 명명척도(명목척도, Nominal scale)라고 합니다.

반면, 학년이나 직급처럼 순서를 매길 수 있는 경우가 있죠. 1학년, 2학년, 3학년... 이건 순서가 있지만 1학년과 2학년의 차이와 3학년과 4학년의 차이가 같다고는 할 수 없잖아요. 이런 걸 서열척도(Ordinal scale)라고 부릅니다.

조금 더 나가볼까요?
온도점수처럼 숫자 간 간격이 일정하고, 덧셈과 뺄셈이 가능한 경우가 있어요. 예를 들어 20도와 30도의 차이와 30도와 40도의 차이는 같죠. 하지만 0도가 ‘없음’을 의미하진 않잖아요. 그래서 이건 등간척도(Interval scale)예요.

마지막으로 몸무게, 키, 수입 같은 건 비율척도(Ratio scale)라고 해요. 0이 절대적인 의미를 갖고, 비율 계산도 가능합니다. 0kg은 아무것도 없는 상태니까요.

이걸 왜 알아야 할까요?
척도의 종류에 따라 적용할 수 있는 통계분석이 달라지거든요.
명목척도 변수엔 빈도분석이나 카이제곱검정을, 등간척도 이상이면 t검정, ANOVA 같은 분석을 쓸 수 있는 식이죠. 그래서 논문에서 변수의 척도를 잘못 설정하면 분석 자체가 엉뚱한 방향으로 가기도 해요.

논문에서 변수마다 이 척도를 정리해두면, 그걸 바탕으로 어떤 분석기법을 써야 하는지 명확해집니다. 그리고 이걸 헷갈려서 분석방식이 잘못되면 논문 심사 때 반드시 지적받게 되어 있죠.

실제로 얼마 전에도, 한 석사과정 학생분이 오셔서 ‘독립표본 t검정’을 했다고 하는데 변수 척도를 보니 명목척도라 분석법부터 다시 잡아드린 일이 있었어요. 이런 부분에서 논문컨설팅을 의뢰하시는 분들이 많고, 저도 그런 사례를 많이 다뤄왔습니다.

혹시 지금 논문에 쓸 변수와 분석법이 애매하다 싶다면, 척도를 정리해보는 것부터 시작해보세요. 그리고 필요하면 언제든 저에게 상담 주세요. 20년 넘게 논문통계만 해온 경험으로, 가장 적절한 분석설계를 함께 잡아드릴 수 있습니다.

논문 통계 분석은 결국 변수와 척도를 제대로 설정하는 데서 절반이 결정됩니다.
그거 하나만 잘 잡아도 분석 속도가 확 줄어요.
만약 지금 보고 계신 연구 설계나 변수 목록에서 이 부분이 고민된다면, 언제든 편하게 연락 주세요. 20년 동안 대학원생 분들의 논문 통계 분석을 함께 해온 경험으로, 딱 맞는 방향 잡아드릴게요.

논문통계관련 상담문의는 chsoo.lee@gmail.com 입니다. ~



:

논문을 분석하다 보면 많은 분들이 "이 변수는 어떤 통계분석을 써야 하나요?"라는 질문을 가장 많이 하십니다. 그런데 정작 그보다 더 먼저 점검해야 할 게 있어요. 바로 그 변수가 어떤 척도로 측정되었는가입니다.
우리가 연구에서 다루는 모든 변수는 사실 네 가지 범주 중 하나에 속해요. 명목척도, 서열척도, 등간척도, 비율척도. 이걸 구분하지 않으면, 분석 방법을 고르는 것도, 해석을 하는 것도 모두 엉켜버릴 수밖에 없습니다.
예를 들어볼까요?
만약 '성별'이라는 변수를 가지고 있다면, 이건 남/여로 나뉘는 단순한 분류예요. 이를 '명목척도'라고 하죠. 숫자를 부여해도 그건 그저 코드일 뿐, 1이 2보다 크거나 작다는 의미는 없어요. 그런데 '만족도'처럼 ‘만족’, ‘보통’, ‘불만족’으로 순위를 매기는 변수는 또 다릅니다. 이건 순서가 있어요. 누군가 ‘매우 만족’을 선택했다면, ‘보통’보다는 만족도가 높다는 걸 알 수 있으니까요. 하지만 그 간격이 같은지는 알 수 없죠. 그래서 이걸 '서열척도'라고 합니다.
그런데 여기서 '온도'나 'IQ'처럼 값의 간격이 일정한 변수는 또 다른 문제예요. 20도와 30도는 10도의 차이가 있지만, 절대적인 0이 없으니까 20도가 10도의 두 배라고 할 순 없습니다. 이걸 '등간척도'라고 해요. 마지막으로 ‘키’, ‘몸무게’, ‘소득’처럼 0이 존재하고, 간격도 같고, 비율 개념까지 성립하는 건 ‘비율척도’죠. 180cm는 90cm의 두 배입니다.
이걸 왜 이렇게 강조하냐면, SPSS로 분석할 때 변수의 척도에 따라 쓸 수 있는 분석 방법이 완전히 달라지기 때문이에요.
성별 같은 명목척도를 가지고 평균을 구할 수는 없잖아요. 마찬가지로 비율척도를 가지고 단순 빈도만 보는 것도 분석의 깊이를 얕게 만드는 거고요.
그리고 또 하나.
SPSS에서는 'Variable View'에서 'Measure' 항목을 보면 Nominal, Ordinal, Scale이렇게 3가지로 설정하게 돼 있어요. 문제는 SPSS에서는 등간척도와 비율척도를 그냥 'Scale'로 묶어버린다는 거죠. 그러니 연구자는 반드시 데이터와 설문 문항을 다시 들여다보면서 이 변수가 진짜로 어떤 척도인지, 분석에 따라 어떻게 구분하고 해석할지를 따져봐야 합니다.
실제로 통계 분석을 의뢰하러 오는 분들 중 절반 이상은 이 기본 정리가 안 된 상태로 오세요. 변수의 척도를 잘못 설정해 분석을 진행하면 결과가 엉뚱하게 나오고, 논문 심사에서 바로 지적받죠. 그리고 그때 다시 처음으로 돌아가야 합니다. 시간도, 마음도 지치기 전에 이 부분을 확실히 점검하는 게 논문 통계의 핵심이에요.
제가 20년 넘게 논문 통계를 하면서 느낀 건, 통계분석의 복잡함보다 척도의 개념을 잘못 이해한 게 더 큰 문제를 일으킨다는 겁니다.
만약 지금 논문을 준비하고 있다면, 혹은 SPSS 데이터파일을 열어두었다면, 오늘 이 글을 계기로 변수 하나하나의 척도를 점검해보세요.
모호하다 싶으면 언제든 저에게 편하게 문의주셔도 좋아요. 데이터만 보내지 말고, 측정방식이나 문항 내용도 함께 알려주시면 훨씬 정확한 분석을 도와드릴 수 있습니다.
이런 작은 정리가 논문의 완성도를 좌우합니다.
오늘은 변수 척도의 중요성에 대해 함께 정리해봤고, 내일은 이 척도에 따라 사용할 수 있는 분석방법을 사례와 함께 소개해보겠습니다.

통계문의는 chsoo.lee@gmail.com 으로 연락주세요 !



:

 

📊  논문에서 통계를 다룰 때 가장 먼저 정리해야 할 개념이 있습니다.
바로 **기술통계(Descriptive Statistics)**와 **추론통계(Inferential Statistics)**의 구분입니다.

두 가지는 전혀 다른 목적을 가진 통계이며, 사용되는 분석방법도 완전히 다릅니다.


✅ 기술통계(Descriptive Statistics): "지금 가진 자료를 요약한다"

기술통계는 말 그대로 현재 확보된 데이터를 요약, 정리하는 데 목적이 있습니다.

  • 예: 평균, 표준편차, 중앙값, 빈도수, 백분율 등
  • 목적: 표본 데이터 자체의 특성을 파악하기 위함

📌 SPSS에서는 어떻게?
분석 → 기술통계 → 빈도 / 기술통계 / 탐색 메뉴에서 확인 가능.
논문에서는 표 1. 대상자의 일반적 특성 등에 해당하는 내용이 기술통계입니다.


✅ 추론통계(Inferential Statistics): "표본을 통해 전체를 추론한다"

추론통계는 표본 데이터를 바탕으로 모집단 전체에 대한 결론을 도출하려는 분석입니다.
즉, 검정, 예측, 일반화의 목적을 가지고 있습니다.

  • 예: t-test, ANOVA, 상관분석, 회귀분석, 카이제곱검정 등
  • 목적: 특정 가설을 검정하고, 표본 결과를 통해 전체를 추론

📌 SPSS에서는 어떻게?
분석 → 평균비교 / 일반선형모형 / 회귀분석 / 상관분석 등 다양한 메뉴를 통해 실행.
논문의 가설검정, 즉 결과 분석 파트가 바로 이 추론통계입니다.


🔍 핵심 구분 요약

구분 기술통계 추론통계

목적 요약/정리 추론/검정
분석 대상 수집된 자료 자체 모집단에 대한 일반화
SPSS 예시 평균, 빈도, 표준편차 t검정, ANOVA, 회귀 등
논문 위치 대상자 특성 기술 가설 검정 결과

📌 실전 팁

“분석을 시작할 때 기술통계는 반드시 선행되어야 합니다.”
데이터의 분포나 기본 특성을 이해하지 않은 채 가설검정을 진행하는 건,
기초 없이 건물을 올리는 것과 같기 때문입니다.

 

좋은 논문결과 나오기를 바라며 궁금하시거나 문의사항은 언제든지 chsoo.lee@gmail.com 으로 메일 주세요. 



:

사회과학 논문을 쓰다 보면 “모수”와 “통계량”이라는 용어가 반복해서 등장합니다.
이 둘을 구분하는 것은 연구 설계와 해석의 정확성을 위해 반드시 필요합니다.

모수(Parameter)란?

모수란 전체 집단(모집단)의 특성을 나타내는 수치를 의미합니다.
예를 들어, 어떤 나라 전체 성인의 평균 키나 평균 소득처럼,
전체 구성원에 대해 말할 때 사용됩니다.

하지만 현실적으로 우리는 모집단 전체를 조사하는 것이 거의 불가능하죠.
그래서 연구자들은 표본을 추출해 그 안에서 특성을 측정하고,
그 측정값을 바탕으로 모수를 추정하게 됩니다.

통계량(Statistic)이란?

통계량은 표본에서 얻은 수치를 말합니다.
즉, 실제 조사를 통해 얻어진 데이터의 평균, 비율, 분산 등이 이에 해당합니다.

표본의 평균 소득, 표본의 성별 비율, 표본의 만족도 점수 등이 모두 통계량입니다.

왜 이 차이가 중요할까?

모수와 통계량을 혼동하면 분석 결과의 해석에 오류가 생깁니다.
우리는 표본을 통해 ‘추정’하고 있는 것이지, 실제 모집단의 수치를 ‘알고 있는’ 것이 아닙니다.
따라서 항상 오차의 가능성을 염두에 둬야 하고,
그 오차를 줄이기 위한 통계 기법들이 발전해온 것입니다.

요약하자면,

  • 모수: 전체 모집단의 수치 (실제로는 알기 어려움)
  • 통계량: 표본을 통해 관찰된 수치 (우리가 실제로 갖는 데이터)

이 개념 위에서 모든 추론통계(inferential statistics)가 작동합니다.
모수는 우리가 알고 싶은 것, 통계량은 우리가 실제로 갖고 있는 것입니다.

SPSS에서는 어떻게 확인할까?

SPSS에서는 통계량, 즉 표본 데이터에 기반한 수치들을 쉽게 확인할 수 있습니다.

  1. Analyze → Descriptive Statistics → Descriptives
  2. 변수 선택 후 실행(OK)
  3. 표본의 평균, 표준편차, 최소값, 최대값 등이 출력됨

이 화면에 나오는 모든 수치는 통계량입니다.
우리는 이 데이터를 바탕으로 모집단(모수)의 특성을 추정하게 되는 것이죠.

추가 팁:
SPSS에서는 Confidence Interval(신뢰구간) 도 함께 확인할 수 있는데,
이것이 바로 표본에서 모수를 얼마나 정확히 추정할 수 있는지를 보여주는 핵심 도구입니다.



: