논문에 있어서의 회귀분석
논문을 하다 보면 ‘이 변수가 결과에 영향을 미치는지’가 늘 궁금하죠. 예를 들어 “스트레스 수준이 직무만족도에 영향을 미칠까?” 또는 “SNS 사용 시간이 우울감에 영향을 줄까?” 같은 질문들이죠. 이런 의문에 답하기 위해 사용하는 분석기법이 바로 회귀분석입니다.
가장 기본적인 회귀분석은 단순회귀분석(simple regression)입니다. 하나의 독립변수(X)가 하나의 종속변수(Y)에 어떤 영향을 주는지를 분석하죠. 마치 Y를 X로 예측하려는 거예요. 예를 들어 설명하자면, 스트레스 점수가 높아질수록 직무만족도가 낮아진다고 가정해봅시다. 이 두 변수의 관계를 수치로 보여주는 것이 바로 회귀계수입니다.
회귀계수는 “X가 1 증가할 때 Y가 얼마나 변화하는가”를 알려줍니다. 그리고 그 변화가 통계적으로 의미 있는지 알려주는 게 ‘유의확률(p값)’이죠. 이때 p값이 .05보다 작으면 일반적으로 유의하다고 보고, 이 회귀계수를 믿을 수 있다고 해석합니다.
그럼 SPSS에서는 어떻게 진행하느냐고요?
[분석] > [회귀분석] > [선형]으로 들어가세요.
종속변수(Y)와 독립변수(X)를 각각 지정해줍니다.
‘확인’을 누르면 결과표가 나오는데, 여기서 R제곱값(R²), 회귀계수(B), 유의확률(p)등을 확인할 수 있습니다.
R제곱값은 모델의 설명력을 의미해요. 예를 들어 R² = 0.36이면, X변수가 Y를 36%만큼 설명한다는 뜻입니다. 나머지는 다른 요인들이겠죠.
여기서 하나 덧붙이자면, 실전 논문에서는 단순회귀보다 **다중회귀(Multiple Regression)**를 훨씬 자주 씁니다. 왜냐하면 하나의 종속변수에 영향을 미치는 요인이 복합적이기 때문이죠. 예를 들어 우울감은 SNS 사용시간만이 아니라, 사회적 지지, 수면 시간, 경제적 스트레스 등 다양한 요인과 연관될 수 있거든요. 그럴 때는 여러 개의 독립변수를 한꺼번에 투입해서 영향을 비교 분석하는 다중회귀를 사용하게 됩니다. 이건 다음 포스팅에서 자세히 다뤄볼게요.
회귀분석은 논문에서 단골로 등장하는 분석기법입니다. 특히 요인 간의 인과관계를 설명하고자 할 때 매우 유용하죠. 분석 결과를 해석할 때는 단순히 p값만 볼 게 아니라, 표준화 회귀계수(beta), 다중공선성(VIF), 잔차의 분포까지점검해야 실질적인 해석이 가능합니다. 이 부분은 중급 분석 파트에서 다시 짚어보겠습니다.
- 논문통계관련 문의는 chsoo.lee@gmail.com 으로 부탁드립니다.