ANOVA 에서 유의한 차이가 있는 경우 Tukey, Duncan, Scheffe 등의 사후분석(Post-Hoc test)를 하게 된다.

문제는  ANOVA 와 사후분석 결과가 일치하지 않는 경우가 종종 나올 때, 어떻게 해야되는지 고민을 하게 된다. 2가지 예를 들어 상황을 살펴보도록 한다.

 

1. ANOVA 에서는 유의하지 않은데, 사후분석에서 유의하게 나온 경우

 ph1.jpg

위의 결과를 보면 ANOVA 결과, 집단간 유의한 차이가 없는 것으로 나타났다(p=.136>.05).

하지만, Duncan 의 사후분석에서는 3 Group(M=4.33) 이 1 Group(M=3.70) 보다 높은 것으로 나와, 서로 상반된 결과를 보이고 있다.

 

이와 같이 ANOVA 에서는 유의하지 않지만, 사후분석에서는 유의한 경우에는 사후분석의 결과를 무시한다.

 

2. ANOVA 에서는 유의한데, 사후분석에서 유의하지 않은 경우

ph2.jpg

 

사실 1과 같은 경우에는 큰 문제가 되지 않는다. 보통 연구자들은 ANOVA 에서 유의하지 않은 경우 사후분석을 하지 않기 때문이다.

2와 같이 ANOVA 에서는 유의한데, 사후분석에서 유의하지 않게 나온 경우 난감해하는 연구자들이 많다.

 

위의 경우, 집단간 유의한 차이가 있는 것으로 나타났다(p=.024<.05).

그러나, Scheffe의 사후분석에서는 유의하지 않게 나온 경우이다.

 

이때, 연구자들이 먼저 생각하는 것은 사후분석 방법을 바꿔서 다시 분석하는 것이다. Duncan 이나 LSD 등의 경우에는 사후분석 결과를 좀 관대하게 보는 경향이 있어, 대부분 연구자들이 원하는 결과를 얻어준다.

하지만 이러한 방법(사후분석을 바꾸는 방법)은 사실 매우 위험한 작업이다. 한 논문(or 보고서)에서는 일관성을 유지해야 한다. 중간에 분석 방법 등을 바꿀 경우에는 그에 타당한 이유가 있어야 한다. 문제는 사후분석 종류를 바꾸는 타당한 근거를 제시하는 것은 거의 불가능에 가깝다. 따라서 전체적으로 Scheffe의 사후분석을 했다면 이 경우에도 Scheffe 의 사후분석을 해야 한다.

 

그러면 어떻게 제시를 하고, 해석을 해야 하는지 고민해야 한다.

 

가장 정확한 답변은 있는 그대로 기술하는 것이다. 즉, ANOVA 에서는 유의했지만, Scheffe 의 사후분석에서는 유의하지 않게 나온 것을 표에 그대로 기재하는 것이다.

 

ANOVA 에서 주 분석 결과는 ANOVA 이다. 따라서 ANOVA 결과를 먼저 제시하여야 하는 것이며, 사후분석은 추가적인 분석이므로 ANOVA 에서 유의하지 않았다면 사후분석 결과를 볼 필요 자체가 없는 것이고, ANOVA 에서 유의했는데, 사후분석에서 유의하지 않았다면 집단간 유의한 것으로 해석을 하면 된다.

 

ph3.jpg

 

위와 같이 기술할 수 있다.

즉, ANOVA 와 사후분석에서 모두 유의하게 나온 비용의 경우에는 그대로 설명을 하고, ANOVA 에서는 유의하지만 사후분석에서는 유의하지 않게 나타나 기간은 ANOVA 결과에서는 유의하다고 설명하는 것이다.

 

이와 같이 기술하는 것이 가장 보편 타당하다.

다만, 연구자의 입장에서는 기간에 다른 비재무적 성과는 유의한 차이가 있는데(p=.040<.05), 사후분석에서 유의하지 않아서 그 차이를 설명하지 못하는 것에 대해 아쉬울 수 있다. 이때 가능한 방법으로 ANOVA 결과 유의하다는 것은 집단간에 어느 곳에서인가 유의한 차이가 있다는 것이다. 다만 사후분석에서 유의하지 않게 나왔을 뿐이다. 이것은 다시 생각하면 기간에서 평균이 가장 높은 1~20 일의 2.58과 가장 낮은 41~60일의 1.73 간에는 차이가 있다. 따라서 다음과 같은 해석도 무방하다.

 

기간에 따른 비재무적 성과는 유의한 차이가 있다(p=.040<.05). 기간이 20일 이하의 비재무적 성과는 2.68로 41~60일의 1.73 보다 높게 나타났다.

 

여기서 주의 사항은 Scheffe 의 사후분석이라는 것을 쓰면 안된다는 것이다. 이 말은 Scheffe 에서 유의한 경우에만 사용 가능하다.

- 이일현 박사님이 쓰신글입니다



:


연세대학교 예방의학교실 강대룡 교수님이 정리하신 보건/의학통계에 대한 내용입니다 참고자료로 올립니다.

문의사항은 chsoo.lee@gmail.com 으로 해주세요

--------------------------------------------------

보건․의학의 주 연구대상은 인간이다. 사람을 대상으로 하므로서 발생할 수 있는 윤리적인 문제들이 실제 이 분야의 연구를 수행하는데 있어 가장 어려운 점이다. 이 문제는 연구설계와 밀접한 관련성이 있다. 특히 연구설계가 관찰연구(대분분의 보건․의학연구)인 경우는 인과관계를 논하는데 있어 상당히 제한적이다. 직접적으로는 연구설계의 한계로도 생각할 수 있고 또한 연구의 결과를 왜곡시킬 수 있는 혼란변수를 통제하지 못하였거나 주요한 독립변수를 누락하였기 때문에 인과관계를 잘못 해석할 수 있다.

 

연구자의 성급함이 연구결과를 왜곡시킬 수 있다. 연구자는 빠른 시간내에 자신의 가설을 입증하려고 서두르는 경향이 있고 특히 연구설계와 분석단계에서 이러한 경향이 강하게 나타난다. 전우택 교수의 사회의학연구방법론의 서론 중「농부와 노인」이 이를 잘 설명해주고 있다. 또한 “인간을 대상으로 하는 동일 주제의 연구결과가 다양할 수 있다”는 사실이 연구전체를 왜곡시킬 수 있다. 즉, 연구자로 하여금 이런 결과도 저런 결과도 괜찮다는 생각이 심도없는 고찰없이 연구를 진행하는 하나의 요인이 될 수 있다. (물론 특정 결과를 얻기 위해 연구자의 의도가 들어가서는 더욱 않되지만!)

 

연구자가 수집한 최초의 자료는 여러 가지 잡음들이 뒤섞여 있다. 보건학 자료는 인구집단에서 자료를 수집하여 연구하는 경우가 많다. 수집한 자료에는 이상점(outlier)과 결측치(missing data) 등 여러 가지 형태의 잡음들이 존재한다. 극단적으로 말하면 잡음이 없는 자료란 없다고 생각하면 된다. 이러한 잡음을 제거 또는 수정하지 않고 분석하여 얻어진 결과는 당연히 믿을 수 없다.

 

자료분석에서 적합한 통계적 방법을 적용하지 않아 발생하는 문제점을 생각할 수 있다. 통계적 분석은 아무리 쉬운 방법일지라도 그 방법이 가지고 있는 가정(assumption)이 있다. 따라서 실제 연구자료가 가정에 맞지 않는 경우는 그 연구의 결과에 치우침이 존재할 가능성이 커진다. 단 몇시간의 기계적인 분석을 통하여 얻어진 결과를 과연 신뢰할 수 있을까? 이러한 연구의 결과가 사람의 생명과 주요한 보건문제에 직접적으로 관여하는 것이라면?

  

2. 수집한 자료를 어떻게 간결하게 표현할까? (예제자료1)

 

연구목적: 주 연구가설은 한국인 남자에서 지질섭취와 흡연이 Ischemic heart disease (IHD)와 관련성이

있는가를 알아보고자 한다.

연구설계: 환자-대조군 연구

환자군은 세브란스병원에서 1995년부터 1996년 기간동안 처음으로 발생한 acute myocardial

infarction 또는 angina pectoris로 진단된 환자이며, 대조군은 동일한 시기에 세브란스

정형외과와 안과를 내원한 사람이다.

Variable

Category or Unit

age

years

education

years

smoking

1=current, 2=ex-smoker, 3=non-smoker

chddx

1=IHD, 2=control

bmi

body mass index (kg/m2)

energy

kcal

h_hist

hypertension history (1=yes, 2=unknown, 3=no)

dprotein

protern intake (% of energy)

dlipid

total fat intake (% of energy)

dcho

carbohydrate intake (% of energy)

dpufa

polyunsaturated fatty acid (% of energy)

dsfa

saturated fatty acid (% of energy)

dmufa

monounsaturated fatty acid (% of energy)

  [예제자료1]에 대한 연구대상자의 일반적 특성 중 연령과 교육수준에 대한 분포를 다음과 같은 표로 제시할 수 있다.

 

Table 2-1. Distributions of age and education for study population                unit : person (%)

Variable

Cases (n=108)

Controls (n=142)

age

 

 

<50

38 (35.2)

52 (36.6)

50-59

37 (34.3)

49 (34.5)

≥60

33 (30.6)

41 (28.9)

education

 

 

≤9

28 (25.9)

56 (39.4)

10-12

44 (40.7)

45 (31.7)

≥13

36 (33.3)

41 (28.9)

위의 표를 통해 환자군과 대조군의 연령분포와 교육수준이 각각 어떠한지를 알 수가 있다. 연령은 두 집단간에 거의 차이가 없다 (실제 연구설계에서 환자군과 대조군은 연령에 대해 빈도짝짓기를 하였기 때문임)는 것을 알 수 있고 교육수준은 환자군에서 조금 더 높은 경향이 있음을 알 수 있다. (⇨유의한 차이가 있는지는 통계적 검정을 통해서 확인하자!)

[예제자료1]에서 관심있는 영양소 섭취의 분포를 대표값과 산포도를 통해 어떻게 제시하는지 살펴보자.

  Table 2-2. Mean intakes (SDs) of energy from specific nutrients

Variables (unit)

Cases (n=108)

Controls (n=142)

energy (kcal)

2359.8 (730.8)

2223.4 (632.6)

carbohydrate (g)

357.5 (109.6)

354.5 (101.3)

protein (g)

85.1 ( 29.6)

78.0 ( 28.0)

total fat (g)

60.3 ( 28.5)

50.2 ( 22.3)

SDs : standard deviations

 

위의 표를 통해 총열량 섭취는 환자군이 대조군보다 평균적으로 136kcal 더 많이 섭취하며 또한 총지방산 섭취도 10g 더 많이 섭취하고 있다. 전체적으로 평균에 비해 표준편차가 매우 크다는 것을 알 수 있다. 이와 같은 경우는 다음과 같은 자료의 형태를 생각할 수 있다.

☞ 이상점(outlier)이 있는가?

☞ 분포가 오른쪽으로 치우쳐 있는 형태인가?

  위의 자료에서 총 열량섭취나 총 지방산 섭취에 대해 히스토그램을 그려보면 분포가 오른쪽으로 치우쳐 있으며 정규분포와는 다른 형태임을 알 수 있다. 이런 경우 대표값과 산포도의 측도로는 중위수와 사분위수 범위가 더 합리적일 수 있다.

 

[종합정리 2-1] 본격적인 연구가설을 분석하기 전에 반드시 자료를 확인하자! 자료를 확인할 수 있는 절차를 미리

생각해 둘 필요가 있다. 확인된 자료에서 기술통계량을 구하고 나의 연구대상자들의 일반적 특성 또는 주요 측정변수의 분포를 제시하는 것이 첫 번째 할 일이다.

 

이상의 내용에 대한 기술통계량의 종류들을 나열하면 다음과 같다.

[종합정리 2-2] 자료의 요약 및 정리

자료를 모으고 정리하여 방대한 자료의 특성을 한눈에 알기 쉽게 정리하는

것을 말한다.

기술통계량 (descriptive statistics)

표나 그림을 이용한 자료의 정리

대표값 (central tendency and location)

․ 산술평균 (arithmetric mean)

․ 중위수 (median)

․ 최빈수 (mode)

․ 기하평균 (geometric mean)

․ 가중평균 (weighted mean)

 

산포도 (variability)

․ 표준편차 (standard deviation)

․ 사분위수 범위 (interquartile range)

․ 범위 (range)

․ 변이계수 (coefficient of variation)

․ 히스토그램 (histogram)

․ 돗수분포표 (frequency table)

․ 막대그래프 (bar graph)

․ 원 그래프 (pie raph)

․ 산점도 (scatter plot)

․ 줄기-잎 그림 (stem-leaf diagram)

․ 상자그림 (box plot)

이제까지 자료를 요약․정리하는 방법에 대해 알아보았다. 지금부터는 연구설계에서 궁금함을 가지고 설정한 연구가설을 통계적 가설검정을 통해 의사결정을 내리는 방법을 알아보도록 하자!

  3. 단순분석을 일차적으로 먼저 시행해 보자!

  여기서, “단순분석”이란 의미는 두 변수만의 관련성에 대한 분석으로 생각하자. 앞의 [예제자료 1]에서 주 연구가설은 다음과 같다.

 

[주 연구가설] 지방산 섭취가 환자군과 대조군간에 차이가 있는가?

(또는 총 열량에 대한 지방산 섭취 비율이 차이가 있는가?)

 

이제부터 자료의 형태에 따라 어떤 통계적 방법을 적용하면 되는지 알아보자. 변수는 크게 측정수준에 따라 크게 연속형 변수와 범주형 변수로 나눌 수 있고, 설명관계의 방향성에 따라 종속변수 (또는 반응변수)와 독립변수 (또는 설명변수)로 나눌 수 있다. 그리고 측정자료에 독립성이 있는지의 여부도 통계적 방법을 선택하는데 주요한 기준이 된다.

 

[사례①] “경구피임약을 복용하면 혈압이 증가한다”는 가설을 검정하기 위해 경구피임약을 복용하는 100명과

복용하지 않은 100명의 수축기혈압을 비교하고자 한다.

[사례②] “경구피임약을 복용하면 혈압이 증가한다”는 가설을 검정하기 위해 경구피임약을 복용하지 않는

100명을 대상으로 수축기혈압을 측정하고 일정기간 경구피임약을 복용하게 한 후 다시 혈압을

측정하여 복용전과 후의 혈압을 비교하고자 한다.

[사례③] “흡연력에 따라 폐기능에 차이가 있는가”를 알아보기 위해 흡연력을 6개의 집단 (nonsmoker,

passive smoker, non-inhaling smoker, light smoker, moderate smoker, heavy smoker)으로 구분하고

FEF(forced expiratory flow)를 측정하여 6개 집단간의 평균을 비교하고자 한다.

[사례④] "약품 A와 B의 복용에 따른 부작용에 차이가 있는가“를 알아보기 위해 1,000명을 대상으로 500명씩 A

와 B를 각각 일정기간 동안 복용하게 한 후 부작용의 유무를 조사하여 부작용의 비율에 차이가 있는가

를 비교하고자 한다.

[사례⑤] “열량섭취가 많으면 비만할까”를 알아보기 위하여 200명의 성인을 대상으로 식이섭취를 통한

총 열량섭취와 비만도()를 조사하여 그 관련성을 알아보았다.

 

[종합정리 3-1] 측정한 변수를 종속변수와 독립변수, 측정수준에 따라 범주형과 연속형, 그리고 자료의 독립성 여부에 따라 t-검정 (독립된 두 집단, 짝을 이룬 두 집단), -검정, 일요인 분산분석, (피어슨) 상관분석, 단순회귀분석 등을 구분하여 적용할 수 있다. 그리고 모집단의 분포를 가정할 수 없는 경우에는 비모수적 방법으로 윌콕슨 순위합 검정, 윌콕슨 부호순위 검정, 크루스칼-왈리스 검정, 스피어맨 상관분석 등을 각각 적용할 수 있다. 자료의 특성에 맞게 검정방법을 선택하고 제시된 유의확률을 이용하여 귀무가설과 대립가설 중 하나를 선택하면 된다.

 

※ 모수적 방법과 비모수적 방법의 적용

모수적 방법이란 표본이 추출된 모집단의 확률분포에 대하여 특정분포를 가정하고 그 가정된 분포의 모수(parameter)에 대한 검정문제를 생각하는 방법이다. 많이 사용하는 대표적인 분포는 정규분포이다. 모집단의 분포를 가정하므로서 검정통계량의 분포를 알 수가 있다. 그러나 정규분포를 따르지 않거나 특정분포를 가정할 수 없는 경우, 특히 표본의 수가 작은 경우는 순위(rank)에 기초한 비모수적(nonparametric) 방법을 사용하는 것이 좋다.

 

[예제자료1]에서 주 연구가설은 “총 열량에 대한 지방산섭취 비율(dlipid, dsfa, dpufa, dmufa)의 평균이 환자군과 대조군간에 차이가 있는가?” 이다 (종속변수와 독립변수의 방향관계를 생각하면 “지방산섭취 비율이 증가하면 환자 (IHD)가 될 위험이 증가하는가?” 이다). 자료구조를 보면 환자군과 대조군의 평균을 비교하는 문제이므로 독립된 두 집단의 t-검정 (또는 윌콕슨 순위합 검정)을 사용하면 된다.

  Table 3-1. Mean (SDs) intake of energy from specific nutrients

Variables (unit)

Cases (n=108)

Controls (n=142)

t-value

total fat (% of energy)

22.4 (5.9)

19.9 (5.2)

3.7***

PUFAs (% of energy)

4.4 (1.3)

4.1 (1.2)

2.2*

MUFAs (% of energy)

7.5 (2.9)

6.4 (2.5)

3.1**

SFAs (% of energy)

6.8 (2.5)

5.9 (2.2)

3.1**

SDs : standard deviations ; PUFAs : polyunsaturated fatty acids ;

MUFAs : monounsaturated fatty acids ; SFAs : saturated fatty acids

*: p < 0.05, ** : p <0.01, *** : p < 0.001

 

총 열량에 대한 total fat, PUFAs, MUFAs, 그리고 SFAs 모두 환자군이 대조군에 비해 통계학적으로 유의하게 많이 섭취하고 있다.

 

만약 위의 분석을 윌콕슨 순위합 검정을 하였다면, 산술평균 대신 중위수, 표준편차 대신 사분위수 범위를 적고 윌콕슨 순위합 검정의 통계량 값 또는 p-값을 적으면 된다.

 

 

환자군과 대조군에 간에 다른 특성의 차이가 있는가? 비만한 사람이 환자군에 많은가? 또한 비만도와 지방산 섭취가 관련성이 있다면?

Table 3-2. Distributions of smoking status, history of hypertension

and history of hyperlipidemia in cases and controls

Variable

Cases (n=108)

Controls (n=142)

-value

body mass index

 

 

 

<25

54 (50.0)

97 (68.3)

7.8*

≥25

54 (50.0)

45 (31.7)

 

smoking status

 

 

 

>1 pack/d

28 (25.9)

10 ( 7.0)

21.6**

≤1 pack/d

42 (38.9)

59 (41.6)

 

exsmoker

28 (25.9)

40 (28.2)

 

never smoked

10 ( 9.3)

33 (23.2)

 

history of hypertension

 

 

 

yes

41 (38.0)

20 (14.1)

19.4**

no

59 (54.6)

103 (72.5)

 

unknown

8 ( 7.4)

19 (13.4)

 

history of hyperlipidemia

 

 

 

yes

29 (26.8)

18 (12.7)

9.3*

no

42 (38.9)

76 (53.5)

 

unknown

37 (34.3)

48 (33.8)

 

unit : person (%)

* : p < 0.01, ** : p < 0.001

 

 

환자군에서 비만한 사람의 비율, 흡연자의 비율 (특히 하루 1갑 이상), 고혈압과 고지혈증에 대한 과거력이 있는 사람의 비율이 대조군에 비해 통계학적으로 유의하게 높았다.

   

[의문] 주 연구가설을 밝히는데 위의 비만도, 흡연력, 고혈압과 고지혈증 등의 변수의 영향을 통제하지 않으면

어떤 문제가 있는가?

  

이상의 내용에 대한 검정방법들을 나열하면 다음과 같다.

 

[종합정리 3-2] 간단한 통계검정

통계적 가설을 설정하고, 연구자의 가설이 지지되는지 일차적으로

단순한 분석을 시행하자!

통계 검정 방법들

분류 기준 및 검토 사항

 

종속변수가 연속형인 경우

 

모수적 방법

․ t-검정 (독립 또는 짝을 이룬 자료)

․ 분산분석(ANOVA)

․ 피어슨 상관분석

․ 단순회귀분석

비모수적 방법

․ 윌콕슨 검정(독립 또는 짝을 이룬 자료)

․ 크루스칼 왈리스

․ 스피어맨 상관분석

․ 단순회귀분석

 

 

종속변수가 범주형인 경우

 

․ 카이제곱 검정

․ Fisher의 정확도 검정(exact test)

 

․ 종속변수의 측정수준은 어떤가?

․ 종속변수가 연속형인 경우 정규분포를 가정 할 수 있는가?

․ 집단간 평균을 비교하고자 하는가?

․ 비교하고자 하는 집단은 몇 개인가?

․ 자료의 독립성을 가정할 수 있는가?

․ 범주형 자료분석에서 범주의 표본수가 너무 적지 않는가?

 

 

 

 

 

  4. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법

[통계 4-1] 여러 요인의 영향을 동시에 분석 또는 혼란변수를 통제하기 위해서는 회귀분석적 방법을 많이 사용한다. 회귀분석 방법은 종속변수와 독립변수들 간의 함수모형을 설정하고 (회귀모형) 그 모형을 통해 관련성을 밝히는 방법이다. 종속변수가 연속형인 경우는 다중 회귀분석 (multiple regression), 범주형인 경우는 다중 로지스틱 회귀분석 (logistic regression)을 많이 사용한다.

 

[예제자료2] 납제련소 부근에 사는 144명의 어린이들을 대상으로 혈중농도를 측정하여 위험군()과 정상군으로 분류하고 신경학적인 기능에 차이가 있는가를 알아보고자 10초간 finger-wrist tab (MaxFWT)을 측정하고 연령을 포함하여 이와 관련 있는 여러 가지 요인들을 조사하였다.

  Group(1=Exposed, 2=Normal), Sex(1=Male, 2=Female), Age(Years)

 

[의문 4-1] 연령과 성(sex)의 영향을 통제한 후 위험군과 정상군 두 군간에 MaxFWT의 차이가 있는가?

[통계 4-2] 다중 회귀분석모형

 

․ 회귀모형 :

 

․ 회귀계수의 의미 : 다른 요인을 통제하였을 때,

: Exposed 집단에 비해 Normal 집단이 MaxFWT가 평균적으로 만큼 높다.

: Male에 비해 Female 집단이 MaxFWT가 평균적으로 만큼 높다.

: 연령이 1살 증가하면 MaxFWT가 평균적으로 만큼 증가한다.

  위의 회귀모형을 분석하였을 때 얻어진 결과는 다음과 같다.

 

Table 4-1. Multiple regression model comparing mean MAXFWT

between exposed and normal after controlling for age and sex

Variable

Estimate

Standard error

p-value

Intercept

34.1

3.1

0.0001

group

-5.1

1.6

0.0014

age

2.4

0.2

0.0001

sex

-2.4

1.5

0.1172

 

[분석결과 해석] 납에 노출된 Exposed 집단이 Normal 집단에 비해 성, 연령을 통제하였을 때 신경학적인 기능인 MaxFWT의 평균이 5.1회 정도 통계학적으로 유의하게 낮다. 또한 연령이 1세 증가하면 평균적으로 MaxFWT는 2.4회 유의하게 증가하며, 남자에 비해 여자가 2.4회 정도 낮으나 통계학적으로 유의하지는 않다.

  [예제자료1]에 적합한 회귀분석인 로지스틱 회귀분석에 대해 알아보자!

 

[의문 4-2] 비만도와 흡연력, 그리고 총 열량의 영향을 통제한 후 total fat intake가 증가할 때 IHD의 위험이

증가하는가?

[통계 4-2] 다중 로지스틱 회귀분석모형

 

․ 회귀모형 :

․ 회귀계수의 의미 (odds ratio로 해석) : 다른 요인(x)을 통제하였을 때,

: 총열량에 대한 total fat이 1% 증가하면 Ischemic Heart Disease(IHD)에 걸릴 위험이 증가한다.

 

의 [예제자료1]에서 비만도, 흡연력, 그리고 총열량을 통제하였을 때의 로지스틱 회귀분석의 결과는 다음과 같다.

  Table 4-2. Adjusted odds ratios and 95% CIs of developing IHD for selected risk factors

from logistic regression analysis

Variable

Odds ratio

95% Confidence Interval

total fat (1% of energy intake)

1.08

1.02 - 1.14

energy (Kcal)

1.01

1.00 - 1.02

body mass index

 

 

≥25

2.26

1.27 - 4.01

<25

1.00

-

smoking status

 

 

>1 pack/d

10.51

3.61 - 30.56

≤1 pack/d

2.40

1.03 - 5.62

exsmoker

2.67

1.09 - 6.55

never smoker

1.00

-

 

☞ [분석결과 해석] 총 열량, 비만도, 흡연력의 영향을 통제하였을 때 total fat이 1% 증가하면 IHD에 걸릴 위험이 1.08배 증가한다. 그리고 다른 요인의 영향을 통제하였을 때 BMI가 25미만인 군에 비해 이상인 사람이 IHD에 걸릴 위험이 2.26배 증가하고, never smoker에 비해 하루에 한갑 이상 피우는 사람은 10.51배, 1갑 미만은 2.4배, 그리고 금연자는 2.67배 IHD에 걸릴 위험이 증가한다.

 

이상의 회귀분석 내용을 정리하면 다음과 같다.

 

[종합정리 4-1] 회귀분석 방법

자료의 특성에 맞는 회귀분석을 시행하므로서 여러 독립변수들의 영향을 동시에 알아보고 서로의 영향을 통제한 후의 독립적인 관련성을 알아볼 수 있다.

보건학에서 많이 사용하는

회귀분석의 종류

분류 기준 및 검토 사항

다중 회귀분석

 

로지스틱 회귀분석

 

조건부 로지스틱 회귀분석

 

포아송 회귀분석

 

Cox's의 비례위험 회귀분석

․ 종속변수의 측정수준은 어떤가?

․ 독립변수의 측정수준은 어떤가?

===> 독립변수가 범주형이면 가변수 처리를 하였는가?

․ 독립변수들간에는 다중공선성(multicollinearity)의 문제는 없는가?

․ 다중 회귀분석의 기본가정을 검토하였는가?

===> 정규분포성, 선형성, 등분산성, 이상점, 모형의 적합성 등

․ 로지스틱 회귀분석에서 종속변수의 범주의 수는 몇 개인가?

․ 로지스틱 회귀분석에서 대상자가 matching 되어 있는가?

․ 사건 발생에 대한 추적관찰된 시간 (또는 인년(person-years))의 자료인가?

 

[종합정리 4-2] 회귀모형을 구축하는 전략

 

간단한 분석(단일변량분석)을 통해서 변수간의 정보를 파악하자!

․ 단일변량분석을 통해 유의확률이 0.3미만인 독립변수는 위험요인의 가능성이 있다.

․ 독립변수간의 상호작용(영향)을 고찰하자

단일변량분석에서 어느 정도 관련성을 보이는 독립변수(p<0.3(또는 0.2)) 또는

이 연구에서 관심을 갖는 독립변수, 그리고 혼란변수를 모형에 포함하여 자료의 특성에

맞는 회귀분석을 시행하자!

선택한 회귀분석 모형의 기본가정이 만족되는가?

최종적으로 가능한 간단한 모형이면서도 설명력이 높은 모형을 찾도록 노력하자!

Categories of statistical procedures used to assess

the statistical content in the articles

 

자료 성격

권고 통계분석 방법

사례보고, 임상연구, 치료결과분석 등

No statistical methods or

Descriptive study

진단능력평가, 참고치 정하기

Sensitivity, Specificity, ROC curve

짝을 이룬 2군間 평균비교

Paired T-test

Wilcoxon signed rank test*

독립적인 2군間 평균비교

T-test, Z-test

Wilcoxon rank sun test*

Mann-Whitney U-test*

독립적인 3군間 이상 평균비교

(또는 군간비교)

ANOVA (with multiple comparison)

Kruskal-Wallis test*

동일인에 대한 연속변수의 3회 이상 반복측정

Repeated measures of ANOVA, GLM

Friedman test*

2군 또는 3군 이상 빈도비교

Pearson

Mantel-Haenszel trend test (순서형 변수)

Mantel-Haenszel test*

Fisher's Exact test*

동일인에 대한 반복측정 빈도비교

McNemar's test*

두 연속변수간 상관관계 분석

비모수적 변수의 상관관계 분석

 

Pearson's correlation

Spearman's rho*

Kendall's tau*

두 개의 연속변수간 종속관계 분석

Simple linear regression

Multiple regression

Logistic regression

생존율 연구

생존율 비교

Life table,

Kaplan-Meier estimate of survival

Log-rank test, Cox's analysis

역학적 통계량 분석

Incidence, Prevalence,

Risk ratio, Odds ratio

* : 비모수적 방법

Source : Emerson JD, Colditz GA, Use of Statistical Analysis in The New England Journal of Medicine.

N Engl J Med 1983;309:709-13.



:

요즘들어 spss 분석방법 문의하시는 분들이 많아서요... 밥벌이가 안좋네요...^^ 그래도 본인이 하시는게 가장 좋은 방법입니다..

참고하시고 문의사항 있으시면 메일주세요  chsoo.lee@gmail.com 입니다.



: