위의 글에도 언급하였지만 의학 및 약학 분야등에서 또 많이 쓰는 연구 중의 하나가 바로 반복설계이다

 

몸이라는 것이 약한번 먹는다고 낳는게 아니니 반복적으로 처치를 하면서 상황을 보고 이를 통계적으로 검증한다고 해야 할까요 ?

 

물론 이러한 연구방법은 체육분야에서도 많이 사용되고 있습니다.

 

그렇다면 마케팅 방면에서는 어떻게 적용할수 있을까요 ?

 

요즘 한참 골프가 인기를 끌고 있죠 ? 음.. 스크린 골프는 나날이 대박을 이어가고.. 상장도 하고.. 아 좋겠네요..

 

그와 더불어 골프용품의 인기도 날로 늘어가네요..

 

근데 우리가 항상 하는 탓이있죠... 골프가 안 맞으면 채가 안좋아서.. 코스가 안좋아서..

 

그래서 어느정도 실력이 균일한 골프애호가를 대상으로 신제품, 기존제품. 타사제품의 골프클럽은 한달간격으로 시타해보도록 하고 선호도를 측정해봅니다..

 

세가지 클럽에 대해 애호가의 선호도에 차이가 있는지를요..

 

그러기 위해서는 반복측정분산분석을 진행해야 합니다.

 

개체내 요인이름을 지정하고 수준의수는 3가지 이니까 3을 넣으시고 ~

 

개체내 변수에 반복측정된 종속변수를 넣습니다.

 

다변량 검정결과에서는 대부분 윌크스 람다 값을 사용합니다. ~

 

자세한 스크린샷이 없어서 이해하시기가 힘들수도 있겠네요.. 

 

비가 내릴려고 하나봅이다. 날씨가 꾸물꾸물...  그래도 힘찬 화요일 됩시다

 

 

 

 



:

의학통계 관련하여

통계분석 2013. 10. 14. 13:53 |

어떤 통계보다 단순하면서 사실상 가장 값에 대하여 강력한 책임을 지게하는 것이 의학통계가 아닌가 합니다.

 

사실상 가장 많이 의뢰 들어오는 통계가 처치전, 처치후의 검증 통계가 대부분입니다.

 

혈압약의 투여 효과를 검증하기 위하여 ~

 

당뇨약의 효과를 검증하기 위하여 ~

 

이런경우도 있습니다.

 

우리나라의 위암 발병율 및 발견율이 세계수준과는 어떠한가의 분석도 나올수가 있겠습니다..

 

위의종류의 의학통계는 t 검정을 통하여 이루어 집니다.

 

(물론 더 복잡한 경우 다른 분석방법으로 넘어가기도 합니다만 대부분의 의뢰가 t검정이라는 것을 알려드립니다 )

 

chsoo.lee@gmail.com (문의사항)



:

정말 타는듯한 그리고 찌는듯한 오후 입니다.

 

점심을 먹으면서도 이게 어디로 넘어가는지 모르겠고, 먹고나서도 소화가 안되는거 같고, 하여간 기력이 떨어지는 요즘입니다.

 

금일 통계분석을 요청하신 분이 메일로 질문을 하시더군요

 

" 통계관련 일을 아직도 하시는지요 ? 글 올린지가 너무 오래되어서 안하시는거 아닌지 궁금합니다 "

 

라고 문의를 주셨더라구요..

 

우선 대답부터 해드려야지요.. 아직도 하고 있고 계속 할 예정입니다. ~

 

그러고 나서 통계분석을 처음 시작한게 언제인지 한번 되돌아 봤습니다.

 

2001년 대학원시절 통계관련 수업에 타학교 특강, 통계전문가 특강, 플러스 독학을 통해서 통계분석을 시작한게 처음이네요. 당시 대학원 선배들이 거의 저한테 통계를 맡기다 시피 했고, 선배들이라서 비용을 안받고 대신에 술로 얻어 마신게 아마 인생 전체 마신술의 반은 되지 않을까 합니다.

 

물론 일부 기업체 선배들은 술과함께 거하게 용돈도 주신기억이 납니다. 많이 주셨던 분은 당신 등록금의 반값까지도 주신분이 계시고 아직도 연락을 하고 계시는 사장님이 계십니다.

 

그렇게 졸업을 하고 오프라인으로, 선배들의 소개로 통계분석을 해달라는 요청이 드문드문 있더라구요. 회사를 다니면서 투잡을 한다는게 그리 쉽지만은 않더라구요. 그래도 요청이 들어오면 무조건 받았지요. 주말에 좀 안쉬고, 밤에 잠좀 안자고 그렇게 진행을 해왔네요.

 

잠시 회사를 사직하고 미국으로 유학중에도 이 일은 끊임없이 진행이 되더라구요. 소개받은 사람이 후배를 소개시키고 그 후배가 또 후배를 소개해주고, 그러다보니 사실 지금은 한참 후배격인 분들의 통계도 해주고 있습니다. ~

 

오프라인으로 분석을 진해하면서 2009년에 블로그를 개설을 하면서 통계관련한 업무나 일, 에피소드등을 올리게 되었네요. 물론 "저 통계분석합니다 자주 애용해주세요" 라는 홍보성 글도 남겼구요 ~

 

근데 생각외로 많은 분들이 연락을 주시더라구요. 많이 몰릴때는 정말 많이 몰릴때도 있습니다. 근데 제가 항상 강조하는 사항인데 돈에 욕심이 생겨서 여러가지 일을 받다보면 결국은 질이 떨어지기 마련입니다. 제가 직원을 두고 하는것도 아니고 회사 퇴근후 혹은 주말에 제 시간을 할애하는것이라 능력 이외의 일은 절대 받지를 않습니다. 더군다가 온라인이 얼마나 무서운 존재 입니까 ~ 까닥 잘못하면 제 블로그에 수많은 악플을 남기지 않겠습니까 ~ ^^ 그렇게 관리를 한 결과인지 아직까지 악플은 달리지 않고 있네요. 물론 진행중에 의뢰주신분과 커뮤니케이션이 안맞았던 경우에는 최대한 서로간에 해결을 하고 있답니다.

 

사람과 사람이 하는일이다 보니 서로간에 맘에 안맞는 경우도 있을것이고, 또 서로간에 기분좋게 마무리를 하는 경우도 있습니다. 지난 4년간 온라인에서 만나뵈었던 분의 반정도는 외부미팅도 가졌습니다. 신뢰에 있어서 가장 큰 자산이 제 얼굴이 아닐까 하는 생각이었거든요. 물론 지방에 계시거나 해외에 계신분들은 어찌 미팅을 할 방법이 없고, 또 제 본업이 회사가 바쁜경우에는 또한 시간을 낼수가 없는 경우도 많았습니다.

 

이 통계업무를 제가 부업이라고 생각하면서 진행하는 것은 맞습니다. 따라서 비용을 받고, 비용도 그렇게 싸지는 않다고 합니다. 그래도 다른 저렴한곳에서 한번씩 고생을 하셨던분들은 너무 저렴한것만 찾은게 잘못이었다고 판단을 하기도 합니다.

 

가급적 의뢰주신분의 상황을 보다듬으려고 합니다. 회사를 다니면서, 가사를 동반하면서, 통계에 대한 지식의 부족으로 등등 다양한 이유에서 분석을 의뢰하십니다.

 

어떤 연유에서건 간에 분석 의뢰 주신 사항 잘 살펴드리도록 하겠습니다.

 

이 블로그 초창기에 말씀드린것 같은데 이 업무는 1분이라도 제 도움이 필요하다면 계속 진행이 될것입니다.   분석관련 하셔서 문의는 chsoo.lee@gmail.com 이쪽으로 주세요

 

폭염기간이라는데 항상 건강 유의하세요 저는 요즘 계속 어지럼에 시달리는데 대부분이 스트레스 라고 하네요 ~ 우리 모두 천천히 갑시다 빨리뛰어봤자 숨찹니다.

 

 

 



:


연세대학교 예방의학교실 강대룡 교수님이 정리하신 보건/의학통계에 대한 내용입니다 참고자료로 올립니다.

문의사항은 chsoo.lee@gmail.com 으로 해주세요

--------------------------------------------------

보건․의학의 주 연구대상은 인간이다. 사람을 대상으로 하므로서 발생할 수 있는 윤리적인 문제들이 실제 이 분야의 연구를 수행하는데 있어 가장 어려운 점이다. 이 문제는 연구설계와 밀접한 관련성이 있다. 특히 연구설계가 관찰연구(대분분의 보건․의학연구)인 경우는 인과관계를 논하는데 있어 상당히 제한적이다. 직접적으로는 연구설계의 한계로도 생각할 수 있고 또한 연구의 결과를 왜곡시킬 수 있는 혼란변수를 통제하지 못하였거나 주요한 독립변수를 누락하였기 때문에 인과관계를 잘못 해석할 수 있다.

 

연구자의 성급함이 연구결과를 왜곡시킬 수 있다. 연구자는 빠른 시간내에 자신의 가설을 입증하려고 서두르는 경향이 있고 특히 연구설계와 분석단계에서 이러한 경향이 강하게 나타난다. 전우택 교수의 사회의학연구방법론의 서론 중「농부와 노인」이 이를 잘 설명해주고 있다. 또한 “인간을 대상으로 하는 동일 주제의 연구결과가 다양할 수 있다”는 사실이 연구전체를 왜곡시킬 수 있다. 즉, 연구자로 하여금 이런 결과도 저런 결과도 괜찮다는 생각이 심도없는 고찰없이 연구를 진행하는 하나의 요인이 될 수 있다. (물론 특정 결과를 얻기 위해 연구자의 의도가 들어가서는 더욱 않되지만!)

 

연구자가 수집한 최초의 자료는 여러 가지 잡음들이 뒤섞여 있다. 보건학 자료는 인구집단에서 자료를 수집하여 연구하는 경우가 많다. 수집한 자료에는 이상점(outlier)과 결측치(missing data) 등 여러 가지 형태의 잡음들이 존재한다. 극단적으로 말하면 잡음이 없는 자료란 없다고 생각하면 된다. 이러한 잡음을 제거 또는 수정하지 않고 분석하여 얻어진 결과는 당연히 믿을 수 없다.

 

자료분석에서 적합한 통계적 방법을 적용하지 않아 발생하는 문제점을 생각할 수 있다. 통계적 분석은 아무리 쉬운 방법일지라도 그 방법이 가지고 있는 가정(assumption)이 있다. 따라서 실제 연구자료가 가정에 맞지 않는 경우는 그 연구의 결과에 치우침이 존재할 가능성이 커진다. 단 몇시간의 기계적인 분석을 통하여 얻어진 결과를 과연 신뢰할 수 있을까? 이러한 연구의 결과가 사람의 생명과 주요한 보건문제에 직접적으로 관여하는 것이라면?

  

2. 수집한 자료를 어떻게 간결하게 표현할까? (예제자료1)

 

연구목적: 주 연구가설은 한국인 남자에서 지질섭취와 흡연이 Ischemic heart disease (IHD)와 관련성이

있는가를 알아보고자 한다.

연구설계: 환자-대조군 연구

환자군은 세브란스병원에서 1995년부터 1996년 기간동안 처음으로 발생한 acute myocardial

infarction 또는 angina pectoris로 진단된 환자이며, 대조군은 동일한 시기에 세브란스

정형외과와 안과를 내원한 사람이다.

Variable

Category or Unit

age

years

education

years

smoking

1=current, 2=ex-smoker, 3=non-smoker

chddx

1=IHD, 2=control

bmi

body mass index (kg/m2)

energy

kcal

h_hist

hypertension history (1=yes, 2=unknown, 3=no)

dprotein

protern intake (% of energy)

dlipid

total fat intake (% of energy)

dcho

carbohydrate intake (% of energy)

dpufa

polyunsaturated fatty acid (% of energy)

dsfa

saturated fatty acid (% of energy)

dmufa

monounsaturated fatty acid (% of energy)

  [예제자료1]에 대한 연구대상자의 일반적 특성 중 연령과 교육수준에 대한 분포를 다음과 같은 표로 제시할 수 있다.

 

Table 2-1. Distributions of age and education for study population                unit : person (%)

Variable

Cases (n=108)

Controls (n=142)

age

 

 

<50

38 (35.2)

52 (36.6)

50-59

37 (34.3)

49 (34.5)

≥60

33 (30.6)

41 (28.9)

education

 

 

≤9

28 (25.9)

56 (39.4)

10-12

44 (40.7)

45 (31.7)

≥13

36 (33.3)

41 (28.9)

위의 표를 통해 환자군과 대조군의 연령분포와 교육수준이 각각 어떠한지를 알 수가 있다. 연령은 두 집단간에 거의 차이가 없다 (실제 연구설계에서 환자군과 대조군은 연령에 대해 빈도짝짓기를 하였기 때문임)는 것을 알 수 있고 교육수준은 환자군에서 조금 더 높은 경향이 있음을 알 수 있다. (⇨유의한 차이가 있는지는 통계적 검정을 통해서 확인하자!)

[예제자료1]에서 관심있는 영양소 섭취의 분포를 대표값과 산포도를 통해 어떻게 제시하는지 살펴보자.

  Table 2-2. Mean intakes (SDs) of energy from specific nutrients

Variables (unit)

Cases (n=108)

Controls (n=142)

energy (kcal)

2359.8 (730.8)

2223.4 (632.6)

carbohydrate (g)

357.5 (109.6)

354.5 (101.3)

protein (g)

85.1 ( 29.6)

78.0 ( 28.0)

total fat (g)

60.3 ( 28.5)

50.2 ( 22.3)

SDs : standard deviations

 

위의 표를 통해 총열량 섭취는 환자군이 대조군보다 평균적으로 136kcal 더 많이 섭취하며 또한 총지방산 섭취도 10g 더 많이 섭취하고 있다. 전체적으로 평균에 비해 표준편차가 매우 크다는 것을 알 수 있다. 이와 같은 경우는 다음과 같은 자료의 형태를 생각할 수 있다.

☞ 이상점(outlier)이 있는가?

☞ 분포가 오른쪽으로 치우쳐 있는 형태인가?

  위의 자료에서 총 열량섭취나 총 지방산 섭취에 대해 히스토그램을 그려보면 분포가 오른쪽으로 치우쳐 있으며 정규분포와는 다른 형태임을 알 수 있다. 이런 경우 대표값과 산포도의 측도로는 중위수와 사분위수 범위가 더 합리적일 수 있다.

 

[종합정리 2-1] 본격적인 연구가설을 분석하기 전에 반드시 자료를 확인하자! 자료를 확인할 수 있는 절차를 미리

생각해 둘 필요가 있다. 확인된 자료에서 기술통계량을 구하고 나의 연구대상자들의 일반적 특성 또는 주요 측정변수의 분포를 제시하는 것이 첫 번째 할 일이다.

 

이상의 내용에 대한 기술통계량의 종류들을 나열하면 다음과 같다.

[종합정리 2-2] 자료의 요약 및 정리

자료를 모으고 정리하여 방대한 자료의 특성을 한눈에 알기 쉽게 정리하는

것을 말한다.

기술통계량 (descriptive statistics)

표나 그림을 이용한 자료의 정리

대표값 (central tendency and location)

․ 산술평균 (arithmetric mean)

․ 중위수 (median)

․ 최빈수 (mode)

․ 기하평균 (geometric mean)

․ 가중평균 (weighted mean)

 

산포도 (variability)

․ 표준편차 (standard deviation)

․ 사분위수 범위 (interquartile range)

․ 범위 (range)

․ 변이계수 (coefficient of variation)

․ 히스토그램 (histogram)

․ 돗수분포표 (frequency table)

․ 막대그래프 (bar graph)

․ 원 그래프 (pie raph)

․ 산점도 (scatter plot)

․ 줄기-잎 그림 (stem-leaf diagram)

․ 상자그림 (box plot)

이제까지 자료를 요약․정리하는 방법에 대해 알아보았다. 지금부터는 연구설계에서 궁금함을 가지고 설정한 연구가설을 통계적 가설검정을 통해 의사결정을 내리는 방법을 알아보도록 하자!

  3. 단순분석을 일차적으로 먼저 시행해 보자!

  여기서, “단순분석”이란 의미는 두 변수만의 관련성에 대한 분석으로 생각하자. 앞의 [예제자료 1]에서 주 연구가설은 다음과 같다.

 

[주 연구가설] 지방산 섭취가 환자군과 대조군간에 차이가 있는가?

(또는 총 열량에 대한 지방산 섭취 비율이 차이가 있는가?)

 

이제부터 자료의 형태에 따라 어떤 통계적 방법을 적용하면 되는지 알아보자. 변수는 크게 측정수준에 따라 크게 연속형 변수와 범주형 변수로 나눌 수 있고, 설명관계의 방향성에 따라 종속변수 (또는 반응변수)와 독립변수 (또는 설명변수)로 나눌 수 있다. 그리고 측정자료에 독립성이 있는지의 여부도 통계적 방법을 선택하는데 주요한 기준이 된다.

 

[사례①] “경구피임약을 복용하면 혈압이 증가한다”는 가설을 검정하기 위해 경구피임약을 복용하는 100명과

복용하지 않은 100명의 수축기혈압을 비교하고자 한다.

[사례②] “경구피임약을 복용하면 혈압이 증가한다”는 가설을 검정하기 위해 경구피임약을 복용하지 않는

100명을 대상으로 수축기혈압을 측정하고 일정기간 경구피임약을 복용하게 한 후 다시 혈압을

측정하여 복용전과 후의 혈압을 비교하고자 한다.

[사례③] “흡연력에 따라 폐기능에 차이가 있는가”를 알아보기 위해 흡연력을 6개의 집단 (nonsmoker,

passive smoker, non-inhaling smoker, light smoker, moderate smoker, heavy smoker)으로 구분하고

FEF(forced expiratory flow)를 측정하여 6개 집단간의 평균을 비교하고자 한다.

[사례④] "약품 A와 B의 복용에 따른 부작용에 차이가 있는가“를 알아보기 위해 1,000명을 대상으로 500명씩 A

와 B를 각각 일정기간 동안 복용하게 한 후 부작용의 유무를 조사하여 부작용의 비율에 차이가 있는가

를 비교하고자 한다.

[사례⑤] “열량섭취가 많으면 비만할까”를 알아보기 위하여 200명의 성인을 대상으로 식이섭취를 통한

총 열량섭취와 비만도()를 조사하여 그 관련성을 알아보았다.

 

[종합정리 3-1] 측정한 변수를 종속변수와 독립변수, 측정수준에 따라 범주형과 연속형, 그리고 자료의 독립성 여부에 따라 t-검정 (독립된 두 집단, 짝을 이룬 두 집단), -검정, 일요인 분산분석, (피어슨) 상관분석, 단순회귀분석 등을 구분하여 적용할 수 있다. 그리고 모집단의 분포를 가정할 수 없는 경우에는 비모수적 방법으로 윌콕슨 순위합 검정, 윌콕슨 부호순위 검정, 크루스칼-왈리스 검정, 스피어맨 상관분석 등을 각각 적용할 수 있다. 자료의 특성에 맞게 검정방법을 선택하고 제시된 유의확률을 이용하여 귀무가설과 대립가설 중 하나를 선택하면 된다.

 

※ 모수적 방법과 비모수적 방법의 적용

모수적 방법이란 표본이 추출된 모집단의 확률분포에 대하여 특정분포를 가정하고 그 가정된 분포의 모수(parameter)에 대한 검정문제를 생각하는 방법이다. 많이 사용하는 대표적인 분포는 정규분포이다. 모집단의 분포를 가정하므로서 검정통계량의 분포를 알 수가 있다. 그러나 정규분포를 따르지 않거나 특정분포를 가정할 수 없는 경우, 특히 표본의 수가 작은 경우는 순위(rank)에 기초한 비모수적(nonparametric) 방법을 사용하는 것이 좋다.

 

[예제자료1]에서 주 연구가설은 “총 열량에 대한 지방산섭취 비율(dlipid, dsfa, dpufa, dmufa)의 평균이 환자군과 대조군간에 차이가 있는가?” 이다 (종속변수와 독립변수의 방향관계를 생각하면 “지방산섭취 비율이 증가하면 환자 (IHD)가 될 위험이 증가하는가?” 이다). 자료구조를 보면 환자군과 대조군의 평균을 비교하는 문제이므로 독립된 두 집단의 t-검정 (또는 윌콕슨 순위합 검정)을 사용하면 된다.

  Table 3-1. Mean (SDs) intake of energy from specific nutrients

Variables (unit)

Cases (n=108)

Controls (n=142)

t-value

total fat (% of energy)

22.4 (5.9)

19.9 (5.2)

3.7***

PUFAs (% of energy)

4.4 (1.3)

4.1 (1.2)

2.2*

MUFAs (% of energy)

7.5 (2.9)

6.4 (2.5)

3.1**

SFAs (% of energy)

6.8 (2.5)

5.9 (2.2)

3.1**

SDs : standard deviations ; PUFAs : polyunsaturated fatty acids ;

MUFAs : monounsaturated fatty acids ; SFAs : saturated fatty acids

*: p < 0.05, ** : p <0.01, *** : p < 0.001

 

총 열량에 대한 total fat, PUFAs, MUFAs, 그리고 SFAs 모두 환자군이 대조군에 비해 통계학적으로 유의하게 많이 섭취하고 있다.

 

만약 위의 분석을 윌콕슨 순위합 검정을 하였다면, 산술평균 대신 중위수, 표준편차 대신 사분위수 범위를 적고 윌콕슨 순위합 검정의 통계량 값 또는 p-값을 적으면 된다.

 

 

환자군과 대조군에 간에 다른 특성의 차이가 있는가? 비만한 사람이 환자군에 많은가? 또한 비만도와 지방산 섭취가 관련성이 있다면?

Table 3-2. Distributions of smoking status, history of hypertension

and history of hyperlipidemia in cases and controls

Variable

Cases (n=108)

Controls (n=142)

-value

body mass index

 

 

 

<25

54 (50.0)

97 (68.3)

7.8*

≥25

54 (50.0)

45 (31.7)

 

smoking status

 

 

 

>1 pack/d

28 (25.9)

10 ( 7.0)

21.6**

≤1 pack/d

42 (38.9)

59 (41.6)

 

exsmoker

28 (25.9)

40 (28.2)

 

never smoked

10 ( 9.3)

33 (23.2)

 

history of hypertension

 

 

 

yes

41 (38.0)

20 (14.1)

19.4**

no

59 (54.6)

103 (72.5)

 

unknown

8 ( 7.4)

19 (13.4)

 

history of hyperlipidemia

 

 

 

yes

29 (26.8)

18 (12.7)

9.3*

no

42 (38.9)

76 (53.5)

 

unknown

37 (34.3)

48 (33.8)

 

unit : person (%)

* : p < 0.01, ** : p < 0.001

 

 

환자군에서 비만한 사람의 비율, 흡연자의 비율 (특히 하루 1갑 이상), 고혈압과 고지혈증에 대한 과거력이 있는 사람의 비율이 대조군에 비해 통계학적으로 유의하게 높았다.

   

[의문] 주 연구가설을 밝히는데 위의 비만도, 흡연력, 고혈압과 고지혈증 등의 변수의 영향을 통제하지 않으면

어떤 문제가 있는가?

  

이상의 내용에 대한 검정방법들을 나열하면 다음과 같다.

 

[종합정리 3-2] 간단한 통계검정

통계적 가설을 설정하고, 연구자의 가설이 지지되는지 일차적으로

단순한 분석을 시행하자!

통계 검정 방법들

분류 기준 및 검토 사항

 

종속변수가 연속형인 경우

 

모수적 방법

․ t-검정 (독립 또는 짝을 이룬 자료)

․ 분산분석(ANOVA)

․ 피어슨 상관분석

․ 단순회귀분석

비모수적 방법

․ 윌콕슨 검정(독립 또는 짝을 이룬 자료)

․ 크루스칼 왈리스

․ 스피어맨 상관분석

․ 단순회귀분석

 

 

종속변수가 범주형인 경우

 

․ 카이제곱 검정

․ Fisher의 정확도 검정(exact test)

 

․ 종속변수의 측정수준은 어떤가?

․ 종속변수가 연속형인 경우 정규분포를 가정 할 수 있는가?

․ 집단간 평균을 비교하고자 하는가?

․ 비교하고자 하는 집단은 몇 개인가?

․ 자료의 독립성을 가정할 수 있는가?

․ 범주형 자료분석에서 범주의 표본수가 너무 적지 않는가?

 

 

 

 

 

  4. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법

[통계 4-1] 여러 요인의 영향을 동시에 분석 또는 혼란변수를 통제하기 위해서는 회귀분석적 방법을 많이 사용한다. 회귀분석 방법은 종속변수와 독립변수들 간의 함수모형을 설정하고 (회귀모형) 그 모형을 통해 관련성을 밝히는 방법이다. 종속변수가 연속형인 경우는 다중 회귀분석 (multiple regression), 범주형인 경우는 다중 로지스틱 회귀분석 (logistic regression)을 많이 사용한다.

 

[예제자료2] 납제련소 부근에 사는 144명의 어린이들을 대상으로 혈중농도를 측정하여 위험군()과 정상군으로 분류하고 신경학적인 기능에 차이가 있는가를 알아보고자 10초간 finger-wrist tab (MaxFWT)을 측정하고 연령을 포함하여 이와 관련 있는 여러 가지 요인들을 조사하였다.

  Group(1=Exposed, 2=Normal), Sex(1=Male, 2=Female), Age(Years)

 

[의문 4-1] 연령과 성(sex)의 영향을 통제한 후 위험군과 정상군 두 군간에 MaxFWT의 차이가 있는가?

[통계 4-2] 다중 회귀분석모형

 

․ 회귀모형 :

 

․ 회귀계수의 의미 : 다른 요인을 통제하였을 때,

: Exposed 집단에 비해 Normal 집단이 MaxFWT가 평균적으로 만큼 높다.

: Male에 비해 Female 집단이 MaxFWT가 평균적으로 만큼 높다.

: 연령이 1살 증가하면 MaxFWT가 평균적으로 만큼 증가한다.

  위의 회귀모형을 분석하였을 때 얻어진 결과는 다음과 같다.

 

Table 4-1. Multiple regression model comparing mean MAXFWT

between exposed and normal after controlling for age and sex

Variable

Estimate

Standard error

p-value

Intercept

34.1

3.1

0.0001

group

-5.1

1.6

0.0014

age

2.4

0.2

0.0001

sex

-2.4

1.5

0.1172

 

[분석결과 해석] 납에 노출된 Exposed 집단이 Normal 집단에 비해 성, 연령을 통제하였을 때 신경학적인 기능인 MaxFWT의 평균이 5.1회 정도 통계학적으로 유의하게 낮다. 또한 연령이 1세 증가하면 평균적으로 MaxFWT는 2.4회 유의하게 증가하며, 남자에 비해 여자가 2.4회 정도 낮으나 통계학적으로 유의하지는 않다.

  [예제자료1]에 적합한 회귀분석인 로지스틱 회귀분석에 대해 알아보자!

 

[의문 4-2] 비만도와 흡연력, 그리고 총 열량의 영향을 통제한 후 total fat intake가 증가할 때 IHD의 위험이

증가하는가?

[통계 4-2] 다중 로지스틱 회귀분석모형

 

․ 회귀모형 :

․ 회귀계수의 의미 (odds ratio로 해석) : 다른 요인(x)을 통제하였을 때,

: 총열량에 대한 total fat이 1% 증가하면 Ischemic Heart Disease(IHD)에 걸릴 위험이 증가한다.

 

의 [예제자료1]에서 비만도, 흡연력, 그리고 총열량을 통제하였을 때의 로지스틱 회귀분석의 결과는 다음과 같다.

  Table 4-2. Adjusted odds ratios and 95% CIs of developing IHD for selected risk factors

from logistic regression analysis

Variable

Odds ratio

95% Confidence Interval

total fat (1% of energy intake)

1.08

1.02 - 1.14

energy (Kcal)

1.01

1.00 - 1.02

body mass index

 

 

≥25

2.26

1.27 - 4.01

<25

1.00

-

smoking status

 

 

>1 pack/d

10.51

3.61 - 30.56

≤1 pack/d

2.40

1.03 - 5.62

exsmoker

2.67

1.09 - 6.55

never smoker

1.00

-

 

☞ [분석결과 해석] 총 열량, 비만도, 흡연력의 영향을 통제하였을 때 total fat이 1% 증가하면 IHD에 걸릴 위험이 1.08배 증가한다. 그리고 다른 요인의 영향을 통제하였을 때 BMI가 25미만인 군에 비해 이상인 사람이 IHD에 걸릴 위험이 2.26배 증가하고, never smoker에 비해 하루에 한갑 이상 피우는 사람은 10.51배, 1갑 미만은 2.4배, 그리고 금연자는 2.67배 IHD에 걸릴 위험이 증가한다.

 

이상의 회귀분석 내용을 정리하면 다음과 같다.

 

[종합정리 4-1] 회귀분석 방법

자료의 특성에 맞는 회귀분석을 시행하므로서 여러 독립변수들의 영향을 동시에 알아보고 서로의 영향을 통제한 후의 독립적인 관련성을 알아볼 수 있다.

보건학에서 많이 사용하는

회귀분석의 종류

분류 기준 및 검토 사항

다중 회귀분석

 

로지스틱 회귀분석

 

조건부 로지스틱 회귀분석

 

포아송 회귀분석

 

Cox's의 비례위험 회귀분석

․ 종속변수의 측정수준은 어떤가?

․ 독립변수의 측정수준은 어떤가?

===> 독립변수가 범주형이면 가변수 처리를 하였는가?

․ 독립변수들간에는 다중공선성(multicollinearity)의 문제는 없는가?

․ 다중 회귀분석의 기본가정을 검토하였는가?

===> 정규분포성, 선형성, 등분산성, 이상점, 모형의 적합성 등

․ 로지스틱 회귀분석에서 종속변수의 범주의 수는 몇 개인가?

․ 로지스틱 회귀분석에서 대상자가 matching 되어 있는가?

․ 사건 발생에 대한 추적관찰된 시간 (또는 인년(person-years))의 자료인가?

 

[종합정리 4-2] 회귀모형을 구축하는 전략

 

간단한 분석(단일변량분석)을 통해서 변수간의 정보를 파악하자!

․ 단일변량분석을 통해 유의확률이 0.3미만인 독립변수는 위험요인의 가능성이 있다.

․ 독립변수간의 상호작용(영향)을 고찰하자

단일변량분석에서 어느 정도 관련성을 보이는 독립변수(p<0.3(또는 0.2)) 또는

이 연구에서 관심을 갖는 독립변수, 그리고 혼란변수를 모형에 포함하여 자료의 특성에

맞는 회귀분석을 시행하자!

선택한 회귀분석 모형의 기본가정이 만족되는가?

최종적으로 가능한 간단한 모형이면서도 설명력이 높은 모형을 찾도록 노력하자!

Categories of statistical procedures used to assess

the statistical content in the articles

 

자료 성격

권고 통계분석 방법

사례보고, 임상연구, 치료결과분석 등

No statistical methods or

Descriptive study

진단능력평가, 참고치 정하기

Sensitivity, Specificity, ROC curve

짝을 이룬 2군間 평균비교

Paired T-test

Wilcoxon signed rank test*

독립적인 2군間 평균비교

T-test, Z-test

Wilcoxon rank sun test*

Mann-Whitney U-test*

독립적인 3군間 이상 평균비교

(또는 군간비교)

ANOVA (with multiple comparison)

Kruskal-Wallis test*

동일인에 대한 연속변수의 3회 이상 반복측정

Repeated measures of ANOVA, GLM

Friedman test*

2군 또는 3군 이상 빈도비교

Pearson

Mantel-Haenszel trend test (순서형 변수)

Mantel-Haenszel test*

Fisher's Exact test*

동일인에 대한 반복측정 빈도비교

McNemar's test*

두 연속변수간 상관관계 분석

비모수적 변수의 상관관계 분석

 

Pearson's correlation

Spearman's rho*

Kendall's tau*

두 개의 연속변수간 종속관계 분석

Simple linear regression

Multiple regression

Logistic regression

생존율 연구

생존율 비교

Life table,

Kaplan-Meier estimate of survival

Log-rank test, Cox's analysis

역학적 통계량 분석

Incidence, Prevalence,

Risk ratio, Odds ratio

* : 비모수적 방법

Source : Emerson JD, Colditz GA, Use of Statistical Analysis in The New England Journal of Medicine.

N Engl J Med 1983;309:709-13.



: