지난번 통계관련하여 기부를 했다는 글을 올리고 몇분들이 메일을 보내주셨습니다


http://gofood.tistory.com/451 (통계관련 기부 글입니다)


물론 부끄럽지만 칭찬과 독려를 해주시는 고마운 글들이었습니다. 간접적으로나마 본인들도 기부를 하는듯 하다는 내용들이었고 이제 통계의 본격적인 시즌이 돌아오면서 통계를 통해 받는 금액의 일정부분을 사회단체에 기부를 하고자 합니다.


월급을 받는 직장인이면서 운이 좋아 번외의 수입을 얻는것인데 어느정도는 저도 다시 환원을 해야 하지 않을까 하는 생각입니다. 조금 있으면 저는 조금한 사업을 시작할 생각입니다. 물론  그 사업계획에 있어서도 순익의 1%정도를 기부를 하고자 하는 생각입니다.


모든게 생각, 생각,,, 이라고만 적었는데 지켜봐 주세요


어떤 방식으로든 버는돈을 조금씩 환원하면서 살아야겠습니다.


chsoo.lee@gmail.com (제 메일입니다. 통계뿐만 아니라 어떤 내용도 메일 주세요)


다들 감사합니다.




:

참좋은 커피숍

통계분석 2013. 4. 1. 20:42 |

오늘 통계관련 외부 미팅이 있어 나갔다가 들린 커피숍입니다. 


참 예쁜자리에 위치하고 있더라구요. 


정말 탐나는 자리, 그리고 영업방식도 참 맘에 들더군요. 


쌀로 만든 쿠키, 파운드케익 등, 커피는 정말 저렴한데도 향이 좋았구요


너무 멀어서 종종 들릴수 있을지는 모르겠지만 스타일 좋았습니다.





다음 통계미팅도 여기서 했으면 좋겠다 했는데 출장비 받아야 할판입니다..ㅋ 그래도 좋네요



:

글 정말 오랜만에 써 봅니다. 프리랜서 생활 하다가 한 직장의 팀장으로서의 생활은 또 다른 패턴을 가져다 주네요

 

지난주 나름 뿌듯한 그래서 이 블로그를 빌어 저한테 통계를 맡겨주신분들에 대한 심심한 감사를 드리고자 글 올립니다.

 

사실 통계를 사이드잡으로 시작한지는 누차 말씀드렸다시피 꽤 되었습니다. 지난 2003년부터 되었겠네요. 제 글 잘 읽어보시면 아시겠지만 회사중에도 유학중에도 쉬지 않았습니다.

 

근데 항상 마음에 걸렸던게 부업으로 번외머니를 벌면서도 한번도 좋은 일을 한적이 없었다는 것입니다.

 

그래서 올해 통계로 제가 번 금액이 적은돈은 아니더라구요. 해가 갈수록 찾아주시는 분들도 많고, 졸업하신분들이 또 소개시켜 주시고 해서 제 능력이상의 돈을 번것같습니다. 근데 정말 기부라는것에 너무 인색했던것 같습니다. 2007년 한국으로 돌아오면서 아시아나 승무원이 예뻐서 주머니에 있는 돈 다 털어서 유니세프 봉투에 넣은 이후로 계속해서 유니세프에서 보내주는 지로용지에 대해서 납입하는 정도 입니다.

 

이번에는 좀 크게 기부할 마음을 먹었습니다. 제 이름이 아닌 저한테 의뢰주신 여러분들에 대한 이름으로 말입니다.

 

사실 작다면 작은 돈이고 저한테 크다면 큰 돈이라고 생각이 되지만 어디다 기부를 할까 생각을 했습니다. 사랑의 열매는 비리온상이라서 패스, 유니세프는 하고 있으니까 패스, ARS는 수수료가 너무 쎄서 패스, 그러다 보니 어떤곳이든 직접 전달해주는게 좋겠다는 생각이 들어서 지난번에 콩을 기부했던 단체에 기부를 하기로 결정했습니다.

 

결정하고 망설이기도 했지만 (사실 그돈이면 노트북을 최신형으로 바꿀수 있는 금액인데 ,전 아직도 2008년산 넷북으로 작업을 하거든요 가끔 프리징 현상이 일어나기도 하지만 아직은 쓸만합니다.) 간략한 메모와 함께 바로 보냈습니다.

 

저도 TV에서 본거는 있어서 누가 보냈는지 그런거는 적지도 않았습니다. 다만 "저와 제 블로그 고객의 힘을모아" 라는 메모 문구만 보냈습니다.

 

그리고는 아무도 알아주지 않은듯 해서.(기부 한번 하고 이렇게 생색내기 그렇지만) 여기에라도 올리는겁니다.

 

추운겨울 누군가에게 힘이 될수도 있다는 사실에 뿌듯한 마음이 들고 아울러 저한테 의뢰주신 여러분들에게도 감사드립니다.

 

로또가 되서 인생 은퇴 하지 않는 이상 계속 이 작업은 하렵니다 ~~

 

 



:

회귀 결정계수

통계분석 2012. 4. 27. 10:06 |

통계 분석을 하다보면, 유의수준이 없는 지수들의 기준값을 얼마로 적용해야 하는지에 대해 많은 고민을 하게 됩니다.

 

그래서, 앞으로 차근히 하나씩 올려가도록 하겠습니다. (이일현 박사님 말씀)

 

회귀분석에서 많이 사용하는 결정계수의 값의 크기는 얼마 이상이어야 할까...

 

일반적으로 자연과학, 공학등에서는 70%, 사회과학에서는 30% 이상을 추천한다.

 

대표적인 학자 중의 한 분이 Cohen 에 의하면

 

                         작은 크기 : 2%

                         중간 크기 : 13%

                         큰     크기 : 35%

 

를 제시하고 있다.

따라서 설문조사 등의 사회과학 연구에서는 결정계수가 13% 이상만 되면 어느 정도의 효과가 있다라고 할 수 있다.

 

 

Cohen, J.(1988), Statistical Power Analysis for the Behavioral Sciences(2nd Ed.), Lawrence Erlbaum Associates, Inc.



:

통계 데자뷰 ~

통계분석 2012. 4. 25. 08:40 |

데자뷰 현상이라고 하지요..

 

그 언젠가 경험했던 적이 있었던것 같은 느낌이요... 오늘 아침이 정말 그렇네요.. 비오는 어느날 아침..

 

누군가에게는 당연히 비오는 어느날 아침이겠지만 오늘 저한테 묘한 느낌이 감도네요 ^^ ~~

눈오는날은 밖에서 눈을 맞으면서 걷는게 좋고, 비오는날에는 창밖에 비오는 소리를 들으면서 음악을 듣는게 너무 좋습니다. 오늘 아침 눈뜨는데 딱 그런생각이 들더군요.. 하루만 멍하니 창밖을 바라보면서 음악좀 듣고 싶다고 ~

괜히 자연현상이 비를 가지고 너스레좀 떨었네요...

 

요즘 산을 주 갑니다. 나이가 들어서 간다기보다도 사진을 찍으로 많이 가지요.. 뭐 작품촬영하는 정도는 아니고 조금한 필름카메라를 들고 이리저리 연신 셔터를 눌러댑니다. 

필름카메라를 찍으면서 느낀 한가지는 기다림입니다. 저한통을 다 찍어야 현상을 보내는데.. 빨리 볼라고 비싼 필름 한통 다 버릴수도 없고, 차근히 한장한장 생각하면서 찍게 됩니다. 이전 디카가 무조건 찍고 잘 나온거 고르자라는 방식이라면 제가 지금 사용하는 필름 카메라는 그냥 나올때 까지 기다리고 어떻게 나왔나 하는 기대감.. 그리고 사진이 나왔을때의 허무함..(아직 수준이 안되는지라 사진이 흔들리고, 빛 들어가고..ㅋㅋ) 그런 재미인것 같습니다. 또 하나의 재미가 손톱만한 렌즈창으로 보이는 것과 현상후 사진을 봤을때의 느낌을 비교보는것 그거도한 묘한 매력입니다. 찍을 때의 생각과 나중의 생각..

 

어쨋든~~ ^^ 

 


 

즘 하루하루 일주일이 참 빨리 지나갑니다. 회사에서는 녹을 먹고 있으니 회사일에 충실하고 주말 2틀 동안 계속적으로 제 개인업무를 진행하거든요.. 2009년 처음 시작해서 주말마다 시작을 한일이 어느새 부업아닌 부업이 된것 같습니다. 지난주말 급하게 통계의뢰주신 분 마무리를 해드리면서 그간 얼마나 진행을 했는지 한번 보았는데.. 생각보다 많은 작업을 해왔던것 같습니다. 학기마다 2-30분씩 하다보니 2009년 봄학기부터 2012년 봄학기 까지 7학기 째를 맞이하고 근 200여분이 의뢰를 주셨네요... ㅋ 물론 정식으로 일을 진행한것만 이정도니 상담까지 하면 더 많지 않나 싶네요..

 

일을 하면서 .. 어떤 일이든 그렇지만 좋으신 분도 있고, 난감한 분들도 계셨습니다. 물론 의뢰주시는 분들께서도 저한테 고마움을 표시를 하셨던 분들도 계신반면 많은 불평을 하시고 만족하지 못하신 분들도 계셨습니다. 그래도 저는 기본에 충실해서 일을 진행하고 있다고 나름 생각합니다. ~ 저한테 처음 통계를 맡기셨던 분들 중에는 아직까지 후배, 후배의 후배를 소개시켜주시면서 3년째 연을 맺고 계시는 분들도 계시고 그 후배의 후배님 작업을 지난주에 마무리 하였습니다.

 

지금껏 생각해보니.. 제가 글 처음에 말한 데자뷰라는거 기억이 나는거 같아요.. 아마도 블로그를 통해서 처음 통계를 받았던날이 비오는 아침이었던것 같습니다. 지난글에도 그렇게 적혀 있는것 같습니다.

 

다들 즐거운 하루 되세요 ~



:

ANOVA 에서 유의한 차이가 있는 경우 Tukey, Duncan, Scheffe 등의 사후분석(Post-Hoc test)를 하게 된다.

문제는  ANOVA 와 사후분석 결과가 일치하지 않는 경우가 종종 나올 때, 어떻게 해야되는지 고민을 하게 된다. 2가지 예를 들어 상황을 살펴보도록 한다.

 

1. ANOVA 에서는 유의하지 않은데, 사후분석에서 유의하게 나온 경우

 ph1.jpg

위의 결과를 보면 ANOVA 결과, 집단간 유의한 차이가 없는 것으로 나타났다(p=.136>.05).

하지만, Duncan 의 사후분석에서는 3 Group(M=4.33) 이 1 Group(M=3.70) 보다 높은 것으로 나와, 서로 상반된 결과를 보이고 있다.

 

이와 같이 ANOVA 에서는 유의하지 않지만, 사후분석에서는 유의한 경우에는 사후분석의 결과를 무시한다.

 

2. ANOVA 에서는 유의한데, 사후분석에서 유의하지 않은 경우

ph2.jpg

 

사실 1과 같은 경우에는 큰 문제가 되지 않는다. 보통 연구자들은 ANOVA 에서 유의하지 않은 경우 사후분석을 하지 않기 때문이다.

2와 같이 ANOVA 에서는 유의한데, 사후분석에서 유의하지 않게 나온 경우 난감해하는 연구자들이 많다.

 

위의 경우, 집단간 유의한 차이가 있는 것으로 나타났다(p=.024<.05).

그러나, Scheffe의 사후분석에서는 유의하지 않게 나온 경우이다.

 

이때, 연구자들이 먼저 생각하는 것은 사후분석 방법을 바꿔서 다시 분석하는 것이다. Duncan 이나 LSD 등의 경우에는 사후분석 결과를 좀 관대하게 보는 경향이 있어, 대부분 연구자들이 원하는 결과를 얻어준다.

하지만 이러한 방법(사후분석을 바꾸는 방법)은 사실 매우 위험한 작업이다. 한 논문(or 보고서)에서는 일관성을 유지해야 한다. 중간에 분석 방법 등을 바꿀 경우에는 그에 타당한 이유가 있어야 한다. 문제는 사후분석 종류를 바꾸는 타당한 근거를 제시하는 것은 거의 불가능에 가깝다. 따라서 전체적으로 Scheffe의 사후분석을 했다면 이 경우에도 Scheffe 의 사후분석을 해야 한다.

 

그러면 어떻게 제시를 하고, 해석을 해야 하는지 고민해야 한다.

 

가장 정확한 답변은 있는 그대로 기술하는 것이다. 즉, ANOVA 에서는 유의했지만, Scheffe 의 사후분석에서는 유의하지 않게 나온 것을 표에 그대로 기재하는 것이다.

 

ANOVA 에서 주 분석 결과는 ANOVA 이다. 따라서 ANOVA 결과를 먼저 제시하여야 하는 것이며, 사후분석은 추가적인 분석이므로 ANOVA 에서 유의하지 않았다면 사후분석 결과를 볼 필요 자체가 없는 것이고, ANOVA 에서 유의했는데, 사후분석에서 유의하지 않았다면 집단간 유의한 것으로 해석을 하면 된다.

 

ph3.jpg

 

위와 같이 기술할 수 있다.

즉, ANOVA 와 사후분석에서 모두 유의하게 나온 비용의 경우에는 그대로 설명을 하고, ANOVA 에서는 유의하지만 사후분석에서는 유의하지 않게 나타나 기간은 ANOVA 결과에서는 유의하다고 설명하는 것이다.

 

이와 같이 기술하는 것이 가장 보편 타당하다.

다만, 연구자의 입장에서는 기간에 다른 비재무적 성과는 유의한 차이가 있는데(p=.040<.05), 사후분석에서 유의하지 않아서 그 차이를 설명하지 못하는 것에 대해 아쉬울 수 있다. 이때 가능한 방법으로 ANOVA 결과 유의하다는 것은 집단간에 어느 곳에서인가 유의한 차이가 있다는 것이다. 다만 사후분석에서 유의하지 않게 나왔을 뿐이다. 이것은 다시 생각하면 기간에서 평균이 가장 높은 1~20 일의 2.58과 가장 낮은 41~60일의 1.73 간에는 차이가 있다. 따라서 다음과 같은 해석도 무방하다.

 

기간에 따른 비재무적 성과는 유의한 차이가 있다(p=.040<.05). 기간이 20일 이하의 비재무적 성과는 2.68로 41~60일의 1.73 보다 높게 나타났다.

 

여기서 주의 사항은 Scheffe 의 사후분석이라는 것을 쓰면 안된다는 것이다. 이 말은 Scheffe 에서 유의한 경우에만 사용 가능하다.

- 이일현 박사님이 쓰신글입니다



:


연세대학교 예방의학교실 강대룡 교수님이 정리하신 보건/의학통계에 대한 내용입니다 참고자료로 올립니다.

문의사항은 chsoo.lee@gmail.com 으로 해주세요

--------------------------------------------------

보건․의학의 주 연구대상은 인간이다. 사람을 대상으로 하므로서 발생할 수 있는 윤리적인 문제들이 실제 이 분야의 연구를 수행하는데 있어 가장 어려운 점이다. 이 문제는 연구설계와 밀접한 관련성이 있다. 특히 연구설계가 관찰연구(대분분의 보건․의학연구)인 경우는 인과관계를 논하는데 있어 상당히 제한적이다. 직접적으로는 연구설계의 한계로도 생각할 수 있고 또한 연구의 결과를 왜곡시킬 수 있는 혼란변수를 통제하지 못하였거나 주요한 독립변수를 누락하였기 때문에 인과관계를 잘못 해석할 수 있다.

 

연구자의 성급함이 연구결과를 왜곡시킬 수 있다. 연구자는 빠른 시간내에 자신의 가설을 입증하려고 서두르는 경향이 있고 특히 연구설계와 분석단계에서 이러한 경향이 강하게 나타난다. 전우택 교수의 사회의학연구방법론의 서론 중「농부와 노인」이 이를 잘 설명해주고 있다. 또한 “인간을 대상으로 하는 동일 주제의 연구결과가 다양할 수 있다”는 사실이 연구전체를 왜곡시킬 수 있다. 즉, 연구자로 하여금 이런 결과도 저런 결과도 괜찮다는 생각이 심도없는 고찰없이 연구를 진행하는 하나의 요인이 될 수 있다. (물론 특정 결과를 얻기 위해 연구자의 의도가 들어가서는 더욱 않되지만!)

 

연구자가 수집한 최초의 자료는 여러 가지 잡음들이 뒤섞여 있다. 보건학 자료는 인구집단에서 자료를 수집하여 연구하는 경우가 많다. 수집한 자료에는 이상점(outlier)과 결측치(missing data) 등 여러 가지 형태의 잡음들이 존재한다. 극단적으로 말하면 잡음이 없는 자료란 없다고 생각하면 된다. 이러한 잡음을 제거 또는 수정하지 않고 분석하여 얻어진 결과는 당연히 믿을 수 없다.

 

자료분석에서 적합한 통계적 방법을 적용하지 않아 발생하는 문제점을 생각할 수 있다. 통계적 분석은 아무리 쉬운 방법일지라도 그 방법이 가지고 있는 가정(assumption)이 있다. 따라서 실제 연구자료가 가정에 맞지 않는 경우는 그 연구의 결과에 치우침이 존재할 가능성이 커진다. 단 몇시간의 기계적인 분석을 통하여 얻어진 결과를 과연 신뢰할 수 있을까? 이러한 연구의 결과가 사람의 생명과 주요한 보건문제에 직접적으로 관여하는 것이라면?

  

2. 수집한 자료를 어떻게 간결하게 표현할까? (예제자료1)

 

연구목적: 주 연구가설은 한국인 남자에서 지질섭취와 흡연이 Ischemic heart disease (IHD)와 관련성이

있는가를 알아보고자 한다.

연구설계: 환자-대조군 연구

환자군은 세브란스병원에서 1995년부터 1996년 기간동안 처음으로 발생한 acute myocardial

infarction 또는 angina pectoris로 진단된 환자이며, 대조군은 동일한 시기에 세브란스

정형외과와 안과를 내원한 사람이다.

Variable

Category or Unit

age

years

education

years

smoking

1=current, 2=ex-smoker, 3=non-smoker

chddx

1=IHD, 2=control

bmi

body mass index (kg/m2)

energy

kcal

h_hist

hypertension history (1=yes, 2=unknown, 3=no)

dprotein

protern intake (% of energy)

dlipid

total fat intake (% of energy)

dcho

carbohydrate intake (% of energy)

dpufa

polyunsaturated fatty acid (% of energy)

dsfa

saturated fatty acid (% of energy)

dmufa

monounsaturated fatty acid (% of energy)

  [예제자료1]에 대한 연구대상자의 일반적 특성 중 연령과 교육수준에 대한 분포를 다음과 같은 표로 제시할 수 있다.

 

Table 2-1. Distributions of age and education for study population                unit : person (%)

Variable

Cases (n=108)

Controls (n=142)

age

 

 

<50

38 (35.2)

52 (36.6)

50-59

37 (34.3)

49 (34.5)

≥60

33 (30.6)

41 (28.9)

education

 

 

≤9

28 (25.9)

56 (39.4)

10-12

44 (40.7)

45 (31.7)

≥13

36 (33.3)

41 (28.9)

위의 표를 통해 환자군과 대조군의 연령분포와 교육수준이 각각 어떠한지를 알 수가 있다. 연령은 두 집단간에 거의 차이가 없다 (실제 연구설계에서 환자군과 대조군은 연령에 대해 빈도짝짓기를 하였기 때문임)는 것을 알 수 있고 교육수준은 환자군에서 조금 더 높은 경향이 있음을 알 수 있다. (⇨유의한 차이가 있는지는 통계적 검정을 통해서 확인하자!)

[예제자료1]에서 관심있는 영양소 섭취의 분포를 대표값과 산포도를 통해 어떻게 제시하는지 살펴보자.

  Table 2-2. Mean intakes (SDs) of energy from specific nutrients

Variables (unit)

Cases (n=108)

Controls (n=142)

energy (kcal)

2359.8 (730.8)

2223.4 (632.6)

carbohydrate (g)

357.5 (109.6)

354.5 (101.3)

protein (g)

85.1 ( 29.6)

78.0 ( 28.0)

total fat (g)

60.3 ( 28.5)

50.2 ( 22.3)

SDs : standard deviations

 

위의 표를 통해 총열량 섭취는 환자군이 대조군보다 평균적으로 136kcal 더 많이 섭취하며 또한 총지방산 섭취도 10g 더 많이 섭취하고 있다. 전체적으로 평균에 비해 표준편차가 매우 크다는 것을 알 수 있다. 이와 같은 경우는 다음과 같은 자료의 형태를 생각할 수 있다.

☞ 이상점(outlier)이 있는가?

☞ 분포가 오른쪽으로 치우쳐 있는 형태인가?

  위의 자료에서 총 열량섭취나 총 지방산 섭취에 대해 히스토그램을 그려보면 분포가 오른쪽으로 치우쳐 있으며 정규분포와는 다른 형태임을 알 수 있다. 이런 경우 대표값과 산포도의 측도로는 중위수와 사분위수 범위가 더 합리적일 수 있다.

 

[종합정리 2-1] 본격적인 연구가설을 분석하기 전에 반드시 자료를 확인하자! 자료를 확인할 수 있는 절차를 미리

생각해 둘 필요가 있다. 확인된 자료에서 기술통계량을 구하고 나의 연구대상자들의 일반적 특성 또는 주요 측정변수의 분포를 제시하는 것이 첫 번째 할 일이다.

 

이상의 내용에 대한 기술통계량의 종류들을 나열하면 다음과 같다.

[종합정리 2-2] 자료의 요약 및 정리

자료를 모으고 정리하여 방대한 자료의 특성을 한눈에 알기 쉽게 정리하는

것을 말한다.

기술통계량 (descriptive statistics)

표나 그림을 이용한 자료의 정리

대표값 (central tendency and location)

․ 산술평균 (arithmetric mean)

․ 중위수 (median)

․ 최빈수 (mode)

․ 기하평균 (geometric mean)

․ 가중평균 (weighted mean)

 

산포도 (variability)

․ 표준편차 (standard deviation)

․ 사분위수 범위 (interquartile range)

․ 범위 (range)

․ 변이계수 (coefficient of variation)

․ 히스토그램 (histogram)

․ 돗수분포표 (frequency table)

․ 막대그래프 (bar graph)

․ 원 그래프 (pie raph)

․ 산점도 (scatter plot)

․ 줄기-잎 그림 (stem-leaf diagram)

․ 상자그림 (box plot)

이제까지 자료를 요약․정리하는 방법에 대해 알아보았다. 지금부터는 연구설계에서 궁금함을 가지고 설정한 연구가설을 통계적 가설검정을 통해 의사결정을 내리는 방법을 알아보도록 하자!

  3. 단순분석을 일차적으로 먼저 시행해 보자!

  여기서, “단순분석”이란 의미는 두 변수만의 관련성에 대한 분석으로 생각하자. 앞의 [예제자료 1]에서 주 연구가설은 다음과 같다.

 

[주 연구가설] 지방산 섭취가 환자군과 대조군간에 차이가 있는가?

(또는 총 열량에 대한 지방산 섭취 비율이 차이가 있는가?)

 

이제부터 자료의 형태에 따라 어떤 통계적 방법을 적용하면 되는지 알아보자. 변수는 크게 측정수준에 따라 크게 연속형 변수와 범주형 변수로 나눌 수 있고, 설명관계의 방향성에 따라 종속변수 (또는 반응변수)와 독립변수 (또는 설명변수)로 나눌 수 있다. 그리고 측정자료에 독립성이 있는지의 여부도 통계적 방법을 선택하는데 주요한 기준이 된다.

 

[사례①] “경구피임약을 복용하면 혈압이 증가한다”는 가설을 검정하기 위해 경구피임약을 복용하는 100명과

복용하지 않은 100명의 수축기혈압을 비교하고자 한다.

[사례②] “경구피임약을 복용하면 혈압이 증가한다”는 가설을 검정하기 위해 경구피임약을 복용하지 않는

100명을 대상으로 수축기혈압을 측정하고 일정기간 경구피임약을 복용하게 한 후 다시 혈압을

측정하여 복용전과 후의 혈압을 비교하고자 한다.

[사례③] “흡연력에 따라 폐기능에 차이가 있는가”를 알아보기 위해 흡연력을 6개의 집단 (nonsmoker,

passive smoker, non-inhaling smoker, light smoker, moderate smoker, heavy smoker)으로 구분하고

FEF(forced expiratory flow)를 측정하여 6개 집단간의 평균을 비교하고자 한다.

[사례④] "약품 A와 B의 복용에 따른 부작용에 차이가 있는가“를 알아보기 위해 1,000명을 대상으로 500명씩 A

와 B를 각각 일정기간 동안 복용하게 한 후 부작용의 유무를 조사하여 부작용의 비율에 차이가 있는가

를 비교하고자 한다.

[사례⑤] “열량섭취가 많으면 비만할까”를 알아보기 위하여 200명의 성인을 대상으로 식이섭취를 통한

총 열량섭취와 비만도()를 조사하여 그 관련성을 알아보았다.

 

[종합정리 3-1] 측정한 변수를 종속변수와 독립변수, 측정수준에 따라 범주형과 연속형, 그리고 자료의 독립성 여부에 따라 t-검정 (독립된 두 집단, 짝을 이룬 두 집단), -검정, 일요인 분산분석, (피어슨) 상관분석, 단순회귀분석 등을 구분하여 적용할 수 있다. 그리고 모집단의 분포를 가정할 수 없는 경우에는 비모수적 방법으로 윌콕슨 순위합 검정, 윌콕슨 부호순위 검정, 크루스칼-왈리스 검정, 스피어맨 상관분석 등을 각각 적용할 수 있다. 자료의 특성에 맞게 검정방법을 선택하고 제시된 유의확률을 이용하여 귀무가설과 대립가설 중 하나를 선택하면 된다.

 

※ 모수적 방법과 비모수적 방법의 적용

모수적 방법이란 표본이 추출된 모집단의 확률분포에 대하여 특정분포를 가정하고 그 가정된 분포의 모수(parameter)에 대한 검정문제를 생각하는 방법이다. 많이 사용하는 대표적인 분포는 정규분포이다. 모집단의 분포를 가정하므로서 검정통계량의 분포를 알 수가 있다. 그러나 정규분포를 따르지 않거나 특정분포를 가정할 수 없는 경우, 특히 표본의 수가 작은 경우는 순위(rank)에 기초한 비모수적(nonparametric) 방법을 사용하는 것이 좋다.

 

[예제자료1]에서 주 연구가설은 “총 열량에 대한 지방산섭취 비율(dlipid, dsfa, dpufa, dmufa)의 평균이 환자군과 대조군간에 차이가 있는가?” 이다 (종속변수와 독립변수의 방향관계를 생각하면 “지방산섭취 비율이 증가하면 환자 (IHD)가 될 위험이 증가하는가?” 이다). 자료구조를 보면 환자군과 대조군의 평균을 비교하는 문제이므로 독립된 두 집단의 t-검정 (또는 윌콕슨 순위합 검정)을 사용하면 된다.

  Table 3-1. Mean (SDs) intake of energy from specific nutrients

Variables (unit)

Cases (n=108)

Controls (n=142)

t-value

total fat (% of energy)

22.4 (5.9)

19.9 (5.2)

3.7***

PUFAs (% of energy)

4.4 (1.3)

4.1 (1.2)

2.2*

MUFAs (% of energy)

7.5 (2.9)

6.4 (2.5)

3.1**

SFAs (% of energy)

6.8 (2.5)

5.9 (2.2)

3.1**

SDs : standard deviations ; PUFAs : polyunsaturated fatty acids ;

MUFAs : monounsaturated fatty acids ; SFAs : saturated fatty acids

*: p < 0.05, ** : p <0.01, *** : p < 0.001

 

총 열량에 대한 total fat, PUFAs, MUFAs, 그리고 SFAs 모두 환자군이 대조군에 비해 통계학적으로 유의하게 많이 섭취하고 있다.

 

만약 위의 분석을 윌콕슨 순위합 검정을 하였다면, 산술평균 대신 중위수, 표준편차 대신 사분위수 범위를 적고 윌콕슨 순위합 검정의 통계량 값 또는 p-값을 적으면 된다.

 

 

환자군과 대조군에 간에 다른 특성의 차이가 있는가? 비만한 사람이 환자군에 많은가? 또한 비만도와 지방산 섭취가 관련성이 있다면?

Table 3-2. Distributions of smoking status, history of hypertension

and history of hyperlipidemia in cases and controls

Variable

Cases (n=108)

Controls (n=142)

-value

body mass index

 

 

 

<25

54 (50.0)

97 (68.3)

7.8*

≥25

54 (50.0)

45 (31.7)

 

smoking status

 

 

 

>1 pack/d

28 (25.9)

10 ( 7.0)

21.6**

≤1 pack/d

42 (38.9)

59 (41.6)

 

exsmoker

28 (25.9)

40 (28.2)

 

never smoked

10 ( 9.3)

33 (23.2)

 

history of hypertension

 

 

 

yes

41 (38.0)

20 (14.1)

19.4**

no

59 (54.6)

103 (72.5)

 

unknown

8 ( 7.4)

19 (13.4)

 

history of hyperlipidemia

 

 

 

yes

29 (26.8)

18 (12.7)

9.3*

no

42 (38.9)

76 (53.5)

 

unknown

37 (34.3)

48 (33.8)

 

unit : person (%)

* : p < 0.01, ** : p < 0.001

 

 

환자군에서 비만한 사람의 비율, 흡연자의 비율 (특히 하루 1갑 이상), 고혈압과 고지혈증에 대한 과거력이 있는 사람의 비율이 대조군에 비해 통계학적으로 유의하게 높았다.

   

[의문] 주 연구가설을 밝히는데 위의 비만도, 흡연력, 고혈압과 고지혈증 등의 변수의 영향을 통제하지 않으면

어떤 문제가 있는가?

  

이상의 내용에 대한 검정방법들을 나열하면 다음과 같다.

 

[종합정리 3-2] 간단한 통계검정

통계적 가설을 설정하고, 연구자의 가설이 지지되는지 일차적으로

단순한 분석을 시행하자!

통계 검정 방법들

분류 기준 및 검토 사항

 

종속변수가 연속형인 경우

 

모수적 방법

․ t-검정 (독립 또는 짝을 이룬 자료)

․ 분산분석(ANOVA)

․ 피어슨 상관분석

․ 단순회귀분석

비모수적 방법

․ 윌콕슨 검정(독립 또는 짝을 이룬 자료)

․ 크루스칼 왈리스

․ 스피어맨 상관분석

․ 단순회귀분석

 

 

종속변수가 범주형인 경우

 

․ 카이제곱 검정

․ Fisher의 정확도 검정(exact test)

 

․ 종속변수의 측정수준은 어떤가?

․ 종속변수가 연속형인 경우 정규분포를 가정 할 수 있는가?

․ 집단간 평균을 비교하고자 하는가?

․ 비교하고자 하는 집단은 몇 개인가?

․ 자료의 독립성을 가정할 수 있는가?

․ 범주형 자료분석에서 범주의 표본수가 너무 적지 않는가?

 

 

 

 

 

  4. 여러 요인의 영향을 동시에 분석하자 - 회귀분석적 방법

[통계 4-1] 여러 요인의 영향을 동시에 분석 또는 혼란변수를 통제하기 위해서는 회귀분석적 방법을 많이 사용한다. 회귀분석 방법은 종속변수와 독립변수들 간의 함수모형을 설정하고 (회귀모형) 그 모형을 통해 관련성을 밝히는 방법이다. 종속변수가 연속형인 경우는 다중 회귀분석 (multiple regression), 범주형인 경우는 다중 로지스틱 회귀분석 (logistic regression)을 많이 사용한다.

 

[예제자료2] 납제련소 부근에 사는 144명의 어린이들을 대상으로 혈중농도를 측정하여 위험군()과 정상군으로 분류하고 신경학적인 기능에 차이가 있는가를 알아보고자 10초간 finger-wrist tab (MaxFWT)을 측정하고 연령을 포함하여 이와 관련 있는 여러 가지 요인들을 조사하였다.

  Group(1=Exposed, 2=Normal), Sex(1=Male, 2=Female), Age(Years)

 

[의문 4-1] 연령과 성(sex)의 영향을 통제한 후 위험군과 정상군 두 군간에 MaxFWT의 차이가 있는가?

[통계 4-2] 다중 회귀분석모형

 

․ 회귀모형 :

 

․ 회귀계수의 의미 : 다른 요인을 통제하였을 때,

: Exposed 집단에 비해 Normal 집단이 MaxFWT가 평균적으로 만큼 높다.

: Male에 비해 Female 집단이 MaxFWT가 평균적으로 만큼 높다.

: 연령이 1살 증가하면 MaxFWT가 평균적으로 만큼 증가한다.

  위의 회귀모형을 분석하였을 때 얻어진 결과는 다음과 같다.

 

Table 4-1. Multiple regression model comparing mean MAXFWT

between exposed and normal after controlling for age and sex

Variable

Estimate

Standard error

p-value

Intercept

34.1

3.1

0.0001

group

-5.1

1.6

0.0014

age

2.4

0.2

0.0001

sex

-2.4

1.5

0.1172

 

[분석결과 해석] 납에 노출된 Exposed 집단이 Normal 집단에 비해 성, 연령을 통제하였을 때 신경학적인 기능인 MaxFWT의 평균이 5.1회 정도 통계학적으로 유의하게 낮다. 또한 연령이 1세 증가하면 평균적으로 MaxFWT는 2.4회 유의하게 증가하며, 남자에 비해 여자가 2.4회 정도 낮으나 통계학적으로 유의하지는 않다.

  [예제자료1]에 적합한 회귀분석인 로지스틱 회귀분석에 대해 알아보자!

 

[의문 4-2] 비만도와 흡연력, 그리고 총 열량의 영향을 통제한 후 total fat intake가 증가할 때 IHD의 위험이

증가하는가?

[통계 4-2] 다중 로지스틱 회귀분석모형

 

․ 회귀모형 :

․ 회귀계수의 의미 (odds ratio로 해석) : 다른 요인(x)을 통제하였을 때,

: 총열량에 대한 total fat이 1% 증가하면 Ischemic Heart Disease(IHD)에 걸릴 위험이 증가한다.

 

의 [예제자료1]에서 비만도, 흡연력, 그리고 총열량을 통제하였을 때의 로지스틱 회귀분석의 결과는 다음과 같다.

  Table 4-2. Adjusted odds ratios and 95% CIs of developing IHD for selected risk factors

from logistic regression analysis

Variable

Odds ratio

95% Confidence Interval

total fat (1% of energy intake)

1.08

1.02 - 1.14

energy (Kcal)

1.01

1.00 - 1.02

body mass index

 

 

≥25

2.26

1.27 - 4.01

<25

1.00

-

smoking status

 

 

>1 pack/d

10.51

3.61 - 30.56

≤1 pack/d

2.40

1.03 - 5.62

exsmoker

2.67

1.09 - 6.55

never smoker

1.00

-

 

☞ [분석결과 해석] 총 열량, 비만도, 흡연력의 영향을 통제하였을 때 total fat이 1% 증가하면 IHD에 걸릴 위험이 1.08배 증가한다. 그리고 다른 요인의 영향을 통제하였을 때 BMI가 25미만인 군에 비해 이상인 사람이 IHD에 걸릴 위험이 2.26배 증가하고, never smoker에 비해 하루에 한갑 이상 피우는 사람은 10.51배, 1갑 미만은 2.4배, 그리고 금연자는 2.67배 IHD에 걸릴 위험이 증가한다.

 

이상의 회귀분석 내용을 정리하면 다음과 같다.

 

[종합정리 4-1] 회귀분석 방법

자료의 특성에 맞는 회귀분석을 시행하므로서 여러 독립변수들의 영향을 동시에 알아보고 서로의 영향을 통제한 후의 독립적인 관련성을 알아볼 수 있다.

보건학에서 많이 사용하는

회귀분석의 종류

분류 기준 및 검토 사항

다중 회귀분석

 

로지스틱 회귀분석

 

조건부 로지스틱 회귀분석

 

포아송 회귀분석

 

Cox's의 비례위험 회귀분석

․ 종속변수의 측정수준은 어떤가?

․ 독립변수의 측정수준은 어떤가?

===> 독립변수가 범주형이면 가변수 처리를 하였는가?

․ 독립변수들간에는 다중공선성(multicollinearity)의 문제는 없는가?

․ 다중 회귀분석의 기본가정을 검토하였는가?

===> 정규분포성, 선형성, 등분산성, 이상점, 모형의 적합성 등

․ 로지스틱 회귀분석에서 종속변수의 범주의 수는 몇 개인가?

․ 로지스틱 회귀분석에서 대상자가 matching 되어 있는가?

․ 사건 발생에 대한 추적관찰된 시간 (또는 인년(person-years))의 자료인가?

 

[종합정리 4-2] 회귀모형을 구축하는 전략

 

간단한 분석(단일변량분석)을 통해서 변수간의 정보를 파악하자!

․ 단일변량분석을 통해 유의확률이 0.3미만인 독립변수는 위험요인의 가능성이 있다.

․ 독립변수간의 상호작용(영향)을 고찰하자

단일변량분석에서 어느 정도 관련성을 보이는 독립변수(p<0.3(또는 0.2)) 또는

이 연구에서 관심을 갖는 독립변수, 그리고 혼란변수를 모형에 포함하여 자료의 특성에

맞는 회귀분석을 시행하자!

선택한 회귀분석 모형의 기본가정이 만족되는가?

최종적으로 가능한 간단한 모형이면서도 설명력이 높은 모형을 찾도록 노력하자!

Categories of statistical procedures used to assess

the statistical content in the articles

 

자료 성격

권고 통계분석 방법

사례보고, 임상연구, 치료결과분석 등

No statistical methods or

Descriptive study

진단능력평가, 참고치 정하기

Sensitivity, Specificity, ROC curve

짝을 이룬 2군間 평균비교

Paired T-test

Wilcoxon signed rank test*

독립적인 2군間 평균비교

T-test, Z-test

Wilcoxon rank sun test*

Mann-Whitney U-test*

독립적인 3군間 이상 평균비교

(또는 군간비교)

ANOVA (with multiple comparison)

Kruskal-Wallis test*

동일인에 대한 연속변수의 3회 이상 반복측정

Repeated measures of ANOVA, GLM

Friedman test*

2군 또는 3군 이상 빈도비교

Pearson

Mantel-Haenszel trend test (순서형 변수)

Mantel-Haenszel test*

Fisher's Exact test*

동일인에 대한 반복측정 빈도비교

McNemar's test*

두 연속변수간 상관관계 분석

비모수적 변수의 상관관계 분석

 

Pearson's correlation

Spearman's rho*

Kendall's tau*

두 개의 연속변수간 종속관계 분석

Simple linear regression

Multiple regression

Logistic regression

생존율 연구

생존율 비교

Life table,

Kaplan-Meier estimate of survival

Log-rank test, Cox's analysis

역학적 통계량 분석

Incidence, Prevalence,

Risk ratio, Odds ratio

* : 비모수적 방법

Source : Emerson JD, Colditz GA, Use of Statistical Analysis in The New England Journal of Medicine.

N Engl J Med 1983;309:709-13.



:

정말로 정보화시대가 맞기는 맞습니다.. 하긴 작금의 시대에 정보화를 운운하는 자체가 이상하게 들릴지 모르지만요..

통계를 이렇게 도와드리다보니.. 논문통계 외에도 일반 통계도 문의를 주시는 분이 꽤 되시네요..

물론 모든것을 소화할수 있을만큼의 능력은 없지만 아직까지는  진행이 잘되어가네요..

어제 어떤분이 메일로  문의를 했더랍니다..

분석만 돌려주시면  해석은 본인이 하시겠다고... 그래서 저는 거꾸로 말씀을 드렸지요...

분석은 책보고 돌려보시고... 해석을 도움을 받으시라고... 같은 분석을 가지고 해석하는게 많이 달라질수 있거든요.. 수치를 잘못읽는게 아니라.. 읽어야 할수치.. 필요한 수치.. 등등을 통해서.. 시사점을 도출해야 하는데.. 그작업이 제 경험으로는  분석보다 어렵지 않나 합니다..

아래 그림을 보세요...


보시게 되면 이는 표를 읽는것입니다.. 읽는것도 정말 중요합니다.. 각각의 값이 뭘 의미하는가를 알아야 하니까요.. 하지만 그 값을 통해서  도출해낼수 있는 해석은  정말 심혈을 기울여야 합니다.

대충 분석을 통해서... 차이가 있다없다... 영향을 미친다 안미친다는 큰 의미가 없습니다..

있던 없던... 미치던 안미치던 간에.. 왜 그러한 결과가 나왔는지를 고심해봐야 하는것입니다.

통계작업은 공장작업이 아닙니다.. 적당한 가격에 뚝 맡기고.. 결과 보내주고 그런 작업이 아닙니다...

서로의 커뮤니케이션이 많아 질수록 좋은 결과가 나오는것은 당연합니다...

항상 강조하는 바입니다만... 저는 많은 분을 돕지는 못합니다... 돕는다고 하니까 무료로 도와주는것으로 오해하시는 분들도 계신데.. 합당한 금액을 저 또한 요청을 드립니다만... 정말 좋은 결과가 나올수 있도록 제 능력한에서 도와드리고 있습니다..

온라인에도 정이라는게 있습니다...  서로가 느낄수 있는 情 말입니다.....

이와 관련한 어떠한 사항이라도 문의사항 있으시면 메일주세요...   chsoo.lee@gmail.com 


:

얼마전 모 회사 에서 리서치 의뢰가 한건 들어왔습니다..

마케팅 전문 대행사 인데 이럭저럭 이야기를 해보니 예전에 저한테 논문통계를 의뢰 하셨었던 분이셨습니다.. 뭐 통계를 진행하면서 그분이 뭐를 하시는 분인지까지는 몰라도 되지만.. 간혹 이렇게 고위직(?) 분들이 계신것 같습니다.

반갑기도 하고 마음이 무겁기도 하고 그렇더군요.. 같은 통계인데 왜 너 무겁게 느껴지고 막 뭔지 모를 책임감이 넘쳐 나고... 사실.. 일반통계보다 훨씬 수월한 작업인데도 말입니다..

그렇게 큰 금액의 작업도 아니었긴 하지만 나름 많이 뿌듯했습니다.. 그쪽 회사 대표님도 만족해하셨구요..
(제 생각인가^^)


마케팅 회사에서 마케팅에 리서치는 정말 너무나 중요하다는 것 이번기회를 통해서 또 깨달았습니다. 마케팅을 머리로 나오는게 아니라 발로 나오는거라는 그 대표님의 이야기 또한 제가 이 일을 하는데 큰  이정표를  마련해주셨습니다.

배운것도 많아서 가격은 정말 저렴하게 해드렸는데.. 이게 참.. 논문하실때는 그리 깎으시더니.. 이거는 그냥 다 받으라고 챙겨주시니 참.. 이래서 세상이 살만한것 같습니다..

그러고는 소개시켜주신 몇건의 일을 더 하고 나서.. 나름 이글을 올려 봅니다..

우선.. 작은일, 큰일 관계없이 무조건 미팅을 가지도록 하겠습니다..저는 서울에 거주를 하는데, 지방이시라면 너무 장거리가 아니라면 출장미팅으로 통해서라도 가지는게 좋을듯 합니다.. 전화상이나 이메일상으로는 업무적인 커뮤니케이션에 한계가 있다는거 많이 느끼고 있습니다..

잘 아시겠지만.. 이 마케팅 통계나 리서치에 있어서 조사 설계가 명확히 이루어 지지 않으면 많은 고생을 하고도 얻고자 하는 답을 못내는 경우가 많습니다..

제가 도움이 될수 있는 1인이 되도록 하겠습니다..

어떠한내용이든 좋습니다.  자세한 문의는 우선 메일을 이용해 주세요.. 
chsoo.lee@gmail.com

비개인 목요일 오후에... 드립니다..

아래 그림은 제가 자주 애용하는 미국 마케팅 사이트 입니다..~~ 제 해당부분은 Selecting STAT 이겠지요 ~^^



:


벌써 몇년전 일인지요.. 조금 더 있으면 강산이 변하는 시점에 다가오네요...

선배들이 술 사주겠다고 통계 도와달라고 해서 재미 붙이다 보니.. 아 나도 이런쪽에  재능이 있구나 하는생각에 재미를 붙였던 통계.. 기초 통계를 시작으로 해서.. 고등학교때도 관심이 없었던 방정식까지 공부를 하고 보니..

"나도  공부를 못했던 것은 아니었구나 " 하는 생각이 들더랍니다..

그리도 사회생활 언 7년을 넘어선 시점에서 통계는 아직도 저에게 유용한 수단이자 도구입니다..^^

이번에 책을 다 정리하면서.. 문득 메모장에 예전에 AMOS 공부하면서 틈틈이 메모 적어놓은것 있어서 저같이 답답해 하셨던 분들한테 도움이 될까 하고 그래도 옮겨 봅니다...^^

-------------------

오차항

일상적으로 오차항은 독립변수의 왼쪽
종속변수는 오른쪽에 위치
측정변수 위에 마우스 놓고, 오차하이 자리를 잡을때까지 계속해서 마우스를 누른다. 그럼 왼쪽에 위치하게 된다.

오차항 문구 특별히 신경 쓸필요 없음 (amos)

잠재요인 리그레션 웨이트 = 1

CFA 기본틀 그리고 = 관측변수 3개를 가진 하나의 측정모형을 만듦

좌클릭 상태에서 드래그로 타원 그리기-> 마우스 포인트를 타원에 놓고 마우스 좌클릭 세번

측정오차의 변수명은 plugin기능을 활용하여 자동적을 한꺼번에 입력

(plugins) -> (name unobserved variables) 클릭

손가락 클릭-> 잠재변수 다섯개 좌클릭 -> (plugins-draw covariances) 클릭

EFA를 CFA로 다시 사용한 예 DABHOLKAR AND BAGOZZI (2002) .. 그렇지만 연구자들의 입장에서는 매우 조심스러운 입장이다.

FILE -> DATA FILES -> 해당 파일 클릭

개별로 분석하고 -> 전체로 분석하고...

----------------------------------------

정렬하는 방법은 Ctrl Key 누르고 수직 / 수평으로 갈것

가로 세로 바꾸기 -> Edit -> Space -> Vertically

오차항의 위치변경은 (내생변수)에서 클릭, 클릭 할것

연구모형을 가로 세로 바꾸기는 View -> Interface -> Properties -> page layout -> Orientation -> Landscape

외생변수의 공분산 자동으로 하기는 잠재요인지정 -> menu -> plgins -> draw covariances

경로모형을 시트내에 맞추게 하기 위해서는 네모칸에 화살표 각 방향으로 간것..

-------------------------------

5개의 잠재변수를 가지고 확인요인분석 실시 후 마지막 두개의 판별타당성에 문제가 있을경우

둘 중 하나 혹은 둘다를 제거하는 방법을 선택.

 

적합도 지수를 고려하여 더 좋은것을 선택할것

 

선행연구 대부분이 3-4개의 관측변수 설정

 

수정지수는 카이제곱값이 얼마나 작아지는가에 대한 값이다.

 

RMR < 0.05  GFI > 0.90 

 

AGFI >0.90 & GFI > AGFI 가 되어야 함

 

RMSEA  <0.05  /  TLI, NFI, CFI  >0.09

 

NOTE FOR MODEL에 오류가 생길경우 분석결과 신뢰가 어려우므로 오류를 수정해야 한다. 가장 많은 오류는 음오차분산이다

분산은 제곱의 개념이기 때문에 음수가 나올수 없다. 만약 X가 음오차 분산이라면 다음과 같은 메시지가 뜬다.

 

해결방법은 해당 변수에 마우스 우클릭 -> OBJECT properties-> parameter탭의 variances에 0.0005를 입력해주면 된다.

 

그러나 음오차 수정을 하기에 앞서 모형을 수정해봐라..

6

그 다음 model fit을 확인 카이제곱 RMSEA GFI  AGFI  NFI  RFI  IFI  TLI  CFI  를 본다

 

지수 체크 후 잠재변수와 관측변수간의 상관관계인 윕실런 유의성을 체크 /비표준 웹실런과 C.R은 양수가 되어야 한다 (유의해야 함)

 

준거변수 맞추기..

 

수정

 

-----------

 

amos 아웃풋 창에서 여러가지 지수가 제시된다,

 

적합도 지수 중 카이제곱 값을 보면 카이제곱=19.576 d.f=2  p=0.000 으로 나타났다. 이는 카이제곱의 p값이 0.05보다 커야 바람직하다는 기준치를

충족시키지 못하고 있다. 그러나 적합도 지수 중 카이제곱은 표본의 크기가 클 경우 기준치를 충족시키기는 어렵다는 점을 고려할때 큰 문제가 되지 않는다

다른 적합도 지수인 RMR은 0.038로 나타나 기준치를 충족시켰으며 GFI도 .960으로 나타나 기준치를 충족시켰다.  이러한 내용을 고려할때 본

잠재요인의 측정 적합도 지수는 수용할만하다고 볼수 있겠다.

 

적합도 지수가 수용 가능하며 요인부하량을 점검해야 한다. 이는 통계적으로 유의해야 하는데 만약 유의적이지 못하면 그 항목은 제거해야 한다.

REGRESSION WEIGHTS가 요인부하량이다. .

 

 

 

--------------------------------

 

regression weights (인과계수)에서 c.r값은 spss 에서 언급하는 t값과 동일한 의미이다. 그러므로 +- 1.96보다 클때는 그  의미가 있는것이다

 

C.R값은 인과계수를 표준오차로 나눈 값이다

 

표준화된 인과계수는 절대치의 대소나 부호를 보면서 인과관계를 파악한다.

 

VARIANCES 에서는 각 잠재요인과 측정변수의 분산 값을  보여준다 ESTIMATES 값이 마이너스로 나오면 안된다. 이럴경우 HEYWOOD CASE라 한다.

 

이 케이스가 발생하였다면, SMC 값과 적합도 검정결과를 파악하는 것은 무의미 하다. 제일먼저 처리를 해야 한다.

 

1) 헤이우드 케이스를 제거하던지 2) 아니면 변수를 그대로 사용하기 위해서는 일반적으로 오차항을 0.005와 같이 아주 작은 값으로 고정시켜야 한다. 오차분석을 0.005로

제한하면 오차분산이 마이너스로 나타나지 않는다.  오차분산을 0.005로 고정시키는 이유는 적재치를1보다 작은  값으로 하기 위해서이다.

 

--------------------

 

CMIN/DF -> 일반적으로 2이하이면 모델이 적합하다고 한다.

 

 

 



: