분산분석 ANOVA 하는 방법
통계분석 2009. 10. 5. 16:57 |요즘들어 spss 분석방법 문의하시는 분들이 많아서요... 밥벌이가 안좋네요...^^ 그래도 본인이 하시는게 가장 좋은 방법입니다..
참고하시고 문의사항 있으시면 메일주세요 chsoo.lee@gmail.com 입니다.
데이터 (data)
어떤 형태에 의하여 정보를 모아놓은 것
○ 모집단
파악하고자 하는 전체
○ 표본
전체를 파악하기 위하여 추출한 일부분
○ 케이스 (=개체, 관찰개체, 사례)
관찰하고자 하는 대상 하나하나
○ 분석단위
분석의 대상이 되는 단위
(ex) 남편, 부인, 아이를 대상으로 가족중 찬성하는 비율조사라면
남편, 부인, 아이는 각각의 케이스가 되며 가족은 분석단위가 됨
○ 변수
“명목변수→서열변수→등간변수→비율변수” 로 갈수록 데이터가 자세함
① 측정 수준에 의한 분류
- 명목변수 : 특성의 구분만 가능 (혈액형, 주소, 이름)
- 서열변수 : 대상의 우열이나 크고 작음 존재 (초등,중등,고등,대학)
- 등간변수 : 우열 존재, 숫자간 차이가 일정한 의미도 존재 (온도)
- 비율변수 : 변수간 우열의 비교, 차이, 비율의 의미가 존재
(체중 20kg은 10kg보다 두배의 의미와 비율을 갖음)
② 측정 방법에 의한 분류
- 질적변수 : 명목변수
- 양적변수 : 서열변수, 등간변수, 비율변수
③ 연속성 여부에 의한 분류
- 연속형변수
- 이산형변수
④ 부호화된 값의 형태에 따른 분류
- 숫자변수
- 문자변수
- 날짜변수
○ 코드북
원자료를 coding 하기 위하여 매칭되는 값을 기록한 기준 메뉴얼
○ 부호화 (coding)
각 변수의 값을 입력하기 쉽게 숫자 또는 기호로 표시하여 코딩용지에 입력
○ 전산화
부호화된 자료를 컴퓨터에 입력하는 것
시간이나 장소 또는 재화의 특성을 기준으로 해서 측정한 두 개의 경제변수 X와 Y가 일정한 확률관계를 맺고 있을때 X와 Y가 상관관계를 지닌다고 말한다,
X가 그 평균치보다 큰 값을 지닐때 Y도 그 평균치보다 큰 값을 지닐 확률이 0보다 크며 동시에 X가 그 평균치보다 작은 값을 지닐때 Y도 그 평균치보다 작은 값을 지닐확률이 0보다 크다면 X와 Y는 플러스 상관관계를 지닌다.
가령 어떠 학교의 학생들을 대상으로 각자의 키와 몸무게를 조사했을때 키가 남보다 큰 사람이 몸무게도 더 나가는 경우가 그렇지 않은 경우보다 더 많았다면 키와 몸무게 사이에 플러스의 상관관계가 존재한다는 결론이 나온다.
두 변수간의 상관관계의 정도를 상관게수로 측정한다. 상관계수는 +1부터 -1까지의 값을 지니며, 그 절대값이 클수록 상관관계의 정도가 강해진다.
상관계수가 0이면 두 변수간에는 아무런 상관관계도 존재하지 않는다.
두 변수 X와 Y가 있어 X의 존재가 Y가 일어남에 있어 하나의 전제를 이루면 X가 Y의 원인이 된다고 말한다, 이 경우 Y는 X의 결과라고 할수 있다.
경제학에서는 인과관계를 이보다 조금 느슨하게 정의하여 변수 X를 포함시켜 변수 Y를 설명하는 것이 변수 X를 뺀 채 Y를 설명하는 것보다 낮다면 X가 Y를 일으킨다고 말한다. 그러나 X가 Y의 원인이 된다 하더라도 Y라는 결과를 얻는데 반드시 X가 있어야 하는것은 아니다.
예를 들어 통화 공급량을 증가시킨 결과 물가가 상승하였다면, 통화량 증가가 물가상승의 원인이 된다. 그러나 통화량 증가가 없더라도 다릉 요인으로 물가가 상승할수도 있으므로 물가가 상승하기 위해서는 반드시 통화량 증가가 필요한것은 아니다.
chsoo.lee@gmail.com
보통 뭐가높으면 뭐도 높을것이다 라는 분석 많이 하시지요... ^^ 그때 함 참고하세요.. 네이버 지식인이네요..
1)상관분석 실시 - 과연 최종점수와 아이큐가 상관이 있는지 확인해 주기 위해서입니다.
1상관관계가 높을수록 아이큐에의해서 영향을 받는다고 볼 수 있습니다.
자~결과를 보니까 0.816이라는 양의상관관계가 일반적인 유의수준 0.05에서 유의하게 나왔습니다
(p-값 : 0.001), 따라서 아이큐에 어떤 영향을 받았다고 볼 수 도 있겠지요?
물론 상관분석 자체는 독립변수와 종속변수가 없기 때문에 원인과 결과로 해석하면 안되지만
애초에 가설을 세우실때 아이큐가 높으면 최종점수가 높을것이라고 예상하셨기 때문에 그렇게 말해
줄 수 있는 것입니다.
2)분산분석 실시 - 두 집단간 평균비교는 일반적으로 독립t테스트를 실시하지만
분산분석 역시 두 집단간 평균이 같은지 검정 가능 합니다.
뭐 기술통계량은 그냥 보시면 되고요.
분산분석의 경우 두 집단간 분산이 동일하다는 가정이 만족되어야 사용할 수 있습니다.
Levene 검정을 통해 확인 가능한데요, p-값이 일반적인 유의수준 0.05보다 커서
귀가설(두집단의 분산이 동일하다)를 기각 할 수 없습니다. 즉, 분산분석을 실시 할 수 있습니다.
그리고 이제 결과를 해석 해보면 교육방법의 p-값이 0.05보다 작아 귀무가설을 기각하여
교육방법에 따라 평균에 차이가 있음을 알 수 있습니다.
4)공분산분석 실시
공분산분석이란 질문자 분과 같이 집단간의 평균을 비교하는데 종속변수에
영향을 줄 것이라고 생각되는 다른 외부요인을 제거해주고 분산분석을 실시하는 것입니다.
쉽게 말해서 아이큐를 고정시켜주고 집단간의 평균을 비교해는 방식이라고 보시면 됩니다.
자 등분산성 검정까지는 같습니다.
개체간 효과 검정부분을 보시면됩니다.
공변량(아이큐)의 경우 유의한 효과를 나타내고 있지요?하지만 교육방법의 p-값을 보니 0.28로
0.05보다 커서 의미가 없다고 볼 수 있습니다. 즉 아이큐를 고정한 상태에서 교육방법에 따른 평균을
비교했더니, 차이가 없다고 나왔네요.
즉 처음에 분산분석에서 교육방법에 의해서 차이가 있다고 나왔는데, 그것을 아이큐에 의한 결과라고 볼
수 있습니다.