중회귀분석에서는 변수의 선택이 중요하게 대두되는 문제입니다. 즉, 여러개의 독립변수 중 종속변수에 영향을 주는 것도 있으며, 주지 않는 것도 있습니다. 또한 영향을 주더락 그 정도의 차이가 있겠되는 것이죠. 그래서 개발된 것이 변수선택 방법입니다.
변수선택 방법에는 크게 4가지를 생각할 수 있습니다. 모두선택, 전진선택, 후방제거, 단계별 회귀입니다.
1. 모두선택(Enter)
이것은 모든 독립변수를 가지고 모형을 만드는 것입니다. 이 경우 영향을 주지 않는 변수까지 모형에 포함이 되므로 모형이 과대될 수도 있으며, 적절하지 않은 모형이 될 가능성이 가장 높아서, 별로 추천하지 않는 모형입니다. 이 모형에는 모든 변수가 들어갑니다.
2. 전진선택(Forward)
이 방법은 여러개의 독립변수중 영향을 주는 변수들만으로 모형을 만드고자 생각한 방법입니다. 여러개의 독립변수중 영향력이 가장 큰 변수를 선택하여 모형을 구축합니다. 그리고 현재의 모형이 의미있는 것인가를 확인합니다. 만약 현재 모형이 의미가 있다면 2번째로 영향이 큰 변수를 선택하여 2개의 변수로 모형을 선택합니다. 이런 식으로 계속해서, 영향력이 큰 변수부터 하나씩 모형에 포함시켜 가면서 모형을 만듭니다. 결국 마지막에 가서는 전체 변수가 아닌 몇개의 변수만이 모형에 포함이 되게 되는 것입니다.
3. 후방제거(Backward)
이것은 전진선택의 반대되는 방법으로 처음에 모든 변수들로 모형을 만든 다음 그중에서 영향력이 가장 작은 변수를 모형에서 제거하여 모형을 만듭니다. 그리고, 그 다음으로 영향력이 작은 변수를 제거하여 모형을 구축합니다. 이런식으로 계속해서 마지막에 남은 변수들은 모두 영향을 주는 변수들만이 남게 됩니다.
4. 단계별 회귀(Stepwise)
앞의 2, 3의 방법에는 결정적인 단점이 있는데, 그것은 전진선택은 한번 선택된 변수는 모형의 끝까지 남게되고, 후방제거는 한번 제거된 변수는 끝의 모형에서도 선택되지 않게 된다는 것입니다. 이것이 무슨 단점이 될 것인가 생각할 수도 있지만, ANOVA 에서 교호작용과 같은 효과를 생각한다면 단점이 되는 것입니다.
그래서, 단계별 회귀는 기본적으로 전진선택의 방법을 택하고, 부수적으로 후방제거의 방법을 포함시켰습니다. 즉, 영향력이 가장 큰 A 라는 변수만으로 모형을 구축하고, 다시 그다음 영향력이 큰 B를 포함하여 A, B로 모형을 구축하고, 다시 그다음으로 영향력이 큰 C를 포함하여 A,B,C로 모형을 구축합니다. 여기까지는 전진선택과 같은 방법이죠. 그런 다음에 모형에서 A를 빼고 B,C로 모형을 만듭니다.
즉, 위와 같이 한번 선택된 변수라도 뒤의 모형에서는 빠질 수 있으며, 또 빠진 변수도 그 뒤의 모형에서는 선택될 수 있다는 것입니다.
그럼 여기서 한가지 의문이 생기는 것으로 2,3,4의 모형의 경우 선택되어진 변수가 같을까 틀릴까 하는 것입니다. 이것은 같은수도 있고, 틀릴 수도 있습니다. 그럼, 4가지의 변수선택 방법중에서 어는 것이 가장 좋을까 하는 의문이 생깁니다. 일반적으로는 4번째의 단계별 회귀 (Stepwise)가 가장 좋다고 생각하시면 됩니다.