statistics

JiHun

2021-03-31

통계 공부

Page content

회귀 분석이란?

[개념]

하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법
변수들 사이의 인과관계를 밝히고 모형을 적합(Fit)하여 관심 있는 변수를 예측하거나 추론하기 위한 분석 방법이다.
독립 변수와 종속변수의 개수 및 특성에 따라 단순 회귀, 다중 회귀, 다항 회귀, 곡선 회귀, 로지스틱 회귀, 비선형 회귀로 분류

회귀분석의 요소

용어 정리

독립변수 (x) : 영향을 주는 변수. 설명변수, 예측변수라고 명명될 수 있음

종속변수 (y) : 영향을 받는 변수. 반응변수, 결과변수라고 명명될 수 있음

잔차 : 표본 집단에서 회귀식을 얻고, 그 회귀식을 통해 도출한 예측값과 실제값의 차이이다.  오차와 잔차의 차이 : 오차(error)와 잔차(residual)는 모집단을 전제로 하느냐 표본을 전제로 하느냐에 따라 회귀식에서 사용되는 개념 오차는 모집단에서의 회귀식의 값과 실제값의 차이를 의미하고 잔차는 표본으로부터 추정한 회귀식의 값과 관측값의 차이를 말한다. (일반적으로 표본이라는 것 자체가 대표성을 갖긴 하지만 모집단 그 자체가 될 순 없기 때문에 표본으로부터 추정된 회귀식은 모집단의 실제 회귀식과는 차이가 있을 수 있다. )

P-value (유의 확률) : 귀무 가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 ‘같거나 더 극단적인’ 통계치가 관측 될 확률이다. 관찰된 데이터가 귀무가설과 양립하는 정도를 0~1사이의 수치로 표한한 것. 작으면 작을수록 그 정도가 약해서 귀무가설을 기각하는 근거가된다.

회귀계수의 추정

회귀 계수는 최소제곱법을 사용하여 추정한다. 최소제곱법이란? 회귀분석에서 꼭 필요한 개념. 자료에 가장 잘 맞는 선을 찾는 방법. 이 방법을 통해 최량 적합선(line of best fit)을 찾는다. 여기서 잘 맞는 선이란, 관측된 자료점에서 이탈도가 가장 작은 직선그래프이다. 측정값을 기초로 하여 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법으로 오차 제곱의 합이 가장 작은 해를 구하는 것을 의미한다.

회귀 모델 (회귀 분석의 그래프)

Y = b0 + b1X + e

X : 독립변수의 값

Y: 종속변수의 값

b0 : 절편(Intercept)으로 상수값(R 함수 lm()함수로 피팅)

b1: X의 기울기(slope)

b0,b1 : 파라미터(Parameter)로 계수(Coefficient)라고도 함  파라미터 : 예측을 수행할 때, 모델에 의해 요구되어지는 값들

e : 오차항(Error Term)으로 원래 Y값과 예측한 Y값의 차이 =>오차가 최소화되는 b0,b1를 최소제곱법을 이용하여 피팅 데이터사이언스에서 다루는 예측 모형에서는 우리가 모든 데이터를 갖고 있다고 가정하지 않는다. 갖고 있는 데이터가 빅데이터라고 하더라도 그 많은 데이터가 전체를 설명하지 못한다는 것을 가정하고 있다. 그렇기 때문에 오차가 포함되어있다.

적합도 검정

적합도는 모형이 자료에서 벗어난 정도로 표현한다. R^2: 결정계수. 0~1사이의 숫자. 0에 가까울수록 작은 설명력, 1에가까울수록 큰 설명력을 가진다.

R^2=SSR(회귀 제곱 합)/(SST (총 제곱합) )=(∑▒〖(예측종속변수값- 예측종속변수 평균)〗^2 )/(∑▒〖(관측값- 예측된 종속변수값)〗^2 )

F 검정 : 모든 회귀 계수들에 대한 유의성을 검증한다. 다중회귀분석에서 사용.

[ 그 림 ]

SSE : 오차 제곱합 예측값과 실제값의 차이(오차) 제곱의 합 회귀 모형 평가에 많이 사용되는 지표

SST: 전체 제곱합 실젯값과 평균값의 차이의 제곱합 SST = SSE + SSR

SSR: 예측값과 평균값의 차이 제곱합

[ 간단하게 설명 ]

SST : y 전체 분산

SSR : 회귀식에 의해 설명되는 부분(지금 내가 x변수들로 만든 회귀 모형의 설명력)

SSE : 오차

R^2(결정계수) : y의 전체 분산을 내가 만든 회귀 모형이 몇 % 설명하는지 보여주는 척도

F-value : 여러 표본간 차이의 회귀성과 유의성을 나타내는 통계적 지표. 회귀식의 설명력에대한 수치이다.

F=(SSR/1)/(SSE/(n-2))=MSR/MSE=(평균 회귀 제곱)/(평균 오차 제곱)

회귀분석의 종류

단순 회귀 : 독립변수가 1개이며, 종속변수와의 관계가 직선
다중 회귀 : 독립변수가 K개이며, 종속변수와의 관계가 선형(1차 함수)
다항 회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 단계 (단 , 독립변수가 1개일 경우에는 2차 함수 이상)
곡선 회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선
로지스틱 회귀
- 종속변수가 범주형(2진 변수)인 경우 적용
- 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장 가능
비선형 회귀 : 회귀식 모양이 선형관계로 이뤄져 있지 않은 모형

다중 회귀 분석

두개 이상의 독립 변수들과 하나의 종속 변수의 관계를 분석하는 기법으로 단순 회귀 분석을 확장한것. 많은 개념들이 비슷하지만 다르다. 단순회귀분석보다는 추가적인 독립변수를 도입함으로써 오차항의 값을 줄여 분석 내용을 향상시킬 수 있다. 회귀 모형에서 독립변수가 추가된다는 것은 분석 그래프의 차원이 증가함을 의미하기때문에 3차원이상의 그래프이다. 다중회귀모형은 독립변수들의 선형적 결합으로 종속변수를 예측(설명)하는 통계기법이다. 다중 회귀 모형: Y=β_0+β_1 X_1+β_2 X_2+⋯++β_k X_k

다중 회귀식의 추정 방법

동시 입력(all possible regressions) 연구자가 고려하는 모든 독립변수들을 한꺼번에 넣고 분석하는 방법 다른 독립변수들이 통제된 상태에서 특정 독립변수의 영향력을 알 수 있음. 연구자가 고려하는 모든 독립변수들이 동시에 종속 변수를 설명하는 정도를 나타냄. 단계적(StepWise) 다른 변수들이 회귀식에 존재할 때 종속 변수에 영향력이 있는 변수들만을 회귀식에 포한 시키는 방식 설명력이 높은(p-value가 가장 작은)변수의 순으로 회귀식에 포함 전 단계에서 회귀식에 포함된 독립 변수들도 나중에 들어오는 변수 때문에 설명력이 매우 낮아지면 회귀식에서 제거 종속 변수를 설명하는 데에 있어서 설명력이 어느정도 이상되는 변수들로만 구성된 회귀식을 발견하는데에 유용하다.
후진(Backward) 모든 독립 변수를 모두 포함 한 상태에서 기여도가 적은 변수부터 하나씩 빼기 시작한다. 모델에 남아있는 변수들의 p-value가 유의수준 이하가 될 때 까지 삭제하는 방법.
전진(Forward) 독립 젼수가 하나도 포함되지 않은 모델(NULL model)로부터 출발하며 F값에 가장 큰기여를 하는 변수(p-value가 가장 작은 변수)를 순서대로 하나씩 더해가는 방법. 다중 회귀 분석의 최소제곱법 :잔차제곱합을 최소화함 n개의 독립 변수를 갖는 하나의 종속변수를 설명하는 모델에서 관찰값과 추정값사이의 오차 ei는 다음과 같다. 모집단에 대한 기본 가정들이 충족된다는 가정하에 최소제곱법을 이용하여 표본회귀선을 도출할 수 있다.

다중회귀분석은 기본식이 달라지기 때문에 식이 많이 복잡해진다. 최소제곱합의 식과 F값, R2값이 다 달라지지만 기본적인 의미는 같기에, 적용하는 식의 모양은 같다. 그래서 단일회귀분석과 비슷하게 해석할 수 있다.

다중회귀분석의 적합도

-아카이케 정보기준(AIC) : 모형에 변수를 추가할수록 R^2이 점점 커지는 점을 보완하기 위해 나온 개념. 모형에 예측 변수가 많을수록 벌점을 준다는 특징이 있다. [ 그림 ] SSE는 오차제곱합, n은 모형 사례 수, k는 예측 변수 개수이다. 이 k가 늘어나면 늘어날수록 값이 커진다.

###다중회귀분석 가정

선형성 (linearity): 독립변수의 각 수준에서 종속변수의 분포의 평균은 직선상에 위치한다. 즉, 회귀 모형은 종속변수와 독립변수들이 선형적 관계(linear relationship)를 갖는다고 가정될 수 있을 때 사용된다.
등분산성 (homoscedasticity): 독립변수의 모든 값에서 종속변수는 동일한 정규분포를 갖고, 동일한 분산을 가진다.
독립성(independence): 종속변수들은 통계적으로 독립적이여야 한다. 독립변수 x와 오차항이 통계적으로 상호 독립적이여야한다.

###다중공선성 다중공선성 (multicollinearity) : 독립변수들 사이의 상관성이 아주 높지않아야한다. 피어슨 상관계수가 높으면 두 독립 변수의 상관성이 아주 높아 회귀모형이 차원을 잃게 된다. 그렇게 되면 독립변수들 중 둘중 하나의 회귀계수가 0이 되어 모형의 결정력에 기여하지못한다. 이를 알아채기위해 F 검정을 사용한다.

회귀 모형 가정 및 검증

데이터가 선형성, 독립성, 등분산성, 비상관성, 정상성의 가정을 만족시킬 수 있어야한다.

회귀 모형 가정

선형성

독립변수의 변화에 따라 종속변수도 일정 크기로 변화. 잔차의 산점도를 통하여 선형성 파악(단순 회귀 모형의 경우). 독립변수와 종속변수의 관계의 형태는 선형

독립성

잔차의 자기상관이 없어야 한다는 것이다. .잔차의 산점도를 통하여 잔차들이 일정한 경향성 없이 일정하게 분포되었는지 확인, 통계량으로는 더빈 왓슨(Durbin-Watson) 검정 실시한다.

[ 그 림 ]
Durbin-Watson test는 선형모델의 잔차가 자기상관관계가 있는지 여부를 확인합니다. 이때 귀무가설과 대립가설은 다음과 같다. 귀무가설(H0)는 잔차들 사이에 자기상관관계가 없다, 즉 독립적이다. 대립가설(Ha)는 잔차가 자기상관관계가 있다. p-value는 0에서 가까울수록 귀무가설을 기각할 수 있음, 즉 “자기상관관계가 있다"라는 것을 의미한다. 오차항의 독립성을 확인할 수 있는 DW(더빈-와트슨 통계량)이 0 ~ 4의 범위이며 2근처의 값이 나와야 자기상관관계가 없습니다. [ 그 림 ]

어떤 임의의 통계에 대한 결과를 통해 설명하자면, DW의 값은 2에 가까우며 p-value는 유의수준을 0.05이라고 하였을 때 0.9602로 매우 큰 수치이므로 대립가설이 기각된다. 따라서 귀무가설이 채택되며 잔차들 사이에 자기상관관계가 없음을 알 수 있다.

등분산성

독립변수의 모든 값에 대해 오차들의 분산이 일정한 것.

(Ggplot의 smooth로 확인 가능하다.)

정상성 (잔차 정규성)

잔차항이 정규 분포를 이뤄야 한다. 샤피로-윌크 검정, 콜모고로프-스미르노프 적합성 검정을 이용하여 검정 시각화를 통함 검정 기법으로 Q-Q Plot을 주로 사용

qqplot은 분위수대조도로 불리며 정규 모집단 가정을 하는 방법 중 하나이며 수집 데이터를 표준정규분포의 분위 수와 비교하여 그리는 그래프이다. 모집단이 정규성을 따른다면 아래와 같이 Qqplot이 직선의 형태로 그려지게 된다.

다중공선성

모형의 일부 예측변수가 다른 예측변수와 상관되어 있을 때 발생하는 조건이다.통계의 가정과는 관계없지만 다중회귀 결과를 해석할 때 중요하다. 중대한 다중공산성은 회귀계수의 분산을 증가시켜 불안정하고 해석이 어렵게 만들어 문제가 된다. 중대한 다중공산성 문제를 해결하기 위해 높은 상관 관계가 있는 예측변수를 모형에서 제거하는 방법을 사용한다.

회귀 모형 종류에 따른 가정 검증

단순선형 회귀 분석 : 독립변수와 종속변수 간의 선형성 검증 선형성 검증을 위해 산점도 활용
다중선형 회귀 분석 : 회귀 모형 가정인 선형성, 독립성, 등분산성, 비상관성, 정상성을 모두 만족하는지 검증

회귀 모형 검증

적합한 모형을 선택한 후에는 모형이 적절한지 확인한다.

체크리스트

모형이 통계적으로 유의미한가?
- F 통계량 확인
  - 유의수준 5%하에서 F-통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로유의하다고 볼 수 있음
회귀계수들이 유의미한가?
- 해당 계수의 T-통계량과 p-값 또는 이들의 신뢰구간 확인
모형이 얼마나 설명력을 갖는가?
- 결정계수를 확인, 결정계수는 0~1을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다
모형이 데이터를 잘 적합하고 있는가?
- 잔차를 그래프로 그리고 회귀진단을 한다.
데이터가 가정을 만족 시키는가?
- 선형성, 독립성, 등분산성, 비상관성, 정상성 가정을 만족시켜야 함

회귀 직선의 적합도 검토

정계수(R^2)를 통해 추정된 회귀식이 얼마나 타당한지 검토

결정계수가 1에 가까울수록 회귀 모형이 자료를 잘 설명함 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표 다변량 회귀 분석에서는 독립변수의 수가 많아지면 결정계수가 높아지므로 독립변수가 유의하든, 유의하지 않든 독립변수의 수가 많아지면 결정계수가 높아지는 단점이 있음.

모형의 통계적 유의성

모형의 통계적 유의성은 F-통계량으로 확인한다.

유의수준 5%하에서 F-통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다. F-통계량이 크면 p-값이 0.05보다 작아지고 이렇게 되면 귀무가설을 기각하므로 모형이 유의하다고 결론 지을 수 있다.

회귀 모형 R 실습

단순 회귀 분석 R코드 해석
- lm() : 단순 회귀 모형을 수행하는 함수
- Residual : 잔차의 분포에 대한 기술통계치 값
- Coefficients : 회귀 모형에서 사용되는 회귀계수, 회귀 분석에 의해 계산된 절편(Intercept)와 각 독립변수의 기울기
- Significance stars(*) 계산된 p-값에 따라 별표로 나타내는 중요도 수준, ***는 높은 중요도, *는 낮은 중요도 의미
- Multiple R-squared : 결정계수, 모델에 의하여 해석되는 예측의 변동량으로, 모델의 적합성을 평가하는 척도, 1이 최고치이므로 1에 가까운 값이 최적 모델임 _ Adjusted R-squared : 수정된 결정계수는 독립변수의 개수가 많아짐에 따라 무조건 증가하는 결정계수의 문제점을 보완한 통계량으로 회귀 모형에 적합하지 않은 변수를 투입 시 이에 대한 Penalty를 부여하는 특징을 가진다.
- F-static : F-통계량은 모집단 분산이 서로 동일하다고 가정되는 두 모집단으로부터,표본 크기가 각각 n1,n2인 독립적인 2개의 표본을 추출하였을 때, 2개의 표본 분산 〖s1〗^2, 〖s2〗^2의 비율 (〖s1〗^2 〖/s2〗^2)이다. [ 그 림 ]
- F : 자유도(Degree of Freedom), 샘플에 포함된 관측치의 개수와 모델에 사용된 변수 개수와의 차이
- p-value : 유의수준으로 p-값이 작을수록 신뢰구간에 포함됨

[ 그 림 ]

Residuals vs Fitted : 선형성 가정을 확인할 수 있다.

종속변수와 독립변수가 선형관계에 있으면 잔차와 예측치 사이에 어떤 체계적인 관계가 있으면 안된다. 그래서 이 그래프의 기울기가 0일수록 이상적임.

Normal Q-Q : 잔차 정규성을 확인할 수 있다.

표준화된 잔차의 probablity plot이다.종속변수(반응변수)가 정규분포하면 잔차도 정규분포하고, 평균은 0이다. 정규성 가정을 만족한다면 이 그래프의 점들은 45각도의 직선위에 있어야한다.

scale Location : 등분산성 가정을 확인 할 수 있다.

분산이 일정하다는 가정을 만족한다면 이 그림에서 수평선 주위의 random band형태로 나타나야한다. 그래서 이 그림이 random band 하다면 등분산성을 만족한다.

Residuals vs Leverage : 이상치를 확인 할 수있다.

주의를 기울여야하는 관찰치에대한 정보를 제공한다.y축인 레버리지가 크면 비정상적인 값으로 추정한다. 이상치, 지레점, 영향관측치등을 Cook’s distance라는 통계치로 보여준다.