이론공부/통계

선형회귀분석의 가정

Zziii 2023. 2. 24. 15:07
728x90
반응형

선형회귀분석의 기본 가정

 

1. 등분산성 (타겟 y의 값과 yhat의 분산이 동일해야함)

등분산성이란 분산이 같다는 의미

특정한 패턴없이 분포한다는 의미이다.

 

확인법

- yhat과 잔차의 산점도를 확인한다

yhat의 크고 작음이 잔차와 어떤 연관성도 없어야한다. 어떤 패턴도 보이지 않아야한다.

 

2. 선형성

선형성이란 종속변수 y와 독립변수 x간에 선형성을 만족해야하는 특성

 

선형성을 만족하지 않는 변수가 있다면, 

새로운 변수를 추가해볼것

지수나 루트 로그 등으로 변수 변환을 해볼것

선형성을 만족하지 않는 변수를 제거해볼것

변수선택법을 통해 변수를 선택해볼것

 

3. 정규성 (잔차가 정규성을 만족하는지 여부)

시각적인 정규성 검정 방법은 히스토그램, Q-Q plot 활용

수치적인 정규성 검정은 샤피로 윌크 검정, 쟈크베라 검정이 있음

 

- Q-Qplot 잔차들이 정규성을 띄면 45도 각도의 직선에 밀집

- 샤피로테스트 진행 p값이 기각역보다 크다면 잔차가 정규성을 따른다 

 

4. 독립성(3가지 독립성 충족)

4-1. yhat과 잔차간의 독립성 (yhat 과 잔차의 산점도 확인)

- 패턴을 보이지 않아야함

 

4-2. 독립변수와 잔차간의 독립성

상관계수와 산점도로 확인

 

4-3. 잔차의 자기상관성

- 예측한 데이터가 시계열 데이터인 경우에 확인

-검증은 더빈왓슨 검정으로 확인 0으로 가까울수록 잔차는 양의 상관관계 4에 가까울수록 음의 상관관계 2는 독립

pvalue가 기각역보다 작다면 자기상관성이 있는 것

 

 

728x90
반응형
let textNodes = document.querySelectorAll("div.tt_article_useless_p_margin.contents_style > *:not(figure):not(pre)"); textNodes.forEach(function(a) { a.innerHTML = a.innerHTML.replace(/`(.*?)`/g, '$1'); });