본문 바로가기

자격증공부/데이터분석준전문가(ADsP)

[ADsP] (3과목) 데이터 분석 - 통계분석 Part2 요약

320x100

 

<회귀분석>

1. 회귀분석과 로지스틱 회귀분석

ㅇ 회귀분석 : 하나 이상의 연속형 독립변수들이 연속형 종속변수에 얼마나 영향을 끼치는지 수치적으로 파악하는 통계기법

 - 반응변수(종속변수)/설명변수(독립변수)
 - 회귀계수의 추정 : 최소제곡법, 최소자승법

ㅇ 로지스틱 회귀분석 : 하나 이상의 연속형 독립변수들인 이산형(범주형) 종속변수에 얼마나 영향을 끼치는지 수치적으로 파악하는 통계기법

2. 회귀분석의 종류

ㅇ 단순회귀 : 1개의 독립변수와 반응변수가 직선(선형) 관계

ㅇ 다중회귀 : 2개 이상의 독립변수와 반응변수의 직선(선형) 관계

ㅇ 다항회귀 : 2개 이상의 독립변수와 반응변수가 2차 함수 이상의 관계

ㅇ 비선형 회귀 : 회귀식이 미지의 모수들과 선형관계가 아닌 경우 (ex. 지수함수,로그함수, 삼각함수 등)

3. 회귀분석의 가정

선형성 : 독립변수와 반응변수는 선형관계를 갖고 있어야 한다.

독립성 : 독립변수와 반응변수는 서로에게 영향을 끼치지 않는 독립관계이다.

등분산성 : 모든 독립변수에 대해서 반응변수는 일정한 분산을 보유하고 있어야 한다.

비상관성 : 잔차들끼리 상관이 없어야 함

정상성(정규성) : 오차들이 평균이 u, 표준편차가 o인 정규분포를 따라야 한다.

 - Q-Q Plot, 샤피로-윌크검정, 콜로고로프-스미노프검정, 히스토그램

4. 잔차도

선형 회귀모형의 적합성을 파악하기 위해 실제값과 추정치의 오차를 산정도 표현한 것

5. 회귀분석 모형에서 확인할 사항

ㅇ 모형이 통계적으로 유의미한가 : F분포값, 유의확률(p-value)
ㅇ 회귀계수들이 유의미한가? 회귀계수의 T값과 유의확률(p-value)
ㅇ 모형이 얼마나 설명력을 갖는가? 결정계수(R^2) 확인(0~1의 값)
ㅇ 모형이 데이터를 잘 적합하고 있는가? 잔차통계량을 확인하고 회귀진단

6. 단순선형 회귀분석

1개의 독립변수 (x)에 대하여 종속변수(y)의 관계를 분석하고 식으로써 표현

ㅇ 실제 데이터와 오차가 가장 작아지는 직선의 방정식을 찾기 위해 최소제곱법을 활용

     Y = β0 + β1 * X + ε     (Y : 반응변수, β0 : 회귀계수 상수항, β1 : 회귀계수 기울기, X : 독립변수, ε : 오차항)

ㅇ 회귀분석 귀무가설
 - 회귀모형에 대한 귀무가설은 ‘모든 회귀계수는 0이다’ 이다.

 - 각각의 회귀계수에 대한 귀무가설은 ‘회귀 계수는 0이다’ 이다.

 - 회귀모형이 선정되기 위해서는 위 두 귀무가설을 모두 기각할 수 있어야 한다.

ㅇ 단순 회귀분석의 해석

 - 회귀모형의 p-value 값(1.97e-06)이 0.05보다 작으므로 회귀모형의 귀무가설을 기각한다.
 - 회귀계수의 p-value 값이 모두 1.97e-06 보다 작으므로 위 회귀계수는 유의마하다고 판단할 수 있다.
 - 회귀모형의 귀무가설, 회귀계수의 귀무가설을 모두 기각할 수 있으므로 위 회귀모형은 유의하다고 할 수 있다.
 - 결정 계수 값 0.9668을 보아 위 모형은 전체 데이터의 96.68%를 설명함을 알 수 있다.
 - 추정회귀식 : Y = 16.8291 – 2.4371X + e

ㅇ 회귀분석의 분산분석표

7. 다중선형회귀분석

2개 이상의 독립변수(X1, X2, …)에 대하여 종속변수의 관계를 수치적으로 파악하기 위한 기법
실제 데이터와 오차가 가장 작아지는 회귀 방정식을 찾기 위해 최소제곱법을 활용
ㅇ 다중선형회귀분석의 해석 : 독립변수의 기울기(회귀계수)가 0이라는 가정을 귀무가설, 기울기가 0이 아니라는 가정을 대립가설

  - 회귀모형의 통계적 유의성 검증 : 회귀모형의 p – value 값이 0.05보다 작으므로 회귀모형의 귀무가설을 기각한다.
  - 각각의 회귀계수의 p-value 값을 유의수준과 비교하여 0.05보다 큰 yard를 제거하고 회귀분석을 재수행한다.
  - 모든 회귀계수의 p-value 값이 0.05보다 작을때까지 재수행하나 너무 많은 변수를 제거하는 것은 무의미하다.

  - 다중선형회귀분석이므로 수정된 결정계수값을 통해 가장 설명력이 높은 모형을 선택

  - 수정된 결정계수값 0.8491을 통해 위 모형은 전체 데이터의 84.91%를 설명함을 알 수 있다.

  - 추정되는 회귀식은 price = 2734.22 + 121.30 X yard + 235.57 Xarea + 438.23 Xpark – 16.49

8. 다항회귀분석

1개 이상의 독립변수 그리고 2차 이상의 독립변수에 대하여 종속변수와의 관계를 수치적으로 파악하기 위한 통계 기법으로 오차의 제곱합이 최소가 되는 최소제곱법을 활용하여 회귀식을 추정

 - 회귀모형의 p-value 값이 2.388e-14로 유의수준 0.05보다 작으므로 회귀모형의 귀무가설을 기각한다.
 - 각각의 회귀계수 모두 0.05보다 작으므로 위 회귀계수가 유믜미하다고 판단할 수 있다.
 - 회귀계수 및 회귀모형의 귀무가설을 모두 기각할 수 있으므로 위 모형은 통계적으로 유의하다.

 - 수정된 결정계수 값 0.8948을 보아 위 모형은 전체 데이터의 89.48%를 설명함을 알 수 있다.
 - 추정되는 회귀식은 y = 26.4626 + 36.2257t -5.5544 t^2

9. 최적 회귀방정식

ㅇ 종속변수(y)를 설명하기 위한 k개의 독립변수 중 최적의 회귀방정식을 찾는 것이 목표
ㅇ 일반적으로 변수의 수가 증가할수록 편항(bias)는 작아지고 분산(variance)는 증가
ㅇ 결정계수를 활용할 수도 있지만 벌점(페널티)을 활용

ㅇ 변수 선택지표(벌점)
 - AIC (아카이케 정보 기준) : 가장대표적인 벌점 지표로 편향과 분산이 최적이 되는 지점을 탐색하지만 자료의 수가 많아질수록 부정확해지는 단점이 있다.
 - BIC (베이즈 정보 기준) : AIC의 단점을 보완한 벌점이지만 AIC보다 큰 패널티를 가지는 단점이 있기 때문에 변수가 적은 경우에 사용이 권장된다.

 - 멜로우 Cp : Cp값이 독립변수의 수 + 상수항의 수보다 작을 때는 좋은 모형이며, Cp값이 독립변수의 수보다 크면 나쁜 모형으로 판단한다.

ㅇ 최적 회귀방정식 종류

 - 전진선택법 : 상수항의 모형에서 출발하여 변수를 하나씩 추가하면서 최적의 회귀방정식을 구축
 - 후진제거법 : 모든 변수를 포함한 모형에서 출발하여 변수를 하나씩 제거하면서 최적의 회귀방정식을 구축
 - 단계별 선택법 : 상수항 모형에서 출발하여 변수를 하나씩 추가할 때, 변수를 하나씩 제거할 때의 벌점을 모두 고려하여 최적의 회귀방정식을 구축

 

<관련 기출문제>

2023.02.15 - [자격증공부] - [ADsP] (2과목) 데이터분석 기획 - 데이터분석 기획 Part2 기출문제

 

[ADsP] (2과목) 데이터분석 기획 - 데이터분석 기획 Part2 기출문제

1. 다음 중 상향식 접근법에 대한 설명으로 부적절한 것은 무엇인가? ① 문제가 불명확한 경우 무엇을 분석해야 할지 찾기 위한 접근법이다. ② 프로토타이핑 접근법은 상향식 접근법 중 하나이

inform.workhyo.com

 

<ADsP 요약+기출문제 자료 다운로드(바로가기)>

 

ADsP 빅데이터분석준전문가 자격증 대비 요약 및 기출 | 10000원부터 시작 가능한 총 평점 0점의 자

0개 총 작업 개수 완료한 총 평점 0점인 WorkHYO의 자료·템플릿, 취업·입시 자료, 기타 서비스를 0개의 리뷰와 함께 확인해 보세요. 자료·템플릿, 취업·입시 자료, 기타 제공 등 10000원부터 시작 가

kmong.com

 

320x100
반응형