[경영빅데이터분석사 2급] 4과목 빅데이터 분석

3. 통계분석 : 기초통계, 설문조사, 상관관계, 회귀분석, 시계열분석, 다차원척도법(MDS), 주성분분석, 요인분석, 판별분석

ㅇ정의 : 가설 검증에 있고 많은 전제 조건을 만족시키는 경우 사용

ㅇ분류

- 기술통계학 : 수집된 자료를 정리, 요약하여 집단의 특성을 알기 쉽게 정보화 하는 방법

. 자료 : 질적자료(범주 -성별, 직업, 혈액형 등), 양적자료(키 몸무게 생산량과 같이 숫자로 표시, 이산형 – 고객 수, 차량 수와 같이 셀 수 있는 자료 / 연속형 – 길이, 무게, 온도 등과 같이 세는 것이 불가능한 자료)

. 변수 : 관심의 대상이 되는 사물이나 사건의 속성

변수	척도	속성	설명	예시	특성
질적변수	명목척도	범주형	측정 대상이 어느 집단에 속하는지 분류	성별, 고객구분	연산 불가
질적변수	서열척도	순서형	측정 대상이 서열관계를 갖는 척도로 선택사항이 일정한 순서인 경우	고객등급, 순위	연산 불가
양적변수	등간척도	상대적 크기	측정 대상이 갖고 있는 속성의 양을 측정, 결과가 숫자로 표현됨	온도	가감 가능
양적변수	비율척도	절대 영점 존재	등간척도가 갖는 특성에 더하여 절대적인 영점이 존재하고 두 측정 값의 비율이 의미가 있는 척도	체중, 구매횟수, 총구매액	사칙연산 가능

. 표와 그래프에 의한 자료 정리

목적	표와 그래프 예
질적변수 분포파악	도수분포표 범주별 관측도수, 원그래프, 막대 그래프 등
양적변수 분포파악	도수분포표 구간별 관측도수, 점도표, 줄기잎 그래프, 히스토그램, 상자그림 등
두 범주변수 관계파악	산점도 분할표, 교차분류표 등

. 수치를 이용한 자료 정리

특성 값	종류
중심위치	평균(극단값의 영향으로 왜곡된 정보를 제공할 수 있으므로 극단값을 제거해야 한다), 중앙값(극단값 영향을 받지 않지만, 최소/최대 자료의 순서와 상대적인 위치만 나타내므로 수치적인 특성을 알기 어렵다.), 최빈수, 백분위수, 사분위수
분포형태	왜도(분포의 기울어진 정도), 첨도(평균 주위에 몰려 있는 정도)
산포도 (자료의 흩어진 정도)	범위(최대값과 최소값 차이로 자료 분포에 대해서는 무시), 분산(평균으로부터 얼마나 떨어져 있는지 나타내는 값으로 편차를 제곱한 형태로 실제 변수 값과 비교가 어렵다) 표준편차(분산의 제곱근 값으로 평균과 관련한 상대적인 위치를 알 수 있으므로 측정 값이 특정 범위 내에 있을 확률을 알 수 있다. 자료의 개수나 측정 단위가 서로 다른 두 개 집단의 표준편차를 비교하는 것은 의미가 없다.) 변동계수(평균에 대한 변동의 상대적인 산포도를 나타내는 값)

. 자료의 수집

비확률표본추출법

각 추출 단위가 표본에 추출될 확률을 객관적으로 알 수 없는 추출법
할당추출, 편의 추출, 판단추출

확룔표본추출법

모집단의 구성요소가 표본으로 선택될 가능성이 동일하게 되도록 하는 표본 추출방법
단순 무작위 추출, 계통추출(순서가 있는 경우 일정 간격으로 추출), 층화추출(여러 개의 층으로 분류하고 각 층으로부터 일정한 표본 추출), 집락추출(모집단을 몇 개의 소그룹으로 나누고 표본집단 추출 후 표본들을 전수 조사)

- 추측통계학 : 모집단의 일부인 표본의 특성을 이용하여 모집단의 특성을 추정하거나 가설을 검정하는 방법

<추정>

. 추정량 : 모평균, 모분산 등과 같은 모수를 추정하는데 사용하는 표본평균, 표본분산 등과 같은 통계량

. 추정량의 바람직한 특성 : 불편성(추정량의 기대값이 모수의 값과 일치), 일치성(표본의 크기가 커질수록 추정량과 모수가 확률적으로 일치한다), 상대적 효율성(하나의 모수에 대해 불편 추정량이 여러 개 존재하면 그중 분산이 가장 작은 불편 추정량을 선택한다), 충분성(추정량이 모수에 대한 충분한 정보를 포함한다) , 재현성X

. 추정의 종류 : 점추정 / 구간추정

<가설검정>

. 귀무가설 : 기존에 알려져 있는 사실이 옳다고 주장

. 대립가설 : 연구자의 새로운 제안이 옳다고 주장

. 가설설정은 가설의 형태에 따라 양측검정과 단측검정으로 나누어진다.

. 유의수준 : 통계적 검정은 귀무가설이 옳다는 것에서 출발한다. 표본들의 평균치 간에 생기는 차이가 우연에 의한 것이라기에는 큰 경우, 우연일 거라는 의문이 발생하게 되며 이때 우연인지 여부를 판단하는 기준을 유의수준이라 한다.

. 제 1종 오류(α) : 귀무가설이 참인데도 기각하는 오류를 범할 확률

. ß : 대립가설이 참인데도 귀무가설이 채택되는 오류를 범할 확률

. 검정통계량 : 가설검정에 이용되는 통계량으로 분포는 항상 가설에서 주어지는 모수가 갖는 분포를 따른다.

. 기각역 : 귀무가설이 사실이라는 전제하에 구한 검정통계량의 분포에서 확률이 α인 부분

. 통계적 가설 검정 절차 : 귀무가설과 대립가설 설정 > 검정에 적용할 분포와 검정통계량 선택 > 유의수준을 지정하고 임계값(기각역)을 구함 > 표본자료를 수집하여 검정통계량을 계산 > 임계값과 검정통계량을 비교하여 귀무가설의 기각여부 판정

320x100

ㅇ 주요 용어

- 모집단 : 관심의 대상이 되는 집단 전체

- 모수 : 모집단의 특성

- 통계량 : 표본의 특성

- 통계적 추론 : 모집단에서 추출된 표본의 통계량으로부터 모수를 추정하고 예측하는 과정

ㅇ 통계적 검정

- 집단 간에 차이가 있다를 p-value로 보고 0.05보다 작으면 유의한 것으로 판정

- t -Test : 2개 집단의 차이 검정, 모집단 평균을 알고 있는 경우 표본의 평균과 분산정보를 이용해서 테스트

. 독립표본 t-Test: : 2개 표본이 독립적인 경우 두 집단의 평균과 분산정보 이용

. 대응표본 t-Test : 한 개체에서 2회 값을 얻은 경우의 표본

- F-Test(ANOVA) : 3개 이상의 집단 비교, 집단의 분산을 활용하여 총변동을 요인별로 분류하고 3개 이상의 모집단의 평균에 차이가 있는지 검정하는 방법, 독립변수의 수에 따라 일원배치(불순도 차이 검정), 이원배치, 다원배치 분산분석으로 구분된다.

- x2-Test (카이스퀘어테스트) : 데이터가 명목형인 경우 해당 변수들로 구분되는 집단간의 차이가 있는지 분석하는 방법 (ex. 설문조사 결과에서 거주하는 도시유형과 고객등급을 이용해서 도시유형과 고객등급 간에 차이가 있는지 검정)

ㅇ 상관관계 분석 : 변수들 사이의 밀접도 또는 긴밀도로 1이면 종속적이고 0이면 독립접, +1에 가까울수록 비례하고 -1에 가까울수록 반비례

- 종류 : 단순(2개 변수), 다중(3개 이상 변수), 편(다중상관분석에서 다른 변수들과의 관계가 고정되었을 때 두 변수만의 연관성 측정)

- 상관계수 : 관계를 하나의 수치로 나타낸 것 (0.2 이하는 상관이 거의 없음)

- 상관분석 방법 : 피어슨 상관계수(등간/비율 – 아버지의 키와 아들의 키), 스피어만 순위상관계수(순서, 순위 등위 서열 – 중간/기말시험 성적순위)

- 산포도 : 두 변수를 XY좌표 평면상에 점들로 나타내어 변수 간의 비례성, 선형성, 밀집도 등의 관계를 시각적으로 알아볼 수 있게 하여 상관관계에 대해 파악

- 활용 : +, - 관계를 파악하거나 회귀분석이나 의사결정나무 모델 등에 투입할 변수 중에 상관관계가 높은 변수들에 대해서는 선별을 해서 투입하여 안정적인 결과를 나오도록 하는데 활용할 수 있다. 인과관계를 나타내지는 않는다.

ㅇ 회귀분석 : 독립변수와 종속변수들 간의 관계, 주로 연속형 변수가 사용, 특수한 형태는 로지스틱 분석으로 Y가 0 또는 1로 종속변수가 이항형 또는 순서형인 회귀분석이며, 단순회귀식은 Y를 단일 변수X를 이용해 식을 만드는 방식이고, 다중회귀식은 복수의 변수 X들을 투입

- 기본모형 : Y = α + ß Xi + ε (α : 상수항, ß : 회귀계수(변수X의 Y에 대한 영향력), ε : 오차항)

- 가정 : 오차항의 기대값은 0이다, 오차항은 모두 동일한 분산을 갖는다, 오차항은 서로 독립적이며 정규분포를 이룬다.

- 추정된 회귀식 : Y = a + bX (추정된 표본회귀계수인 b는 모수 ß와의 사이에 오차가 발생하므로 b의 정확성, 적합성, 유의성을 검토해야 하는데 b의 표준오차와 결정계수, 분산분석표에서의 차는 F검정을 통하여 검토할 수 있다.)

- 회귀모형 검정을 위해 조정된 R2 값이 높을수록 설명력이 높다는 뜻으로 상대적 값이며, 1인 경우 입력변수 값에 대해 확인을 해봐야 되는 경우로 잘못된 경우일 것이다. 그리고 오차값은 RMSE를 참조하며 절편, 변수, 모델 전체에 대한 유의성은 p값을 보고 유의수준에서 모델이 의미가 있다는 뜻이다.

- 모델에 투입되는 변수가 많아지면 관리가 어렵고 설명이 어려워지기 때문에 최소한의 설명변수로 모델을 만들고자 한다. 모든 가능한 변수조합으로 접근하는 방식과 단계적 변수선택이 있는데 하나씩 추가해보는 전진선택법, 전체 변수를 투입하고 하나씩 제거하는 후진선택법이 있다.

- 정확성은 표준오차로 검정하며 표준오차가 작을수록 정확성이 높다, 적합성은 결정계수로 검정하며, 유의성은 분산분석으로 검정하며 F값이 클수록 추정된 모형이 통계적으로 유의하다, R2값이 1에 가까울수록 모형 설명력이 높다.

ㅇ 설문조사

- 순서 : 계획의 입안 > 준비와 실시 > 집계와 분석 > 보고와 활용

ㅇ 시계열분석

- 경제활동, 물리적 현상, 기업의 경영활동, 인구 등의 변동을 시간의 흐름에 따라 파악이 가능하므로 연도별로 집계한 데이터를 분석하여 의미 있는 모형을 얻을 수 있다.

- 시계열 : 시간에 따라 관측되는 데이터로 데이터 구성을 분해해서 보는 방법을 분해법이라고 한다. 시계열 데이터는 추세, 순환, 계절, 불규칙 값으로 구분해서 파악할 수 있는데 값을 정확하게 예측하는 것보다도 이러한 구성요소가 어떤 상태인지 파악하여 의사결정에 활용하는 것이 중요

- 목적 : 미래를 예측(시계열 데이터 주기 찾기X), 과거의 값이 현재에 영향을 준다는 가정 하에 접근

- 예측방법 : 추세분석법, 평활법, ARIMA

- TCSI분해법 : Trend(장기적 예측), Cycle(1년 이상의 기간으로 반복), Seasonality(매년 반복되는 월 단위 등의 기준으로 상승하거나 하락), Irregular(TCS가 제거된 나머지로 예측될 수 없고 불규칙적인 정치, 폭동 등 다양한 요소가 영향)한 요소로 시계열 데이터를 분리

- 추세분석법 : 관측값을 시간의 함수로 표현, 선형추세모형(일정한 추세), 계절추세모형(패턴), 선형계절추세모형(계절성, 일정한 선형추세), 비선형모형 / 이동평균법X

- 평활법 : 최근의 데이터를 더 비중 있게 취급 (이동평균법 : 최근 일정 시점 데이터의 평균값 이용), 지수평활법(가중치를 현시점에서 과거로 갈수록 지수적으로 작게 주는 방법, 많은 데이터 저장이 불필요), 단순 지수평활법(Y=α+ε, α는 시간에 따라 변화하는 미지의 모수, ε는 서로 독립이고 평균은 0, 분산은 σ2인 오차항, 예측치의 계산이 간단)

- ARIMA모형(Auto Regressive Integrated Moving Average)은 데이터 특성에 따라 로그함수 등을 이용한 변환을 하는 경우도 있고, 데이터 시점 간의 특정 간격을 갖고 데이터가 영향을 미치는지를 보는 차분을 활용한다. 변환을 통해 변화가 심한 변수를 안정시키고 차분을 통해 과거 데이터의 영향을 반영하여 예측

ㅇ 다차원척도법(MDS)

- p개의 변수로 설명되는 n개의 개체를 개체간 유사성의 측도값을 이용하여 저차원의 가시적 공간에 표현하는 그래프적 기법으로 시장조사에서는 시장 세분화에 적용할 수 있고 사회조사에서는 심리적 태도에 따라 사람들을 위치화 할 수 있다.

- 상대적 거리만 알고 있는 많은 개체들을 저차원의 가시적 공간에 쉽게 표현 (절대적 거리 X)

- 유클리드 거리와 같은 거리 데이터 이외에 심리적인 거리 데이터에 대해서도 사용

- 시장조사에서는 시장 세분화에 적용할 수 있다.

- 정치적 성향에 따른 도시의 위치도를 작성할 수 있다.

ㅇ 주성분분석

- 다변량 통계분석에서 원래의 변수들이 내포하는 정보를 최대한 유지하면서 변수 사이의 관련성을 분석하여 해석 가능한 적은 개수의 새로운 변수로 차원을 축소하기 위한 분석방법으로 주어진 변수들과 동일차원의 변환된 변수로 나눌 수 있지만 변환된 변수의 일부만을 사용해도 최초 변수만큼의 설명력을 가지므로 변수의 차원을 축소할 수 있다.

- 제1성분은 그 분산이 최소가 되도록 한다, 제 2성분은 제1성분과 서로 상관되지 않으면서 분산이 가장 큰 선형결합이다. 주성분은 변수들의 선형결합으로 표현된다. 변수의 차원을 줄이는 대표적인 분석이다.

ㅇ 요인분석

- 여러 개의 변수로 측정된 데이터에서 원래의 변수들이 내포하고 있는 정보를 최대한 유지하면서 변수 사이의 관련성을 분석하고 그 변수들에 공통적으로 부여 가능한 요인을 파악하여 해석 가능한 적은 개수의 새로운 변수로 차원을 축소하는 방법으로 처음부터 적은 수의 새로운 변수로 기존 변수를 대체할 수 있다고 가정하고 시작한다.

- 소형차 제조업체에서 실시한 구매자가 중요하게 생각하는 자동차의 특성 6가지에 대한 설문조사 결과 3개의 요인으로 전체의 96%를 설명할 수 있었다. 처음부터 적은 요인으로 변환이 가능할 것으로 보고 접근하였고 도출된 3가지 요인은 경제성, 공간성, 안정성을 나타낸다.

- 변수를 적은 수의 공통요인의 선형결합으로 표현할 수 있다고 가정한다, 요인들을 회귀분석 또는 판별분석 등 차후의 분석에 이용할 때 사용할 수 있다, 요인적재 값은 변수와 공통요인의 상관관계를 나타낸다, 요인의 수는 총 분산 중에서 각 요인에 의해 설명되는 분산의 비율을 고려하여 결정할 수 있다.

< 경영빅데이터분석사2급 요약자료 다운로드 (바로가기) >

320x100

저작자표시 비영리 변경금지

'자격증공부 > 경영빅데이터분석사2급' 카테고리의 다른 글

[경영빅데이터분석사2급] 4과목 빅데이터 분석 - 데이터 시각화 (0)	2023.04.06
[경영빅데이터분석사2급] 4과목 빅데이터 분석 - 데이터마이닝 (0)	2023.04.06
[경영빅데이터분석사 2급] 4과목 빅데이터 분석 - 빅데이터분석 프로세스 개념, 플랫폼 환경 (0)	2023.04.04
[경영빅데이터분석사 2급] 3과목 빅데이터 기획 - 기획과 계획 (0)	2023.04.03
[경영빅데이터분석사2급] 3과목 빅데이터 기획 - 과제도출 (0)	2023.04.03