본문 바로가기

자격증공부/데이터분석준전문가(ADsP)

[ADsP] (3과목) 데이터 분석 - 군집분석과 연관분석 요약

320x100

 

<군집분석>

1.개요

ㅇ 비지도 학습 중 하나로 여러 변수로 표현된 데이터들 사이의 유사성을 측정하고 몇 개의 군집으로 나누어 특징을 파악하는 기법. 생물학에서 종의 분류, 마케팅에서의 시장 세분화 및 고객 성향 분석, 추천 시스템을 위한 협업 필터링 등 서비스의 기반을 제공

2. 종류

ㅇ 계층적 군집분석 : 병합적 방법

ㅇ 비계층적 군집분석 : 계층을 보유하지 않음. K평균 군집

3. 거리측도

연속형 변수

 - 유클리디안 거리 : 두 점 사이의 거리를 계산하는 대표적인 방법으로 통계적 개념이 포함되지 않아 변수들의 산포 정도를 고려하지 않음 (가장 가까운 거리)

 - 맨하튼 거리 : 시가거리라고도 하며 도시에서 최단 거리를 구하듯 각 변수들의 차이의 단순 합으로 계산한 거리

 - 체비셰프 거리 : 변수간 거리 차이 중 최댓값을 데이터간 거리로 정의

 - 표준화 거리 : 유클리디안 거리를 표준편차로 나눔으로써 변수간 산포 정도를 고려한 거리

 - 마할라노비스 거리 : 표준화 거리에서 변수의 상관성까지 고려한 거리 또는 유클리디안 거리에서 변수의 산포와 변수의 상관성까지 고려한 거리

이산형 변수 : 거리 측도의 계수(유사도) 값이 클 스루고 두 데이터의 거리(1-계수)는 작음

 - 단순일치 계수 : 두 객체가 보유한 변수 중 일치하는 변수의 비율

 - 자카드 계수 : 두 집합 사이의 유사도를 측정

 - 코사인 유사도 : 데이터를 벡터로써 취급하여 두 데이터의 방향성을 측정, 주로 문서의 유사도를 측정하기 위해 활용

4. 계층적 군집분석

ㅇ 계층적 트리 구조를 형성하여 군집화를 수행하는 방법
ㅇ 종류
 - 병합적 방법 : 개별 데이터가 하나의 군집에서 시작하여 유사한 객체끼리 하나의 군집으로 묶어나가는 방법
 - 분할적 방법 : 모든 데이터를 하나의 군집에서 가장 멀리있는 데이터를 개별 군집으로 분리시키는 방법

ㅇ 군집간 거리측정
 - 최단 연결법(single) : 두 군집의 가장 가까운 데이터를 군집 간 거리로 측정
 - 최장 연결법(complete) : 두 군집의 가장 먼 데이터를 군집 간 거리로 측정
 - 평균 연결법(average) : 두 군집의 모든 데이터들끼리의 거리의 평균을 군집의 거리로 측정

 - 중심 연결법(centroid) : 두 군집의 중심을 군집간 거리로 측정
 - 와드 연결법(ward.D) : 두 군집의 편차 제곱합이 최소가 되는 위치의 거리를 군집의 거리로 측정

5. K평균 군집 과정

ㅇ 과정

 (1) 군집의 수 K의 초기값과 각각의 K를 설명하기 위한 임의의 데이터 SEED를 생성
 (2) 각각의 데이터를 가장 가까운 SEED에 할당한다.

 (3) 각 군집의 데이터들 사이의 평균값 혹은 중앙값을 계산하여 새로운 SEED를 설정한다.

 (4) 새로운 SEED를 중심으로 군집을 재할당한다.

 (5) 각 군집의 중심이 변하지 않을 때까지 위 3, 4번 과정을 반복한다.

ㅇ 특징

ㅇ 집단 내 제곱합 그래프 : K평균 군집의 단점인 초기값 K의 선택에 도움을 주는 그래프

6. 혼합분포군집

ㅇ 모형 기반의 군집 방법으로 군집화를 통해 데이터가 몇 개의 확률분포(흔히 정규 분포)로부터 추출되었는지 파악하기 위한 분석 기법. 여러 개의 확률분포의 모수(평균과 분산)를 파악하고 각각의 확률분포의 비중을 파악하는 것이 목적. 기댓값 최대화 알고리즘을 활용하여 모수 및 가중치를 추정

ㅇ EM알고리즘 : 기댓값 최대화 알고리즘은 확률모델의 최대 가능도를 갖는 모수와 함께 그 확률모델의 가중치를 추정하기 위한 알고리즘 E-STEP과 M-STEP의 두단계로 나누어 수행한다.

 - EM 알고리즘(E-STEP) Expectation
  . 1단계 : N개의 정규분포의 혼합이라 가정할 때, N의 값과 각 확률분포의 초기 파라미터(평균, 분산, 가중치) 값을 임의로 설정
  . 2단계 : 해당 파라미터 값을 가진 분포로부터 실제 데이터가 나올 수 있는 로그 가능도 함수의 기댓값 계산

 - EM알고리즘(M-STEP) Massimization

  . 3단계 : 계산된 기댓값으로부터 각각의 확률분포의 새로운 파라미터 값을 추정
  . 4단계 : 2단계부터 알고리즘 반복 또는 이전 가능도에 비해 가능도 증가량이 작거나 또는 최대 가능도에 도달했다고 판단할 경우 종료

ㅇ 가능도 : 우도라고도 표현하며 관측된 데이터가 특정 분포를 따를 확률을 의미한다. 최대 가능도를 가질 때 관측된 데이터가 특정 분포를 따른다고 주장할 수 있다. (ex. 동전을 10번 던졌을 때 앞면이 7번 나왔다면?)

 7. 자기 조직화 지도 (SOM, Self Organizaing Map)

ㅇ 코호넨 맵이라고도 불리며 차원축소와 군집화를 동시에 수행가능한 분석 기법. 축소된 데이터를 2차원 격자에 표현하여 고차원 데이터 시각화에 용이

ㅇ 구성 : 은닉층 없이 입력층과 n개의 출력층으로만 구성. 하나의 입력벡터는 하나의 경쟁노드에만 출력되는 승자독식 구조

ㅇ 과정
  (1) 초기 학습률과 가중치 행렬 그리고 경쟁층의 노드 개수를 지정
  (2) 입력 벡터가 가중치 행렬을 통해 가장 가까운 노드에 표시

  (3) 승자 노드가 입력 벡터를 잘 나타내도록 가중치 행렬 재조정

  (4) 모든 입력 벡터에 대해 2번 ~ 3번 단계를 반복하여 1회의 iteration을 종료

  (5) 일정 iteration에 도달할 때까지 2번 ~ 4번 단계를 반복

ㅇ 특징

 

<연관분석>

1. 개요

장바구니 분석으로도 불리며 치킨을 구매한 고객은 콜라를 구매할 확률이 높다와 같은 규칙을 찾아내기 위한 분석 기법. IF ~ THEN 으로 해석이 되어 결과의 해석이 매우 용이. 비지도 학습의 일종으로 분석의 목적 없이도 수행 가능.

순차패턴 : 시간개념이 추가된 것으로 미래에 발생할 규칙을 찾기 위한 분석기법. 현재 존재하는 하나의 장바구니를 분석하는 연관분석과 달리 어떤 고객이 품목을 구매했는지와 같은 고객정보가 요구됨.

2. 연관분석 측도

지지도 : 전체 거래 중에서 A와 B 두 품목이 동시에 포함된 거래 비율(교집합)

신뢰도 : 하나의 품목이 거래될 때 다른 품목이 거래될 확률(조건부 확률)

향상도 : 두 품목의 구매확률에 대한 상관성

 - 향상도 > 1 하나의 품목이 구매될 때 다른 품목이 구매될 확률이 증가

 - 향상도 = 1 아무런 관계가 없음

  . 향상도 < 1 하나의 품목이 구매될 때 다른 품목이 구매될 확률이 감소

3. apriori 알고리즘

ㅇ 연관분석의 품목 수의 증가는 기하급수적으로 계산량이 증가하는 문제가 발생. 따라서 최소 지지도를 활용하여 연관분석을 수행.

(1) 최소 지지도를 설정한다.

(2) 최소 지지도보다 큰 지지도를 갖는 단일 품목을 선별한다.

(3) 위 과정에서 찾은 2가지 품목으로 생성되는 연관규칙 중 최소 지지도 이상의 연관규칙을 찾는다.

(4) 위 과정을 반복적으로 수행하면서 품목의 수를 증가시키며 의미있는 결과를 찾는다.

4. 연관분석 특징

 

<관련 기출문제>

2023.03.05 - [자격증공부] - [ADsP] (3과목) 데이터분석 - 군집분석과 연관분석 기출문제

 

[ADsP] (3과목) 데이터분석 - 군집분석과 연관분석 기출문제

1. 군집분석을 실시하기 위한 여러 거리 측도 중 범주형 데이터 거리를 계산하기 위한 측도는 무엇인가? ① 유클리디안 거리 ② 자카드 거리 ③ 맨하튼 거리 ④ 표준화 거리 ※ 정답 : 2번 2. 아래

inform.workhyo.com

 

<ADsP 요약+기출문제 자료 다운로드(바로가기)>

 

ADsP 빅데이터분석준전문가 자격증 대비 요약 및 기출 | 10000원부터 시작 가능한 총 평점 0점의 자

0개 총 작업 개수 완료한 총 평점 0점인 WorkHYO의 자료·템플릿, 취업·입시 자료, 기타 서비스를 0개의 리뷰와 함께 확인해 보세요. 자료·템플릿, 취업·입시 자료, 기타 제공 등 10000원부터 시작 가

kmong.com

 

320x100
반응형