본문 바로가기

자격증공부/데이터분석준전문가(ADsP)

[ADsP] (3과목) 데이터 분석 - 데이터 전처리 기출문제

320x100

 

<데이터 전처리>

1. 다음 중 여러 곳에 흩어진 데이터를 수집한 뒤 기업의 의사결정을 위해 공통의 형식으로 변환된 데이터의 집합으로써 특정 목적을 달성하기 위해 추출된 작은 데이터 집합은 무엇인가?

① 데이터베이스

② 데이터 마트

③ 데이터 레이크

④ 데이터 웨어하우스

 

정답 : 2번
- 데이터레이크는 목적을 가지고 있지 않은 모든 데이터가 자유롭게 저장된 저장소
- 데이터웨어하우스는 형식을 가지고 데이터가 저장됨

2. 다음 보기에서 설명하는 패키지는 무엇인가?

데이터프레임을 하나 이상의 특정 변수를 기준으로 나누는 함수와 나누어진 데이터를 원하는 구성으로 재결합하는 함수를 제공하며, 유연한 데이터 재구성 및 총계 처리가 가능하도록 도와준다. 대표적인 함수로는 melt와 cast가 있다.

① reshape

② sqldf

③ plyr

④ data.table

 

정답 : 1번

 

3. 아래 보기는 무엇에 대한 설명인가?

데이터 분석을 수행하기 전 데이터의 이해는 무엇보다도 중요하다. 그에 따라 데이터의 기초통계량 값을 확인하고 다양한 관점에서 데이터를 바라보기 위해 시각화를 수행하는 등의 작업을 말한다.

 

정답 : 탐색적 데이터 분석(EDA)

 

4. 다음 중 결측값에 대한 설명으로 부적절한 것은?

① 결측값은 존재하지 않는 값으로 일반적으로 NA 또는 null로 표시된다,

② 결측값은 존재하지 않는 값이기 때문에 그 자체로 지닌 의미는 없다.

③ 결측값 처리를 위한 다중 대치법은 대치, 분석, 결합의 단계로 구성된다.

④ Amelia 패키지의 missmap 함수를 통해 결측값을 시각화 할 수 있다.

 

정답 : 2번

 

5. 다음 중 결측값 처리방법과 그 설명이 잘못 연결된 것은?

① 단순 대치법 – complete.cases값이 TRUE값에 대해서 결측값 제거를 수행한다.

② 조건부 평균 대치법 – 회귀분석을 통해서 결측값을 대치한다.

③ 단순 확률 대치법 – 평균 대치법의 표준 오차에 대한 과소 추정을 보완하기 위해 고려된 방법이다.

④ 다중 대치법 – n 번의 대치를 통해 가상의 자료속에서 결측값을 대치하는 방법이다.

 

정답 : 1번 - 완벽하지 못한 False값에 대해 결측값 제거를 수행

 

6. 다음 중 이상값에 대한 설명으로 가장 부적절한 것은?

① 데이터 입력 시점에 사람의 실수로 인해 발생할 수 있는 값도 이상값의 한 종류이다.

② ESD는 이상값을 판단하는 기준으로 평균으로부터 표준편차의 3배를 넘어서는 데이터를 이상값으로 판단한다.

③ 사분위수를 이용한 이상값 판단 기준으로는 IQR의 1.5배를 사용한다.

④ 이상값도 결측값과 마찬가지로 무조건 단순대치법을 활용하여 제거한다.

 

정답 : 4번 - 이상값 제거 여부는 데이터분석가에 달려있음

 

7. 이상값 판정 방법으로 가장 부적절한 것은 무엇인가?

① 평균으로부터 표준편차의 3배 이상 떨어져 있는 값을 이상치로 판단할 수 있다.

② 군집분석을 이용해 다른 데이터들과 거리상 멀리 떨어진 데이터를 이상치로 판단할 수 있다.

③ Q2 ± 1.5 × IQR 보다 크거나 작으면 이상치로 인식한다.

④ 회귀분석에서는 동일수준의 설명변수에 대해서 종속변수의 상이한 값을 이상치로 판단한다.

 

정답 : 3번

반응형

8. 파생변수는 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수이다. 다음 중 파생변수의 설명으로 적절한 것은?

① 파생변수는 매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야 한다.

② 파생변수는 많은 모델에서 공통적으로 많이 사용될 수 있다.

③ 파생변수는 재활용성이 높다.

④ 파생변수는 다양한 모델을 개발해야 하는 경우, 효율적으로 사용할 수 있다.

 

※ 정답 : 1번

 

9. 다음 중 결측치에 대한 설명으로 가장 부적절한 것은?

① 해당 칸이 비어있는 경우 결측치 여부는 알기 쉽다.

② 관측치가 있지만 실상은 dafult 값이 기록된 경우에도 결측치로 처리해야 하는 것이 바람직하다.

③ 결측치가 있는 경우 다양한 대치 방법을 사용하여 완전한 자료로 만든 후 분석을 진행할 수 있다.

④ 결측치가 20% 이상인 경우에는 해당 변수를 제거하고 분석해야 한다.

 

※ 정답 : 2번
 - 관측치가 기록된 값을 결측치로 처리하여 분석하는 것은 옳지 않다.디폴트 값이 기록된 경우라도 의미가 있기 때문에 결측치로 처리하면 분석에 큰 오류로 작용할 수 있다.

 

10. 결측값은 관측되어 얻어지는 실험자료에서 종종 나타나는 현상이다. 결측값을 분석할 수 있는 통계분석 방법론으로 대치법이 있다. 다음 중 결측값을 처리하는 방법에 대한 설명 중 부적절한 것은?

① complete analysis는 불완전 자료를 모두 삭제하고 완전한 관측치만으로 자료를 분석하는 방법이다. 그러나 부분적 관측자료를 사용하므로 통계적 추론의 타당성 문제가 있다.

② 평균대치법은 자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료를 만들어 분석하는 방법이다.

③ 단순확률대치법은 평균대치법에서 추정량 표준오차의 과소 추정 문제를 보완하고자 고안된 방법이다.

④ 다중대치법은 다순대치법을 하번하지 않고 m번 대치를 통해 m개의 가성적 완전 자료를 만들어서 분석하는 방법이다. 추정량의 과소추정이나 계산의 난해성 문제가 보완된 방법이다.

 

※ 정답 : 4번
 - 다중대치법은 추정량의 표준오차의 과소추정 또는 계산의 난해성 문제가 보완된 방법

 

11. 이상치를 찾는 것은 데이터 분석에서 데이터 전처리를 어떻게 할지 검정할 때 사용할 수 있다. 다음 중 상자그림을 이용하여 이상치를 판정하는 방법에 대한 설명으로 가장 부적절한 것은?

① IQR = Q3 - Q1이라고 할 때, Q1-1.5*IQR < x < Q3+1.5*IQR을 벗어나는 x를 이상치라고 규정한다.

② 평균으로부터 3*표준편차 벗어나는 것들을 비정상이라고 규정하고 제거한다.

③ 이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있다.

④ 이상치는 분포를 왜곡할 수 있으나 실제 오류인자에 대해서는 통계적으로 실행하지 못하기 때문에 제거여부는 실무자들을 통해서 결정하는 것이 바람직하다.

 

※ 정답 : 2번 - 이상치는 분석에서 제외할 수 있지만 무조건적으로 제거할 수는 없다.

 

12. 다음 중 이상값 검색을 활용한 응용시스템으로 가장 적절한 것은?

① 장바구니분석 시스템

② 데이터마트

③ 교차판매 시스템

④ 부정사용방지 시스템

 

※ 정답 : 4번

320x100

13. 이상치에 대한 설명으로 가장 부적절한 것은?

① 군집분석을 이용하여 다른 데이터들과 거리상 멀리 떨어진 데이터를 이상치로 판정한다.

② 데이터를 측정과정이나 입력하는 과정에서 잘못 포함된 이상치는 삭제 후 분석한다.

③ 설명변수의 관측치에 비해 종속변수의 값이 상이한 값을 이상치라 한다.

④ 통상 평균으로부터 표준편차의 3배가 되는 점을 기준으로 이상치를 정의한다.

 

※ 정답 : 2번

 - 이상치는 분석에 의미가 있을 수 있으므로 제거하면 안된다.

 

14. 다음은 이상값에 대한 설명이다. 잘못 설명한 내용을 고르시요.

① 부정사용방지 시스템이나 부도예측시스템에서는 이상값이라도 의미가 있으므로 제거하지 않는다.

② 이상값 인식에 있어서 가장 많이 활용하는 방법은 ESD으로 평균에서 3 표준편차를 벗어나는 경우 이상값으로 인식하는 방법이다.

③ 이상값의 처리에 있어서 극단값 절단 방법과 조정 방법이 있으며, 조정의 경우 제거 방법에 비해 데이터 손실율이 높아 설명력이 낮아지는 단점이 있다.

④ 의도하지 않게 잘못 입력된 데이터인 경우 bad data에 해당되며 이허한 경우 데이터를 제거하여 분석한다.

 

※ 정답 : 3번
 - 이상치 절단이나 조정은 제거에 비해 데이터 손실율이 낮아지기 때문에 설명력이 높아지는 장점이 있다.

 

15. R에서 반복문을 다중으로 사용할 경우 계산 시간이 현저하게 떨어지는 단점이 있다. 다음 함수 중 multi-core를 사용하여 반복문을 사용하지 않고도 매우 간단하고 빠르게 처리할 수 있는 데이터 처리 함수를 포함하고 있는 패키지는?

① plyr

② sqldf

③ caret

④ party

 

※ 정답 : 1번

 

16. 데이터 전처리 단계에서 데이터의 이상치에 대한 설명으로 틀린 것은?

① 최대값과 최소값

② 데이터 입력 시 오타로 인해 잘못 입력된 경우

③ 분석 목적에 부합되지 않아 제거해야 하는 경우

④ 부정사용방지 시스템에서 의도된 이상 값

 

※ 정답 : 1번

 

17. 아래는 이상치 탐지에 대한 설명이다. 다음 중 이상치를 유용하게 사용하는 분야의 예로 부적절한 것은?

① 사기탐지 : 도난당한 신용카드의 구매 행위는 원 소유자의 행위와 다를 수 있다. 평상시의 행위와 다른 구매패턴을 조사하여 사기를 탐지할 수 있다.

② 환경파괴 : 자연 세계에서는 환경에 중요한 영향을 줄 수 있는 홍수, 가뭄 같은 사건들이 있다. 그러나 이러한 사건은 정상적인 환경에서 발생하는 사건으로 해석할 수 있다.

③ 의료 : 특정 환자에게 보이는 예외적인 증세나 검사 결과는 잠재적인 건강 문제를 나타낸다.

④ 침입탐지 : 컴퓨터 네트워크에 대한 공격은 보편화되었다. 침임의 다수는 네트워크에 대한 예외적인 행위를 감시하는 경우에 탐지할 수 있다.

 

※ 정답 : 2번

 

18. 평균으로부터 t standard deviation 이상 떨어진 갓븓ㄹ을 이상값으로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘은?

 

※ 정답 : ESD

 

<관련 이론 요약 정리>

2023.02.19 - [자격증공부] - [ADsP] (3과목) 데이터 분석 - 데이터 전처리 요약

 

[ADsP] (3과목) 데이터 분석 - 데이터마트 요약

1. 데이터 웨어하우스(DW)와 데이터마트(DM) ㅇ 데이터 웨어하우스 : 여러 데이터베이스(RDB, 클라우드, NoSQL 등)로부터 공통의 형식으로 변환되어 사용자의 의사결정에 도움이 되기 위한 일시적인

inform.workhyo.com

 

<ADsP 요약+기출문제 자료 다운로드(바로가기)>

 

ADsP 빅데이터분석준전문가 자격증 대비 요약 및 기출 | 10000원부터 시작 가능한 총 평점 0점의 자

0개 총 작업 개수 완료한 총 평점 0점인 WorkHYO의 자료·템플릿, 취업·입시 자료, 기타 서비스를 0개의 리뷰와 함께 확인해 보세요. 자료·템플릿, 취업·입시 자료, 기타 제공 등 10000원부터 시작 가

kmong.com

 

320x100
반응형