'Certificate/ADSP' 카테고리의 글 목록

728x90

데이터 분석 기법의 이해

1. 데이터 처리 과정

# 데이터 분석을 위해서는 데이터 웨어하우스(DW)나 데이터 마트(DM)을 통해 분석 데이터를 구성

# 신규데이터나 DW에 없는 데이터는 기존 운영시스템(Legacy)에서 직접 가져오거나 운영데이터저장소(ODS)에서 정제된 데이터를 가져와서 DW의 데이터에 결합하여 사용

2. 시각화 기법

# 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다 더 효율적이며 대용량 데이터를 다룰 때와 탐색적 분석을 할 때 시각화는 필수

3. 공간분석

# 공간적 차원과 관련된 속성들을 시각화하는 분석으로 지도 뒤에 관련된 속성들을 생성하고 크기모양, 선 굵기 등을 구분하여 인사이트를 얻음

3. 탐색적 자료분석(EDA)

# 다양한 차원과 값을 조합해 가며 특이점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해 가는 과정

# EDA의 4가지 주제: 저항성 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성

4. 통계분석

# 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타내는 것

5. 데이터 마이닝

# 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 이전에 알지 못한 유용한 지식을 추출하는 분석 방법

# 방법론: 기계학습(인공신경망, 의사결정나무, 클러스터링, SVM), 패턴인식(연관규칙, 장바구니분석) 등

R소개

1. R의 탄생

# R은 오픈 소스 프로그램으로 통계/데이터 마이닝과 그래프를 위한 언어이다.

# 다양한 최신 통계분석과 마이닝 기능을 제공하며, 5000개에 이르는 패키지가 수시로 업데이트 된다.

2. 변수 다루기

# R에서는 변수명만 선언한 값을 할당하면 자료형태를 스스로 인식하고 선언함

# 화면에 프린트하고자 할 때, print()를 사용해도 되지만 변숫값만 표현해도 내용을 출력함

# 변수에 값을 할당할 때는 대입연산자(<-, <<-, =, ->, ->>)를 사용할 수 있으나 <-를 추천함

# 메모리에 불필요한 변수가 있는지 확인하기 위해서는 Is()를 활용하고 삭제는 rm()을 활용함

3. 기본적인 통계량 계산

# 평균: mean()

# 표준편차: sd()

# 공분산: cov()

# 중앙값: median()

# 분산: var()

# 상관계수: cor()

4. 외부 파일 입력과 출력

# 고정자리 변수 파일: read.fwf("파일명", width=c(w1, w2,...))

# 구분자 변수 파일: read.table("파일명", sep="구분자")

# csv 파일 읽기: read.csv("파일명", header=T) ***1행이 변수인 경우: header=T

# csv 파일 출력: write.csv(데이터 프레임, "파일명")

데이터 구조와 데이터 프레임

1. 데이터 구조의 정의

특징	벡터	리스트	데이터프레임
원소자료형	동질적	이질적	이질적
원소를 위치로 인덱싱	가능	가능	가능
인덱싱으로 여러 개 원소로 구성된 하위 데이터 생성	가능	가능	가능
원소들에 이름 부여	가능	가능	가능

2. 문자열 다루기

문자열 길이	nchar("문자열")
벡터의 길이	length(vec)
문자열 연결하기	paste("단어", "문장", scalar)
하위 문자열 추출하기	substr("문자열", 시작번호, 끝번호)
구분자로 문자열 추출하기	strsplit("문자열", 구분자)
문자열 대체하기	sub("대상문자열", "변경문자열", s) gsub("대상문자열", "변경문자열", s)

3. 날짜 다루기

# 문자열 → 날짜 : as.Date("2014-12-25")

as.Date("12/25/2014", format="%m/%d/%y")

# 날짜 → 문자열 : format(Sys.Date(), format = "%m/%d/%Y")

# format 인자값

R 표현	표시 형태	R 표현	표시 형태
%b	축약된 월 이름("Jan")	%B	전체 월 이름("January")
%d	두 자리 숫자로 된 일("31")	%m	두 자리 숫자로 된 월("12")
%y	두 자리 숫자로 된 년("14")	%Y	네 자리 숫자로 된 년("2014")

데이터 변경 및 요약

1. 데이터 마트

-데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있음

2. 요약변수와 파생변수

	요약변수	파생변수
정의	-수집된 정보를 분석에 맞게 종합한 변수로 데이터 마트에서 가장 기본적인 변수 -많은 모델이 공통으로 사용할 수 있어 재활용성 높음	-사용자(분석가)가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수 -매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있음
예시	기간별 구매 금액, 횟수, 여부 / 위클리 쇼퍼 / 상품별 구매 금액, 횟수, 여부 / 상품별 구매 순서 / 유통 채널별 구매 금액 / 단어 빈도 / 초기 행동변수 / 트랜드 변수 / 결측값과 이상값 처리 / 연속형 변수의 구간화	근무시간 구매지수 / 주 구매 매장 변수 / 주 활동 지역변수 / 주 구매 상품 변수 / 구매상품 다양성 변수 / 선호하는 가격대 변수 /시즌 선호 고객 변수 / 라이프 스테이지 변수 / 라이프스타일 변수 / 휴면가망 변수 / 최대가치 변수 / 최적 통화시간 등

3. reshape 패키지

-2개의 핵심적인 함수로 구성

# melt(): 쉬운 casting을 위해 데이터를 적당한 형태로 만들어주는 함수

# cast(): 데이터를 원하는 형태로 계산 또는 변형시켜 주는 함수

-변수를 조합해 변수명을 만들고 변수들을 시간, 상품의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있게 해주는 패키지임

4. sqldf 패키지

-R에서 sql 명령어를 사용 가능하게 해주는 패키지로 SAS의 proc sql과 같은 기능

-head([df]) → sqldf("select * from [df] limit 6")

-subset([df], [col] %in% c("BF", "HF")) → sqldf("select * from [df] where [col] in('BF', 'HF')")

-merge([df1],[df2]) → sqldf("select * from [df1], [df2]")

5. plyr 패키지

-apply 함수를 기반으로 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지

-split-apply-combine 방식으로 데이터를 분리하고 처리한 다음, 당시 결합하는 등 필수적인 데이터 처리 기능 제공

6. data.table

-R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나로 대용량 데이터의 탐색, 연산, 병합에 유용

-기존 data.frame 방식보다 월등히 빠른 속도

-특정 column을 key 값으로 색인을 지정한 후 데이터 처리

-빠른 grouping과 ordering, 짧은 문장 지원 측면에서 데이터프레임 보다 유용함

데이터 가공

1. 변수의 구간화

-신용평가모형, 고객 세분화 등의 시스템으로 모형을 제공하기 위해서 각 변수들을 구간화하여 점수를 적용하는 방식 활용

-변수의 구간화를 위한 rule이 존재함 (※ 10진수 단위로 구간화하고, 구간을 5개로 나누는 것이 보통이며, 7개 이상의 구간을 잘 만들지 않음)

2. 변수 구간화의 방법

-Binning: 연속형 변수를 범주형 변수로 변환하기 위해 50개 이하의 구간에 동일한 수 의 데이터를 할당하여 의미를 파악하면서 구간을 축소하는 방법

-의사결정나무: 모형을 통해 연속형 범수를 범주형 변수로 변환하는 방법

기초 분석 및 데이터 관리

1. 결측값 처리

-변수에 데이터가 비어 있는 경우

# NA, ., 99999999, Unknown, Not Answer 등으로 표현

-단순 대치법(Single Imputation)

# Complets Analysis: 결측값의 레코드를 삭제

# 평균대치법: 관측 및 실험을 통해 얻어진 데이터의 평균으로 대치

▶ 비조건부 평균 대치법: 관측 데이터의 평균으로 대치

▶ 조건부 평균 대치법: 회귀분석을 통해 데이터를 대치

# 단순 확률 대치법: 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보안한 방법으로 Hot-Deck 방법, Nearest Neighbor 방법이 있음

-다중 대치법(Multiple Imputation)

# 단순 대치법을 m번 실시하여, m개의 가상적 자료를 만들어 대치하는 방법

2. R의 결측값 처리 관련 함수

-complete.cases(): 데이터 내 레코드에 결측값이 있으면 FALSE, 없으면 TRUE 반환

-is.na(): 결측값이 NA인지의 여부를 TRUE/FALSE로 반환

-DMwR 패키지

# centralInputation(): NA 값을 가운데 값(Central Value)으로 대치 (숫자-중위수, Factor-최빈)

# knnImputation(): NA 값을 k최근 이웃 분류 알고리즘을 사용하여 대치 (k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 사용)

-Amelia 패키지

# amelia(): time-series-cross-sectional data set(여러 국가에서 매년 측정된 자료)에서 활용

3. 이상값 처리

-이상값

# 의도하지 않은 현상으로 입력된 값 or 의도된 극단값 → 활용할 수 있음

# 잘못 입력된 값 or 의도하지 않은 현상으로 입력된 값이지만 분석 목적에 부합되지 않는 값 → Bad Data이므로 제거

-이상값의 인식

# ESD(Extreme Studentized Deviation): 평균으로부터 3 표준편차 떨어진 값

# 기하평균 - 2.5 * 표준편차 < data < 기하평균 + 2.5 * 표준편차

# Q1 - 1.5 *IQR < data < Q3 + 1.5 * IQR을 벗어나는 데이터 (IQR = Q3 - Q1)

-이상값의 처리

# 절단(Trimming): 이상값이 포함된 레코드를 삭제

# 조정(Winsorizing): 이상값을 상한 또는 하한값으로 조정

통계분석의 이해

1. 통계

통계	특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
통계자료의 획득 방법	총 조사(Census)와 표본조사(Sampling)
표본 추출 방법	단순랜덤추출(Simple Random Sampling), 계통추출법(Systematic Sampling), 집락추출법(Cluster Sampling), 층화추출법(Stratified Random Sampling)
자료의 측정 방법	명목척도, 순서척도, 구간척도, 비율척도

2. 통계분석

기술통계(Descriptive statistic)	평균, 표준편차, 중위수, 최빈값, 그래프
통계적 추론(Statistical inference)	모수추정, 가설검정, 예측

3. 확률 및 확률 분포

확률변수(Random Variable)	특정 값이 나타날 가능성이 확률적으로 주어지는 변수
이산형 확률분포(Discrete Distribution)	베르누이분포, 이항분포, 기하분포, 다항분포, 포아송분포
연속형 확률분포(Continuous Distribution)	균일분포, 정규분포, 지수분포, t분포, f분포, x^2분포

4. 추정 및 가설검정

추정	표본으로부터 미지의 모수를 추측하는 것
점추정 (Point Estimation)	'모수가 특정한 값일 것'이라고 추정하는 것 평균, 표준편차, 중앙값 등을 추정 점추정 조건: 불편성(Unbiasedness), 효율성(Efficiency), 일치성(Consistency), 충족성(Sufficient)
구간추정 (Interval Estimation)	점추정을 보완하기 위해 모수가 특정 구간에 있을 것이라고 추정하는 것. 모분산을 알거나 대표본의 경우 표준정규분포 활용, 모분산을 모르거나 소표본의 경우 t분포 활용

-가설검정: 모집단에 대한 가설을 설정한 뒤, 그 가설을 채택여부를 결정하는 방법

# 귀무가설(Null Hypothesis, H0) vs 대립가설(Alternative Hypothesis, H1)

# 1종 오류(Type 1 Error): 귀무가설 H0가 옳은데도 귀무가설을 기각하게 되는 오류

# 2종 오류(Type 2 Error): 귀무가설 H0가 옳지 않은데도 귀무가설을 채택하게 되는 오류

		가설검정결과
		H0가 사실이라고 판정	H0가 사실이 아니라고 판정
정확한 사실	H0가 사실임	옳은 결정	제 1종 오류( α )
정확한 사실	H0가 사실이 아님	제 2종 오류( β )	옳은 결정

# 1종 오류의 크기를 0.1, 0.05, 0.01로 고정시키고 2종 오류가 최소가 되도록 기각역을 설정

5. 비모수 검정

-비모수 검정: 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시

-가설 설정 방법: '분포의 형태가 동일하다', '분포의 형태가 동일하지 않다'라는 식으로 가설을 설정

-검정 방법: 순위나 두 관측값 차이의 부호를 이해 검정

# 예: 부호검정(Sign Test), 윌콕슨의 순위합 검정(Wilcoxon's Rank Sum Test), 윌콕슨의 부호 순위 검정(Wilcoxon's Signed Rank Test), 맨-휘트니의 U검정(Mann–Whitney U Test), 스피어만의 순위상관계수(Spearman's rank correlation analysis)

기초 통계 분석

1. 기술 통계

-기술 통계(Descriptive Statistic): 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리/요약하는 것

# 통계량에 의한 자료 정리

▶중심 위치의 측도: 평균, 중앙값, 최빈값

▶산포의 측도: 분산, 표준편차, 범위, 사분위수범위, 변동계수, 표준오차

▶분포의 형태: 왜도, 첨도

# 그래프를 통한 자료 정리

▶범주형 자료: 막대그래프, 파이차트, 모자이크 플랏 등

▶연속형 자료: 히스토그램, 줄기-잎 그림, 상자그림

2. 인과관계의 이해

-용어

# 용어

▶종속변수(반응변수, y), 독립변수(설명변수, x), 산점도(Scatter Plot)

▶산점도에서 확인할 수 있는 것

두 변수 사이의 선형관계가 성립하는가?

두 변수 사이의 함수관계가 성립하는가?

이상값의 존재 여부와 몇 개의 집단으로 구분되는지를 확인

# 공분산(Covariance)

▶두 변수 간의 상관 정도를 상관계수를 통해 확인할 수 있음

▶ (Cov(X, Y) = E[(Xᵢ - μₓ) (Yᵢ - μᵧ)]

3. 상관분석(Correlation Analysis)

-정의와 특성

# 상관분석: 두 변수간의 관계를 상관계수를 이용하여 알아보는 분석 방법

# 상관계수가 1에 가까울수록 강한 양의 상관관계, 상관계수가 -1에 가까울수록 강한 음이 상관관계를 가짐

# 상관계수가 0인 경우 데이터 간의 상관이 없음

-유형

구분	피어슨	스피어만
개념	등간척도 이상으로 측정된 두 변수의 상관관계 측정	순서, 서열 척도인 두 변수들 간의 상관관계를 측정
특징	연속형 변수, 정규성 가정	순서형 변수, 비모수적 방법
상관계수	적률상관계수 r	순위상관계수 p
R코드	cor(x, y, method=c("person", "kendall", "spearman"))

회귀분석

1. 회귀분석의 개요

-정의

# 하나 또는 그 이상의 독립 변수들이 종속 변수에 미치는 영향을 추정할 수 있는 통계 기법

# 독립 변수가 1개: 단순선형회귀분석, 독립 변수가 2개 이상: 다중선형회귀분석

# 최소제곱법: 측정값을 기초로 제곱합을 만들고 그것의 최소인 값을 구하여 처리하는 방법, 잔차제곱합이 가장 작은 선을 선택

-회귀분석의 검정

# 회귀식(모형)에 대한 검증: F-검증

# 회귀계수들에 대한 검증: T-검증

# 모형의 설명력은 결정계수(R^2)로 알 수 있으며 구하는 식은 R^2=회귀제곱합/전체제곱합=SSR/SST

# 단순회귀분석의 결정계수는 상관계수 값의 제곱과 같음

-선형회귀분석

#가정

선형성	입력변수와 출력변수의 관계가 선형
독립성	잔차와 독립변인은 관련이 없음
등분산성	독립변인의 모든 값에 대한 오차들의 분산이 일정
비상관성	관측치들의 잔차들끼리 상관이 없어야 함
정상성(정규성)	잔차항이 정규분포를 이뤄야 함

# 다중선형회귀분석의 다중공선성(Multicolinearity)

▶다중회귀분석에서 설명변수들 사이에 강한 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란

# 다중공선성 검사 방법

▶분산팽창요인(VIF): 10보다 크면 심각한 문제

▶상태지수: 10 이상이면 문제가 있다고 보고, 30보다 크면 심각, 선형관계가 강한 변수는 제거

-회귀분석의 종류: 단순회귀, 다중회귀, 로지스틱회귀, 다항회귀, 곡선회귀, 비선형회귀

-변수선택법(Variable Selection)

# 모든 가능한 조합: 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택

전진선택법 (Forward Selection)	절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가 → 이해 쉬움, 많은 변수에서 활용가능, 변수 값의 작은 변동에 결과가 달라져 안정성이 부족
후진제거법 (Backward Selection)	독립변수 후보 모두를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거 → 전체 변수들의 정보를 이용 가능, 변수가 많은 경우 활용이 어려움, 안정성 부족
단계별방법 (Stepwise Method)	전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 삭제되는 변수를 검토해 더 이상 없을때 중단

시계열 분석

1. 시계열 자료

-개요

# 시계열 자료(Time Series): 시간의 흐름에 따라 관찰된 값들

# 시계열 데이터의 분석 목적: 미래의 값을 예측, 특성 파악(경향, 주기, 계절성, 불규칙성 등)

-정상성 (3가지를 모두 만족)

# 평균이 일정(모든 시점에서 일정한 평균을 가짐)

# 분산도 일정

# 공분산도 특정시점에서 t, s에 의존하지 않고 일정

-시계열 모형

# 자기회귀모형(AR, Autoregressive Model): p 시점 전의 자료가 현재 자료에 영향을 주는 모형

# 이동평균모형(MA, Moving Average Model): 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이뤄진 모형

#자기회귀누적이동평균모형(ARIMA(p,d,q))

▶d(차분) = 0 이면 정상성 만족, p=0 이면 d번 차분한 MA(q) 모델, q=0이면 d번 차분한 AR(p) 모델

-분해 시계열

# 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

▶추세요인(Trend Factor): 형태가 오르거나 또는 내리는 추세, 선형, 이차식, 지수형태

▶계절요인(Seasonal Factor): 요일, 월, 사분기 별로 변화하여 고정된 주기에 따라 자료가 변화

▶순환요인(Cyclical Factor): 명백한 경제적, 자연적 이유 없이 알려지지 않은 주기로 자료가 변화

▶불규칙요인(Irregular Factor): 위 세 가지의 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인

다차원 척도법과 주성분분석

1. 다차원 척도법

-정의 및 목적

# 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후, 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간 상에서 점으로 표현하는 분석방법

# 목적: 개체들의 비유사성을 이용하여 2차원 공간상에 점으로 표시하고 개체들 사이의 집단화를 시각적으로 표현

-방법

# 개체들의 거리 계산은 유클리드 거리행렬을 활용

# d(x, y) = √(x₂ - x₁)² + (y₂ - y₁)²

# STRESS: 개체들을 공간상에 표현하기 위한 방법으로 STRESS나 S-STRESS를 부적합도 기준으로 사용

▶최적모형의 적합은 부적합도를 최소로 하는 방법으로 일정 수준 이하로 될 때까지 반복해서 수행

-종류

계량적 MDS (Metric MDS)	-데이터가 구간척도나 비율척도인 경우 활용(전통적인 다차원척도법) -N개의 케이스에 대해 p개의 특성변수가 있는 경우, 각 개체들 간의 유클리드 거리행렬을 계산하고 개체들 간의 비유사성 S(거리제곱 행렬의 선형함수)를 공간상에 표현
비계량적 MDS (Nonmetric MDS)	-데이터가 순서척도인 경우 활용 -개체들 간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환(Monotone Transformation)하여 거리를 생성한 후 적용

2. 주성분분석

-정의 및 목적

# 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 분석으로, 선형결합으로 변수를 축약, 축소하는 기법

# 목적: 여러 변수들을 소수의 주성분으로 축소하여 데이터를 쉽게 이해하고 관리. 주성분분석을 통해 차원을 축소하여 군집분석에서 군집화 결과와 연산 속도 개선, 회귀분석에서 다중 공선성을 최소화

-주성분분석 vs 요인분석

# 요인분석(Factor Analysis): 등간척도(혹은 비율척도)로 두 개 이상의 변수들에게 잠재되어 있는 공통 인자를 찾아내는 기법

# 공통점: 모두 데이터를 축소하는데 활용, 몇 개의 새로운 변수들로 축소

차이점	생성된 변수의 수와 이름	생성된 변수들 간의 관계	목표변수와의 관계
요인분석	몇 개로 지정할 수 없으나, 이름을 붙일 수 있음	생성된 변수들이 기본적으로 대등한 관계	목표변수를 고려하지 않고 주어진 변수들간 비슷한 성격들을 묶음
주성분분석	제 1주성분, 제 2주성분을 생성(보통 2개), 이름은 제 1주성붙과 같이 정해짐	제 1주성분, 제 2주성분 순으로 중요함	목표변수를 고려하여 주성분 변수 생성

-주성분의 선택법

# 누적기여율(Cumulative Proportion)이 85% 이상이면 주성분의 수로 결정할 수 있음

# Screen Plot에서 고윳값(Eigen Value)이 수평을 유지하기 전 단계로 주성분의 수를 선택

데이터 마이닝의 개요

1. 데이터 마이닝

-개요

# 정의: 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법

# 통계분석과 차이점: 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 추출

# 활용분야: 분류, 예측, 군집화, 시각화 등

# 방법론: 의사결정나무, 로지스틱 회귀분석, 최근접 이웃법, 군집분석, 연관규칙 분석 등

-분석 방법

지도학습	비지도 학습
-의사결정나무(Decision Tree) -인공신경망(Artificial Neural Network) -로지스틱 회귀분석(Logistic Regression) -최근접 이웃법(k-Nearest Neighbor) -사례기반 추론(Case-Based Reasoning)	-OLAP(On-Line Analytic Processing) -연관 규칙 분석(Association Rule Analysis) -군집분석(k-Means Clustering) -SOM(Self Organizing Map)

-데이터 마이닝 추진단계

1. 목적설정	데이터 마이닝을 위한 명확한 목적 설정
2. 데이터 준비	모델링을 위한 다양한 데이터을 준비, 데이터 정제를 통해 품질을 보장
3. 데이터 가공	목적변수 정의, 모델링을 위한 데이터 형식으로 가공
4. 기법 적용	데이터 마이닝 기법을 적용하여 정보를 추출
5. 검증	마이닝으로 추출한 결과를 검정하고 업무에 적용해 기대효과를 전파

-데이터 분할

# 구축용(Training Data): 50%의 데이터를 모델링을 위한 훈련용으로 활용

# 검증용(Validation Data): 30%의 데이터를 구축된 모형의 과대/과소 추정의 판정 목적으로 활용

# 시험용(Test Data): 20%의 데이터를 테스트 데이터나 과거 데이터로 활용하여 모델의 성능 평가에 활용

분류분석

1. 분류분석과 예측분석

-개요

공통점	레코드의 특정 속성의 값을 미리 알아 맞히는 것
차이점	분류는 레코드의 범주형 속성의 값을 알아 맞히는 것 예측을 레코드의 연속형 속성의 값을 알아 맞히는 것
분류의 예	학생들의 국어, 영어 등 점수를 통해 내신등급을 예측 카드회사에서 회원들의 가입 정보를 통해 1년 후 신용등급을 예측
예측의 예	학생들의 여러 가지 정보를 입력해 수능점수를 예측 카드회사에서 회원들의 가입정보를 통해 연 매출액을 예측
분류 모델링	신용평가모형, 사기방지모형, 이탈모형, 고객세분화
분류기법	로지스틱 회귀분석 의사결정나무, CART 나이브 베이즈 분류 인공신경망 서포트 벡터 머신 K 최근접 이웃 규칙기반의 분류와 사례기반추론

2. 의사결정나무

-정의와 특징

# 분류 함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법으로, 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 함

# 주어진 입력값에 대해 출력값을 예측하는 모형으로 분류나무와 회귀나무 모형이 있음

# 특징

▶계산 결과가 의사결정나무에 직접 나타나게 돼 분석이 간편함

▶분류 정확도가 좋음

▶계산이 복잡하지 않아 대용량 데이터에서도 빠르게 만들 수 있음

▶비정상 잡음 데이터에 대해서도 민감함 없이 분류

▶한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향받지 않음

-활용

# 세분화(Segmentation): 데이터를 비슷한 특성을 갖는 몇 개의 그룹으로 분할해 그룹별 특성을 발견

# 분류(Classification): 관측개체를 여러 예측변수들에 근거해 목표변수의 범주를 몇개의 등급으로 분류하고자 하는 경우

# 예측(Prediction): 자료에서 규칙을 찾아내고 이를 이용해 미래의 사건을 예측하고자 하는 경우

# 차원축소 및 변수선택(Reduction, Variable Selection): 매우 많은 수의 예측변수 중 목표변수에 영향을 미치는 변수들을 골라내고자 하는 경우

# 교호작용효과의 파악(Interaction Effect Identification): 여러 개의 예측변수들을 결합해 목표 변수에 작용하여 파악하고자 하는 경우

# 범주의 병합 또는 연속형 변수의 이산화(Binning): 범주형 목표변수의 범주를 소수의 몇 개로 병합하거나 연속형 목표변수를 몇 개의 등급으로 이산화 하고자 하는 경우

-의사결정나무의 분석 과정

# 분석 단계: 성장 → 가지치기 → 타당성 평가 → 해석 및 예측

# 가지치기(Pruning): 너무 큰 나무 모형은 자료를 과대적합하고 너무 작은 나무 모형은 과소적합 할 위험이 있어 마디에 속한 자료가 일정 수 이하일 경우, 분할을 정지하고 가지치기 실시

# 불순도에 따른 분할 측도: 카이제곱 통계량, 지니지수, 엔트로피 지수

-의사결정나무 분석의 종류

# CART(Classification and RegressionTree)

▶목적변수가 범주형인 경우 지니지수, 연속형인 경우 분산을 이용해 이진분리를 사용

▶개별 입력변수뿐만 아니라 입력변수들의 선형결합들 중 최적의 분리를 찾을 수 있음

# C4.5와 C5.0

▶다지분리(Multiple Split)가 가능하고 범주형 입력 변수의 범주 수만큼 분리 가능

▶불순도의 측도로 엔트로피 지수 사용

# CHAID(Chi-Square Automatic Interaction Detection)

▶가지치기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하며 입력변수가 반드시 범주형 변수여야 함

▶불순도의 측도로 카이제곱 통계량 사용

3. 앙상블 기법

-개요

# 주어진 자료로부터 여러 개의 예측모형들을 만든 후 조합하여 하나의 최종예측모형을 만드는 방법

# 다중 모델 조합(Combining Multiple Models), Classifier Combination 방법이 있음

# 학습 방법의 불안전성을 해결하기 위해 고안된 기법

# 가장 불안정성을 가지는 기법은 의사결정나무, 가장 안정성을 가지는 기법은 1-Nearest Neighbor

-기법의 종류

배깅 (Bagging: Bootstrap Aggregating)	-여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료의 예측모형 결과를 결합하여 결과를 선정 -배깅은 훈련자료를 모집단으로 생각하고 평균 예측모형을 구한 것과 같아 분산을 줄이고 예측력을 향상시킬 수 있음
부스팅 (Boosting)	-예측력이 약한 모형(Weak Learner)들을 결합하여 강한 예측모형을 만드는 방법 -훈련 오차를 빨리 그리고 쉽게 줄일 수 있고, 예측오차의 향상으로 배깅에 비해 뛰어난 예측력을 보임
랜덤 포레스트 (Random Forest)	-의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법 -이론적 설명이나 해석이 어렵다는 단점이 있지만 예측력이 매우 높은 장점이 있음 -입력변수가 많은 경우 더 좋은 예측력을 보임

4. 성과분석

-오분류표를 통한 모델 평가

		Condition
		Positive	Negative
Prediction	Positive	True Positive / TP	False Positive / FP	정밀도(Precision) TP/(TP+FP)
Prediction	Negative	False Negative / FN	True Negative /TN
		민감도(Sensitivity) 재현율(Recall) =TP/(TP + FN)	특이도(Specificity) TN/(TN + FP)

# F1 Score = 2 * {(정밀도 * 재현율) / (정밀도 + 재현율)}

-ROC(Receiver Operation Characteristic)

# 민감도와 1-특이도를 활용하여 모형을 평가

# AUROC(ROC 커브 밑부분의 넓이): 1이 될수록 좋음

5. 인공신경망

-신경망의 연구

# 인공신경망은 뇌를 기반으로 한 추론 모델

# 1943년 매컬럭과 피츠: 인간의 뇌를 수많은 신경세포가 연결된 하나의 디지털 네트워크 모형으로 간주하고 신경세포의 신호처리 과정을 모형화하여 단순 패턴분류 모형을 개발

# 헵(Hebb): 신경세포(뉴런) 사이의 연결강도(Weight)를 조정하여 학습규칙 개발

# 로젠블럿(Rosenblatt, 1955): 퍼셉트론(Perceptron)이라는 인공 세포 개발, 비선형성의 한계점 발생

# 홉필드, 러멜하트, 맥클랜드: 역전파 알고리즘(Backpropagation)을 활용하여 비선형성을 극복한 다계층 퍼셉트론으로 새로운 인공신경망 모형 등장

-뉴런

# 인공신경망은 뉴런이라는 아주 단순하지만 복잡하게 연결된 프로세스로 이루어져 있음

# 뉴런은 가중치가 있는 링크들로 연결되어 있으며, 뉴런은 여러 개의 입력신호를 받아 하나의 출력신호를 생성

# 뉴런은 전이함수, 즉 활성화함수(Activation Function)를 사용

▶뉴런은 입력 신호의 가중치 합을 계산하여 임계값과 비교

▶가중치 합이 임계값보다 작으면 뉴런의 출력은 -1, 같거나 크면 +1을 출력함

6. 로지스틱 회귀분석

-개요

# 반응변수가 범주형이 경우에 적용되는 회귀분석모형

# 새로운 설명변수(또는 예측변수)가 주어질 때 반응변수의 각 범주(또는 집단)에 속할 확률이 얼마인지를 추정(예측모형)하여, 추정 확률을 기준치에 따라 분류하는 목적(분류모형)으로 활용

# 이때 모형의 적합을 통해 추정된 확률을 사후확률이라고 함

# exp(β₁)의 의미는 나머지 변수(x₁, x₂, ..., xₖ)가 주어질 때, x₁이 한 단위 증가할 때마다 성공(Y=1)의 오즈가 몇 배 증가하는지를 나타내는 값

군집분석

1. 군집분석

-개요

# 각 객체(대상)의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 분석방법

# 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것으로 군집의 개수, 구조에 대한 가정 없이 데이터로부터 거리 기준으로 군집화 유도

-특징

# 비지도학습법에 해당하여 타깃변수(종속변수)의 정의가 없이 학습이 가능

# 데이터를 분석의 목적에 따라 적절한 군집으로 분석자가 정의 가능

# 요인분석과의 차이: 유사한 변수를 함께 묶어주는 목적이 아니라 각 데이터(객체)를 묶어 줌

# 판별분석과의 차이: 판별분석은 사전에 집단이 나누어져 있어야 하고 군집분석은 집단이 없는 상태에서 집단을 구분

-거리 측정 방법

# 연속형 변수: 유클리드 거리, 표준화 거리, 마할라노비스 거리, 체비셔프 거리, 맨해튼 거리, 캔버라 거리, 민코우스키 거리 등

# 범주형 변수: 자카드 거리 등

-계층적 군집분석

# n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법

최단연결법	-n*n 거리행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성 -군집과 군집 또는 데이터와의 거리를 계산시 최단거리를 거리로 계산하여 거리행렬 수정 -수정된 거리행렬에서 거리가 가까운 데이터 또는 군집을 새로운 군집으로 형성
최장연결법	-군집과 군집 또는 데이터와의 거리를 계산시 최장거리를 거리로 계산하여 거리행렬 수정
평균연결법	-군집과 군집 또는 데이터와의 거리를 계산시 평균거리를 거리로 계산하여 거리행렬 수정
와드연결법	-군집 내 편차들의 제곱합을 고려한 방법으로 군집 간 정보의 손실을 최소화하기 위해 군집화를 진행

-비계층적 군집분석

# n개의 개체를 k개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성하는 것

# K-평균 군집분석(K-Means Clustering)

# 프로세스

▶ 원하는 군집의 개수와 초기 값(seed)들을 정해 seed 중심으로 군집을 형성

▶각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류

▶각 군집의 seed 값을 다시 계산

▶모든 개체가 군집으로 할당될 때까지 위 과정들을 반복

# 장점과 단점

장점	단점
주어진 데이터의 내부구조에 대한 사정정보 없이 의미있는 자료구조를 찾을 수 있음	가중치와 거리 정의가 어려움
다양한 형태의 데이터에 적용이 가능함	초기 군집 수를 결정하기 어려움
분석방법 적용이 용이함	사전에 주어진 목적이 없으므로 결과 해석이 어려움

-혼합 분포 군집(Mixture Distribution Clustering)

# 모형 기반(Model-Based)의 군집 방법이며, 데이터가 k개의 모수적 모형(흔히 정규분포 또는 다변량 정규분포를 가정함)의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 가중치를 자료로부터 추정하는 방법을 사용

# k개의 각 모형은 군집을 의미하며 , 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분류가 이루어짐

# 흔히 혼합모형에서의 모수와 가중치의 추정(최대가능도추정)에는 EM 알고리즘이 사용

# 혼합 분포 군집 모형의 특징

▶K-평균 군집의 절차와 유사하지만 확률분포를 도입하여 군집을 수행

▶군집을 몇 개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있음

▶EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸림

▶군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려움

▶K-평균 군집과 같이 이상치 자료에 민감하므로 사전에 조치가 필요

-SOM(Self-Organizing Map)

# SOM(자기조직화지도) 알고리즘은 코호넨에 의해 제시, 개발되었으면 코호넨 맵이라고도 알려져 있음

# SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저 차원의 뉴런으로 정렬하여 지도의 형태로 형상화, 이러한 형상화는 입력 변수의 위치 관계를 그대로 보존한다는 특징이 있음. 다시 말해 실제 공간의 입력 변수가 가까이 있으면, 지도 상에도 가까운 위치에 있게 됨

# SOM의 특징

▶고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉬움

▶입력 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현되며, 이런 특징 때문에 패턴 발견, 이미지 분석 등에서 뛰어난 성능을 보임

▶역전파 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스(Feed-Forward Flow)를 사용함으로써 속도가 매우 빠르므로 실시간 학습처를 할 수 있는 모형임

연관분석

1. 연관분석

-개요

# 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위한 분석. 흔히 장바구니 분석, 순차분석 등이 있음

# 장바구니 분석: 장바구니에 무엇이 같이 들어 있는지에 대해 분석.

ex) 주말을 위해 목요일에 기저귀를 사러 온 30대 직장인 고객은 맥주도 함께 사감

# 순차 분석: 구매 이력을 분석해서 A 품목을 산 후 추가 B 품목을 사는지를 분석

ex) 휴대폰을 새로 구매한 고객은 한 달 내에 휴대폰 케이스를 구매

-형태

# 조건과 반응의 형태(if-then)

-측도

지지도 (Support)	전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의 지지도 = A와 B가 동시에 포함된 거래 수 / 전채 거래 수
신뢰도 (Confidence)	항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함 될 확률. 연관성의 정도를 파악할 수 있음 신뢰도 = A와 B가 동시에 포함 된 거래 수 / A를 포함하는 거래 수
향상도 (Lift)	A가 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율 연관규칙 A → B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 됨 향상도 = A와 B가 동시에 포함 된 거래 수 / (A를 포함하는 거래 수 * B를 포함하는 거래 수)

-특징

#장점과 단점

장점	단점
탐색적인 기법 조건 반응으로 표현되는 연관성분석 결과를 쉽게 이해 할 수 있음	상당한 수의 계산과정 품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어남
강력한 비목적성 분석기법 분석 방향이나 목적이 특별히 없는 경우 목적 변수가 없으므로 유용하게 활용 됨	적절한 품목의 결정 너무 세분화한 품목을 갖고 연관석 규칙을 찾으면 수많은 연관성 규칙들이 발견되겠지만, 실제 발생 비율 면에서 의미 없는 분석이 될 수도 있음
사용이 편리한 분석 데이터의 형태 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용	품목의 비율차이 사용 될 모든 품목들 자체가 전체자료에서 동일한 빈도를 갖는 경우, 연관성 분석은 가장 좋은 결과를 얻음. 그러나 거래량이 적은 품목은 당연히 포함된 거래 수가 적을 것이고 규칙 발견 과정 중에서 제외되기 쉬움
계산의 용이성 분석을 위한 계산이 상당히 간단

-평가기준 적용 시 주의점

# 두 항목의 신뢰도가 높다고 해서 꼭 두 항목이 높은 연관관계가 있는 것은 아님(지지도를 함께 고려)

▶만일 두 항목의 신뢰도가 높게 나왔어도 전체 항목 중 두 항목의 동시 구매율인 지지도가 낮게 나온다면 두 항목 간 연관성을 신뢰하기에는 부족한 점이 있음

▶즉, 구매율 자체가 낮은 항목이기에 일반적인 상관관계로 보기엔 어려움

# 지지도와 신뢰도가 모두 높게 나왔더라도 꼭 두 항목이 높은 연관관계가 있는 것은 아님(향상도를 함께 고려)

▶일반적으로 빈번하게 구매되는 항목들에 대해서는 지지도와 신뢰도가 높게 나올 수 있음

# A, B 두 항목의 신뢰도(Confidence(A→B))가 높게 나왔을 때, 전체거래에서 B의 자체 구매율 보다 A의 자체 구매율이 더 높아야 의미 있는 정보임

-Apriori 알고리즘

# 어떤 항목 집합이 빈발한다면, 그 항목 집합의 모든 부분 집합도 빈발

728x90

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 2과목 (0)	2023.10.16
[ADsP] 공부 - 1과목 (1)	2023.10.15
[ADsP] 단답형 문제 정리 - 3과목 (1)	2023.10.15
[ADsP] 단답형 문제 정리 - 2과목 (0)	2023.10.14
[ADsP] 단답형 문제 정리 - 1과목 (0)	2023.10.14

728x90

분석 기획 방향성 도출

1. 분석 기획의 특징

- 분석 기획: 실제 분석을 수행하가기 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리 할 수 있는 방안을 사전에 계획하는 일련의 작업

-데이터 사이언티스트의 역량: 수학/통계적 지식, 정보기술(IT기술, 해킹기술, 통신기술 등), 비즈니스에 대한 이해와 전문성

2. 분석 대상과 방법: 분석은 분석의 대상(What)과 분석의 방법(How)에 따라 4가지로 분류할 수 있음

분석 주제 유형		분석의 대상(What)
분석 주제 유형		Known	Un-Known
분석의 방법(How)	Known	Optimization	Insight
분석의 방법(How)	Un-Known	Solution	Discovery

3. 목표 시점별 분석 기획 방안

당면한 분석 주제의 해결 (과제 단위)		지속적 분석 문화 내재화 (마스터 플랜 단위)
Speed & Test	1차 목표	Accuracy & Deploy
Quick-Win	과제의 유형	Long Term View
Problem Solving	접근 방식	Problem Definition

4. 분석 기획 시 고려사항

-분석의 기본인 가용 데이터(Available Data)에 대한 고려가 필요

-분석을 통해 가치가 창출 될 수 있는 적절한 활용방안과 유즈케이스(Proper Business Use Case) 탐색이 필요

-분석 수행시 발생하는 장애요소들에 대한 사전계획 수립이 필요(Low Barrier Of Execution)

분석 방법론

1. 분석 방법론 개요

-기업의 합리적 의사결정을 가로막는 장애요소

# 고정 관념(Stereotype)

# 편향된 생각(Bias)

# 프레이밍 효과(Framing Effect)

-방법론의 적용 업무의 특성에 따른 모델

# 폭포수 모델(Waterfall Model)

# 프로토타입 모델(Prototype Model)

# 나선형 모델(Spiral Model)

2. KDD 분석 방법론

-데이터셋 선택(Selection)

-데이터 전처리(Preprocessing)

-데이터 변환(Transformation)

-데이터 마이닝(Data Mining)

-결과 평가(Interpretation/Evaluation)

3. CRISP-DM 분석 방법론

-업무 이해(Business Understanding)

-데이터 이해(Data Understanding)

-데이터 준비(Data Preparation)

-모델링(Modeling)

-평가(Evaluation)

-전개(Deployment)

4. 빅데이터 분석 방법론

-빅데이터 분석의 계층적 프로세스

# 단계 Phase

# 테스크 Task

# 스텝 Step

-빅데이터 분석 방법론 5단계

# 분석 기획

▶ 비즈니스 이해 및 범위 설정

▶ 프로젝트 정의 및 계획 수립

▶ 프로젝트 위험계획 수립

# 데이터 준비

▶ 필요 데이터 정의

▶ 데이터 스토어 설계

▶ 데이터 수집 및 정합성 점검

# 데이터 분석

▶ 분석용 데이터 준비

▶ 텍스트 분석

▶ 탐색적 분석

▶ 모델링

▶ 모델 평가 및 검증

▶ 모델 적용 및 운영방안 수립

# 시스템 구현

▶ 설계 및 구현

▶ 시스템 테스트 및 운영

# 평가 및 전개

▶ 모델 발전계획 수립

▶ 프로젝트 평가 및 보고

분석 과제 발굴

1. 분석과제 발굴 방법론

-하향식 접근 방식(Top Down Approach): 분석 과제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식

-상향식 접근 방식(Bottom Up Approach): 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식

2. 하향식 접근 방식(Top Down Approach)

# 문제 탐색(Problem Discovery)

▶ 비즈니스 모델기반 문제탐색

▶ 외부사례 기반 문제탐색(=벤치마킹)

# 문제 정의(Problem Definition)

▶ 데이터 분석 문제 변환

# 해결방안 탐색(Solution Search)

▶ 수행 옵션 도출

# 타당성 검토(Feasibility Study)

▶ 타당성평가

▶ 과제 선정

3. 하향식 접근 방식(Top Down Approach)의 과정

-문제 탐색(Problem Discovery)

# 비즈니스 모델 기반 문제 탐색: 업무(Operation), 제품(Product), 고객(Customer), 규제와 감사(Regulation & Audit), 지원 인프라(IT & Human Resource) 등 5가지영역으로 기업의 비즈니스를 분석

# 분석 기회 발굴의 범휘 확장

▶ 거시적 관점: 사회, 기술, 경제, 환경, 정치

▶ 경쟁자 확대: 경쟁사의 동향(대체제, 경쟁자, 신규 진입자)

▶ 시장니즈 탐색: 고객, 채널, 영향자들

▶ 역량의 재해석: 역량의 변화(내부역량, 파트너 네트워크)

# 외부 참조 모델 기반의 문제 탐색: 유사, 동종 사례를 벤치마킹을 통해 분석 기회를 발굴

# 분석 유즈 케이스(Analytics Use Case) 정의

-문제 정의(Problem Definition): 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계

-해결방안 탐색(Solution Search): 분석역량(Who), 분석기법 및 시스템(How)으로 해결 방안 탐색

-타당성 검토(Feasibility Study): 경제적 타당성, 데이터 및 기술적 타당성 검토

4. 상향식 접근 방식(Bottom Up Approach)

-정의

# 기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근방법

# 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정

-상향식 접근법의 특징

# 하향식 접근법은 논리적 단계별 접근법으로 최근의 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어렵기 때문에 디자인적 사고(Design Thinking) 접근법을 통해 WHY→WHAT 관점으로 존재하는 데이터 그 자체를 객관적으로 관찰하여 문제를 해결하려는 접근법을 사용

# 상향식 접근법은 비지도 학습 방법으로 수행되며, 데이터 자체의 결합, 연관성, 유사성을 중심으로 접근

# 시행착오를 통한 문제 해결: 프로토타이핑 접근법

5. 분석과제 정의

-분석 과제 정의서를 통해 분석별 필요 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도, 분석 수행주기, 검증 오너십, 상세 분석 과정 등의 정의

분석 프로젝트 관리 방안

1. 분석과제 관리를 위한 5가지 주요 영역

-분석프로젝트는 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 수행되어야 할 뿐 아니라 데이터에 기반한 분석 기법을 적용한다는 특성 때문에 아래와 같은 5가지의 주요 속성을 고려하여 추가적이 관리가 필요

# 분석과제 관리(5 Analytic Dimensions)

▶ Data Complexity

▶ Speed

▶ Analytic Complexity

▶ Accuracy & Precision

▶ Data Size

2. 분석 프로젝트의 특성

-분석가의 목표: 개별적인 분석업무 수행 뿐만 아니라 전반적인 프로젝트 관리 또한 중요

-분석가의 입장: 데이터 영역과 비즈니스 영역의 현황을 이해하고, 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가 역할이 중요

-분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 애자일(Agile) 프로젝트 관리방식에 대한 고려도 필요

마스터 플랜 수립 프레임워크

1. 마스터 플랜 프레임 워크

-분석 과제를 대상으로 다양한 기준을 고려해 적용 우선순위를 설정하고, 데이터 분석 구현을 위한 로드맵 수립

우선순위 고려요소
1. 전략적 중요도	적용 우선 순위 결정
2. 비즈니스 성과/ROI
3. 실행 용이성

적용범위/방식 고려요소
1. 업무 내재화 적용 수준	Analytics 구현 로드맵 수립
2. 분석 데이터 적용 수준
3. 기술 적용 수준

2. 우선순위 평가에 활용하기 위한 ROI 관점에서 빅데이터의 핵심 특징

4V	3V 난이도	1. 크기 Volume	데이터 규모/양	투자비용 요소 (Investment)
		2. 다양성 Variety	데이터 종류/유형
		3. 속도 Velocity	데이터 생성속도/처리속도
	시급성	4. 가치 Value	분석 결과 활용 및 실행을 통한 비즈니스 가치	비즈니스 효과 (Return)

분석 거버넌스 체계 수립

1. 분석 거버넌스 체계 구성요소

-Data: 데이터

-Human Resource: 분석교육/마인드 육성체계

-Organization: 분석기획 및 관리 수행 조직

-Process: 과제 기획 및 운영 프로세스

-System: 분석관련시스템

2. 데이터 분석 수준 진단

-분석 준비도 Readiness

# 분석 업무

# 분석 인력, 조직

# 분석 기법

# 분석 데이터

# 분석 문화

# 분석 인프라

-분석 성숙도 Maturity

# 도입 → 활용 → 확산 → 최적화

# 조직의 성숙도 평가도구: CMMI(Capability Maturity Model Integration)

-분석 수준 진단 결과: 도입형, 준비형, 확산형, 정착형

3. 데이터 거버넌스 체계 수립

-데이터 거버넌스 개요

# 전사 차원의 모든 데이터에 대하여 정책 및 지침 표준화, 운영조직 및 책임 등의 표준화 된 관리 체계를 수립하고 운영을 위한 프레임워크(Framework) 및 저장소(Repository)를 구축하는 것을 말함

# 마스터 데이터(Master Data), 메타 데이터(Meta Data), 데이터사전(Data Dictionary)은 데이터 거버넌스의 중요한 관리대상

-데이터 거버넌스 구성요소

# 원칙(Principle), 조직(Organization), 프로세스(Process)

-데이터 거버넌스 체계

# 데이터 표준화, 데이터 관리 체계, 데이터 저장소(Repository) 관리, 표준화 활동

4. 데이터 분석을 위한 3가지 조직구조

-집중구조

-기능구조

-분산구조

5. 분석과제 관리 프로세스

과제 발굴	1. 분석 Idea 발굴
	2. 분석 과제 후보 제안
	3. 분석 과제 확정
과제 수행	4. 팀구성
	5. 분석 과제 실행
	6. 분석 과제 진행 관리
	7. 결과 공유/개선

728x90

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 3과목 (2)	2023.10.16
[ADsP] 공부 - 1과목 (1)	2023.10.15
[ADsP] 단답형 문제 정리 - 3과목 (1)	2023.10.15
[ADsP] 단답형 문제 정리 - 2과목 (0)	2023.10.14
[ADsP] 단답형 문제 정리 - 1과목 (0)	2023.10.14

728x90

데이터와 정보

1. 데이터의 유형

-정성적 데이터: 저장/검색/분석에 많은 비용이 소모 되는 언어, 문자 형태의 데이터

ex) 회사 매출이 증가함 등

-정형적 데이터: 정형화된 데이터로 수치, 도형, 기호 등의 형태를 가진 데이터

ex) 나이, 몸무게, 주가 등

2. 지식경영의 핵심 이슈

-암묵지

# 의미: 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식

# 특징: 사회적으로 중요하지만 공유되기 어려움

# 상호작용: 공통화, 내면화

-형식지

# 의미: 문서나 메뉴얼처럼 형상화된 지식

# 특징: 전달과 공유가 용이함

# 상호작용: 표출화, 연결화

3. DIKW 피라미드

-데이터(Data): 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미

ex) A마트는 100원에, B마트는 200원에 연필을 판매한다.

-정보(Information): 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터

ex) A마트의 연필이 더 싸다.

-지식(Knowledge): 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물

ex) 상대적으로 저렴한 A마트에서 연필을 사야겠다.

-지혜(Wisdom): 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어

ex) A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단한다.

데이터베이스 정의와 특징

1. 데이터베이스 정의

-EU: 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물

-국내 저작권법: 소재를 체계적으로 배열 또는 구성한 편집물로 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것

-국내 컴퓨터용어사전: 동시의 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합

2.데이터베이스 특징

-통합된 데이터(Integrated Data): 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미. 데이터 중복은 관리상의 복잡한 부작용을 초래

-저장된 데이터(Stored Data): 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미. 데이터 베이스는 기본적으로 컴퓨터 기술을 바탕으로 한 것

-공용 데이터(Shared Data): 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미. 대용량화되고 구조가 복잡한 것이 보통

-변화되는 데이터(Changeable Data): 데이터베이스에 저장된 내용은 곧 데이터베이스의 현 시점에서의 상태를 나타냄. 다만 이 상태는 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 함.

빅데이터의 이해

1. 빅데이터의 정의

-관점에 따른 정의

# Mckinsey(2011): 데이터 규모에 중점을 둔 정의 → 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터

# IDC(2011): 분석 비용 및 기술에 초점을 둔 정의 → 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집/발굴/분석을 지원하도록 고안된 차세대 기술 및 아키텍처

# 가트너그룹(Gartner Group) 더그 래니(Doug Laney)의 3V

▶Volume: 데이터의 규모 측면

▶Variety: 데이터의 유형과 소스 측면

▶Velocity: 데이터의 수집과 처리 측면

-빅데이터 정의의 범주 및 효과

# 데이터 변화

▶규모 (Volume)

▶형태 (Variety)

▶속도 (Velocity)

# 기술 변화

▶데이터 처리, 저장, 분석기술 및 아키텍처

▶클라우드 컴퓨팅 활용

# 인재, 조직 변화

▶Data Scientist 같은 새로운 인재 필요

▶데이터 중심 조직

2. 출현 배경과 변화

-산업계의 출현배경: 고객 데이터 축적, 보유를 통해 데이터에 숨어있는 가치를 발굴

-학계의 출현배경: 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구의 발전

-기술발전으로 인한 출현 배경: 관련기술(저장 기술, 인터넷 보급, 클라우드 컴퓨팅, 모바일 혁명)의 발달

3. 빅데이터에 거는 기대의 비유적 표현

-산업혁명의 석탄과 철: 제조업 뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화/생활 전반에 혁명적 변화를 가져올 것으로 기대 됨

-21세기의 원유: 경제 성장에 필요한 정보를 제공함으로써 사업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망됨

-렌즈: 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠것으로 기대 됨

-플랫폼: '공동 활용의 목적으로 구축된 유무형의 구조물'로써의 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망됨 ex) 카카오톡, 페이스북 등

4. 빅데이터가 만들어 내는 본질적인 변화

-사전처리 → 사후처리

-표본조사 →전수조사

-질 → 양

-인과관계 → 상관관계

빅데이터의 가치와 영향

1. 빅데이터의 가치 산정이 어려운 이유

-데이터 활용방식

-새로운 가치 창출

-분석기술 발전

2. 빅데이터의 영향

# 기업

▶영향: 혁신, 경쟁력제고, 생산성향상

▶내용: 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업 을 발굴한다.

# 정부

▶영향: 환경 탐색, 상황분석, 미래대응

▶내용: 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정, 정보를 추출한다.

# 개인

▶영향: 목적에 따른 활용

▶내용: 개인은 빅데이터를 서비스하는 기업의 출현으로 비용이 지속적으로 하락하여 정치인이나 대중 가수 등 이 인지도 향상에 빅데이터를 활용 한다.

비즈니스 모델

1. 빅데이터 활용사례

# 관점에 따른 정의

▶구글: 사용자의 로그 데이터를 활용한 검색엔진 개발. 기존 페이지랭크 알고리즘 혁신

▶월마트: 고객의 구매패턴을 분석해 상품 진열에 활용

# 정부

▶실시간 교통정보 수집, 기후 정보, 소방 서비스 등을 위해 실시간 모니터링을 실시하여 국가 안전 확보에 활용

# 개인

▶정치인: 선거 승리를 위해 사회관계망 분석을 활용해 유세 지역 선거

▶가수: 팬들의 음악 청취 기록을 분석해 공연 시 노래 순서 선정

2. 빅데이터 활용 기본 테크닉

-연관 규칙 학습, 군집분석, 유전 알고리즘, 기계학습, 회귀분석, 감정분석, 소셜네트워크분석(=사회관계망분석)

위기 요인과 통제방안

1. 위기 요인에 따른 통제 방안

# 사생활 침해 → 동의에서 책임으로

# 책임 원칙 훼손 → 결과 기반 책임 원칙 고수

# 데이터 오용 → 알고리즘 접근 허용

미래의 빅데이터

1. 빅데이터 활용의 3요소

# 데이터: 모든 것의 데이터 화(Datafication)

# 기술: 진화하는 알고리즘, 인공지능

# 인력: 데이터 사이언티스트, 알고리즈미스트

빅데이터 분석과 전략 인사이트

1. 빅데이터 회의론의 원인

# 부정적 학습효과 → 과거의 고객관계관리(CRM): 공포 마케팅, 투자대비 효과 미흡

# 부적정한 성공 사례 → 빅데이터가 필요 없는 분석사례, 기존 CRM의 분석 성과를 빅데이터 분석 성과로 과대 포장

==>단순히 빅데이터에 포커스를 두지 말고 , 분석을 통해 가치를 만드는 것에 집중해야 함

2. 일차원적인 분석 vs 전략 도출을 위한 가치 기반 분석

# 산업별 분석 애플리케이션

▶금융 서비스: 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성분석

▶병원: 가격 책정, 고객 로열티, 수익 관리

▶에너지: 트레이딩, 공급, 수요 예측

▶정부: 사기 탐지, 사례관리, 범죄 방지, 수익 최적화

# 전략 도출 가치 기반 분석

▶전략적 통찰력의 창출에 포커스 → 해당 사업에 중요한 기회를 발굴, 주요 경영진의 지원을 얻게됨

▶분석의 활용 범위를 더 넓고 전략적으로 변화 시키고, 전략적 인사이트를 주는 가치 기반의 분석 단계로 나아 가야 함

전략 인사이트 도출을 위한 필요 역량

1. 데이터 사이언스의 의미

-데이터 사이언스란 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문

2. 데이터 사이언스의 구성요소

-데이터 사이언스의 영역

# 분석적 영역

# 데이터 처리와 관련된 IT영역

# 비즈니스 컨설팅 영역

-데이터 사이언티스트의 요구 역량

# Hard Skill

▶빅데이터에 대한 이론적 지식

▶분석 기술에 대한 숙련

# Soft Skill

▶통찰력 있는 분석

▶설득력 있는 전달

▶다분야 간 협력

3. 데이터 사이언스 : 과학과 인문의 교차로

-분석 기술보다 더 중요한 것은 소프트 스킬로 전략적 통찰을 주는 분석은 단순 통계 및 데이터 처리 능력보다 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 대화 능력 등의 인문학적 요소가 필요함

4. 전략적 통찰력과 인문학의 부활

-외부 환경적 측면에서 본 인문학의 열풍과 이유

# 컨버전스 → 디비전스

▶내용: 단순 세계화에서 복잡한 세계화로의 변화

▶예시: 규모의 경제, 세계화, 표준화, 이성화 → 복잡한 세계, 다양성, 관계, 연결성, 창조성

# 생산 → 서비스

▶내용: 비즈니스 중심이 제품생산에서 서비스로 이동

▶예시: 고장 나지 않는 제품의 생산 → 뛰어난 서비스로 응대

# 생산 → 시장창조

▶내용: 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로 변화

▶예시: 생산에 관련된 기술 중심, 기술 중심의 대규모 투자 → 현재 패러다임에 근거한 시장 창조

→ 현지 사회와 문화에 관한 지식

빅데이터 그리고 데이터 사이언스의 미래

1. 빅데이터의 시대

-빅데이터 분석은 선거결과에 결정적인 영향을 미칠 수도 있고, 기업들에게 비용절감, 시간 절약, 매출증대, 고객서비스 향상, 신규 비즈니스 창출, 내부 의사결정 지원 등에 있어 상당한 가치를 발휘하고 있음

2. 빅데이터 회의론을 넘어 가치 패러다임의 변화

# 과거 - Digitalization

▶아날로그 세상을 어떻게 효과적으로 디지털화하는가가 과거의 가치 창출 원천

# 현재 - Connection

▶디지털화 된 정보와 대상들은 서로 연결 시작

▶연결을 더 효과적이고 효율적으로 제공하는가가 성공요인

# 미래 - Agency

▶복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가의 이슈

3. 데이터 사이언스의 한계와 인문학

-데이터 사이언스의 한계

# 분석과정에서는 가정 등 인간의 해석이 개입되는 단계를 반드시 거침

# 분석결과가 의마하는 바는 사람에 따라 전혀 다른 해석과 결론을 내릴 수 있음

# 아무리 정량적인 분석이라도 모든 분석은 가정에 근거함

-데이터 사이언스의 인문학

# 인문학을 이용하여 빅데이터와 데이터 사이언스가 데이터에 묻혀 있는 잠재력을 풀어냄

# 새로운 기회를 찾고, 누구도 보지 못한 창조의 밑그림을 그릴 수 있는 힘을 발휘하게 될 것

728x90

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 3과목 (2)	2023.10.16
[ADsP] 공부 - 2과목 (0)	2023.10.16
[ADsP] 단답형 문제 정리 - 3과목 (1)	2023.10.15
[ADsP] 단답형 문제 정리 - 2과목 (0)	2023.10.14
[ADsP] 단답형 문제 정리 - 1과목 (0)	2023.10.14

728x90

1. (가)는 데이터 웨어하우스 환경에서 정의된 접근 계층으로, 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할을 한다. 보통 특정한 조직 혹은 팀에서 사용하는 것을 목적으로 한다.

정답

데이터 마트

2. P(A)=0.3, P(B)=0.4이다. 두 사건 A와 B가 독립일 경우 P(B|A)는 얼마인가?

정답

0.4

풀이: P(B|A) = P(A) * P(B) / P(A)

3. 이산형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포는 무엇인가?

정답

포아송분포

4. 가설검정 결과에서 귀무가설이 옳은데도 귀무사설을 받아들이지 않고 기각하게 되는 오류는?

정답

제 1종 오류

5. 통계분석 개념 중 모집단의 특성을 단일한 값으로 추정하는 방법은 무엇인가?

정답

점 추정

6. 중앙 50%의 데이터들의 흩어진 정도를 의미하는 것은?

정답

사분위수 범위(Interquantile Range)

7. 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석 방법은 무엇인가?

정답

가설검정

8. 가설검정 용어 중 '귀무가설이 옳은 데도 이를 기각하는 확률의 크기'를 의미하는 용어는?

정답

유의수준

9. 로지스틱 회귀분석에서는 이산형(Binary) 종속변수가 1일 확률을 모형화한다. 설명변수가 한 단위 증가할 때 종속변수가 1인 확률과 0인 확률 비의 증가율을 나타내는 것은?

정답

오즈(Odds)

10. 최적방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은 영향을 주는 변수를 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하는 방법은 무엇인가?

정답

후진제거법(Backward Elimination)

11. 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법은 무엇인가?

정답

분해 시계열

12. p시점 전의 자료가 현재 자료의 영향을 주고 과거의 관측 자료의 선형결합으로 표현, 거시점의 백색잡음의 선형결합으로 언제나 정상성을 만족하는 것은?

정답

AR 모형

13. 여러 대상 간의 관계에 관한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화 하는 방법은?

정답

다차원 척도법

14. 모형 평가방법 중 주어진 원천 데이터를 랜덤하게 두 분류로 분리하여 교차 검정을 실시하는 방법으로 하나는 모형의 학습 및 구축을 위한 훈련용 자료로, 다른 하나는 성과 평갈르 위한 검증용 자료로 사용하는 방법은 무엇인가?

정답

홀드아웃 방법

15. 의사결정 나무에서 끝마디가 너무 많으면 모형에 (가)인 상태로 현실문제에 적용될 수 있는 적절한 규칙이 나오지 않게 된다. 따라서 분류된 관측치의 비율 또는 MSE(Mean Square Error) 등을 고려하여 적절한 수준의 가지치기 규칙을 제공해야 한다.

정답

과대적합(Overfitting)

16. 불순도를 측정하는 지표로 노드의 불순도를 나타내는 값이다.클수록 이질적이며 순수도가 낮다고 볼 수 있으며, CART에서 목적변수가 범주형일 경우 사용하는 이 지표는 무엇인가?

정답

지니지수

17. (가)는 배깅에 랜덤과정을 추가한 방법이다. 원 자료로부터 붓스트랩 샘플을 추출하고, 각 붓스트랩 샘플에 대해 트리를 형성해 나가는 과정은 배깅과 유사하나, 각 노드마다 모두 예측변수 안에서 최적의 분할을 선택하는 방법 대신 예측 변수를 임의로 추출하고 추출된 변수 내에서 최적의 분할을 만들어 나가는 방법을 사용한다.

정답

랜덤 포레스트(Random Forest)

18. 앙상블 기법 중 붓스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법은?

정답

부스팅(Boosting)

19. 분류 분석 모형을 사용하여 분류된 관측치가 각 등급별로 얼마나 포함되는지를 나타내는 도표는?

정답

이익도표

20. 오분류표(Confusion Matrix)를 활용하여 모형을 평가하는 지표 중 실제값이 FALSE인 관측치 중 예측치가 적중한 정도를 나타내는 지표는?

정답

특이도

21. 데이터 마이닝 기법 중 동물의 뇌신경계를 모방하여 분류(또는 예측)을 위해 만들어진 모형은?

정답

인공신경망

22. 신경망 모형에서 출력값 z가 여러 개로 주어지고 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하여 출력노드에 주로 사용되는 함수는?

정답

소프트맥스 함수

23. 인공신경망에서 동일 입력층에 대해 원하는 값이 출력되도록 개개의 가중치(weight)를 조정하는 방법은 무엇인가?

정답

역전파 알고리즘

24. 모형기반(Model-based)의 군집방법으로 가중치를 자료로 부터 추정하는 방법으로 사용되는 군집 방법은 무엇인가?

정답

혼합 분포 군집(Mixture Distribution Clustering)

25. 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법을 무엇이라 하는가?

정답

배깅(Bagging)

26. (가)은/는 계층적 군집분석 방법 중 하나로 군집과 군집, 또는 데이터와의 거리계산 시 최단거리를 계산하여 거리가 가까운 데이터, 또는 군집을 새로운 군집으로 형성하는 방법이다. 이 방법은 사슬 구조의 군집이 생길 수 있다.

정답

최단연결법

27. 신경망 모형의 학습을 위한 역전파 과정에서 오차를 더 줄일 수 있는 가중치가 존재함에도 기울기가 0이 되어버려 더이상 학습이 진행되지 않는 문제를 나타내는 용어는?

정답

기울기 소실(Gradient Vanishing)

28. 공간적 차원과 관련된 속성들을 시각화에 추가하여 지도 위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는 분석방법은 무엇인가?

정답

공간분석(Spatial analysis)

29. SQL을 활용하거나 SAS에서 PROC SQL로 작업하던 사용자들에게 R 프로그램에서 지원해주는 패키지는 무엇인가?

정답

sqldf()

30. 평균으로부터 t 표준편차(Standard Deviation) 이상 떨어져 있는 값들을 이상값(Outlier)으로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘은?

정답

ESD(Extreme Studentized Deviation)

31. 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 시계열 용어는?

정답

정상성

32. 번호를 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누고 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번째 항목을 추출하는 표본 추출 방법

정답

계통추출법(Systematic Sampling)

33. 다음 내용이 설명하고 있는 것을 적으시오.

- 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형

- 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상 확률 모형

- 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ..., p차 등을 사용하나 정상시계열 모형에서는 주로 1, 2차를 사용함

정답

자기회귀모형(AR모형, Autoregressive Model)

34. 아래의 설명이 나타내는 척도는 무엇인가?

- 자료의 위치를 나타내는 척도의 하나로 관측치를 크기순으로 배열하였을 때 전체의 중앙에 위치한 수치이다. 평균에 비해 이상치에 의한 영향이 적기 때문에 자료의 분포가 심하게 비대칭인 경우 중심을 파악할 때 합리적인 방법이다.

정답

중앙값

35. 베이즈 정리(Bayes Theory)와 특징에 대해 조건부 독립을 가설로 하는 알고리즘으로 클래스에 대한 사전 정보와 데이터로부터 추출된 정보를 결합하고 베이즈 정리를 이용하여 어떤 데이터가 특정 클래스에 속하는지 분류하는 알고리즘은 무엇인가?

정답

나이브 베이지안 분류

36. 두 개체 간의 거리에 기반하여 군집을 형성해가는 계층적 군집방법에서 사용되는 측도 중 두 개체의 벡터 내적을 기반하여 아래의 수식으로 계산할 수 있는 유사성 측도는 무엇인가?

정답

코사인 유사도(cosine similarity)

37. 혼합분포군집(Mixture Disribution Clustering)은 모형 기반의 군집 방법으로서 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정 하에서 분석을 하는 방법이다. k개의 각 모형은 군집을 의미하며 이 혼합모형의 모수와 가중치의 최대가능도(Maximum Likelihood) 추정에 사용되는 알고리즘은 무엇인가?

정답

EM(Expectation-Maximization) 알고리즘

38. 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로 군집 내의 데이터 응집도(Cohesion)와 군집간 분리도(Separation)를 계산하여 군집 내의 데이터의 거리가 짧을 수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표는?

정답

실루엣(Shilouette)

39. SOM(Self Organizing Maps)에서는 각 학습 단계마다 입력층의 데이터 집합으로부터 하나의 표본 벡터를 임의로 선택하고 경쟁층의 프로토타입 백터와의 거리를 계산하고 가장 가까운 프로토타입 벡터틀 선택하는데 이 때 선택된 프로토타입 벡터를 나타내는 용어는 무엇인가?

정답

BMU(Best-Matching Unit)

40. 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 좋아졌는지를 각 등급별로 파악하는 그래프로 상위등급에서 매우 크고 하위 등급으로 갈수록 감소하게 되면 일반적으로 모형의 예측력이 적절하다고 판단하게 된다. 모형 평가에 사용되는 이 그래프는 무엇인가?

정답

향상도 곡선

41. 이것은 데이터 안의 두 변수간의 관계를 알아보기 위해 사용하는 값이다. 두 변수간의 공분산으로는 음과 양의 관계를 파악할 수 있으나 관계 정도를 확인하기는 힘들다. 그래서 각 변수의 공분산을 표준편차의 곱으로 나누어 -1에서 1사이 값으로 표준화하여 두 변수 간의 관계 정보를 확인할 수 있도록 수치화 한 이것을 활용한다. 이것은 무엇인가?

정답

상관계수(Correlation)

42. 우리는 모집단을 조사하기 위해 추출한 모집단의 일부 원소를 이용한다. 통계자료의 획득 방법 중 모집단을 조사하기 위해 추출한 집단을 무엇이라 하는가?

정답

샘플(Sample)

43. 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성 측정에 시간이라는 개념을 포함시켜 순차적인 구매 가능성이 큰 상품군을 찾아내는 데이터 마이닝 기법은?

정답

순차 분석(Sequence Analysis)

44. 고객은 늘 구매하지 않는다. 경쟁사의 고객 빼앗기에 따른 고객의 변심 또는 고객의 니즈나 취향이 변해 더 이상 상품과 서비스를 사용하지 않고 경쟁사와 거래하는 고객을 무엇이라 하는가?

정답

이탈고객

45. 의사결정나무 중 연속형 타깃변수(또는 목표변수)를 예측하는 의사결정나무를 무엇이라고 하는가?

정답

회귀나무(Regression Tree)

46. 데이터 마이닝 모델링 분석 기법 중 random input에 따른 forest of tree를 이용한 분류방법으로 랜덤한 forest에는 많은 트리들이 생성된다. 새로운 오브젝트를 분류하기 위해 forest에 있는 트리에 각각 투입해 각각의 트리들이 voting함으로써 분류하는 방식의 R 패키지는 무엇인가?

정답

랜덤 포레스트(Random Forest)

47. 다수 모델의 예측을 관리하고 조합하는 기술을 메타 학습(Meta Learning)이라 한다. 여러 분류기(Classifier)들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법은?

정답

앙상블 기법

48. 아래에서 언급한 것은 무엇인가?

- 데이터의 패턴을 발견하고 데이터 모델의 매개 변수를 자동으로 학습한다.

- 자체 알고리즘을 사용하여 시간이 경과함에 따라서 경험을 축적하면서 작업 성능이 향상된다.

정답

머신러닝 또는 기계학습

49. 텍스트 마이닝에서 어근에 차이가 있더라도 관련이 있는 단어들을 동일한 어간으로 매핑이 될 수 있도록 정해진 규칙에 따라 단어에서 어간을 분리하여 공통 어간을 가지는 단어를 묶는 작업을 무엇이라고 하는가?

정답

스테밍(Stemming) 또는 어간 추출

50. 시계열 분석을 위해서는 정상성을 만족해야 한다. 따라서 주어진 자료가 정상성을 만족하는지 판단하는 과정이 필요하다. 자료가 추세를 보이는 경우에는 현 시점의 자료값에서 전 시점의 자료를 빼는 방법을 통해 비정상시계열을 정상시계열로 바꾸어 준다. 이 방법은 무엇인가?

정답

차분

728x90

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 3과목 (2)	2023.10.16
[ADsP] 공부 - 2과목 (0)	2023.10.16
[ADsP] 공부 - 1과목 (1)	2023.10.15
[ADsP] 단답형 문제 정리 - 2과목 (0)	2023.10.14
[ADsP] 단답형 문제 정리 - 1과목 (0)	2023.10.14

728x90

1. 합리적 의사결정을 방해하는 요소로 표현방식 및 발표자에 따라 동일한 사실에도 판단을 달리하는 현상을 무엇이라 하는가?

정답

프레이밍 효과

2. (가) 모델은 반복을 통하여 점증적으로 개발하는 방법으로 처음 시도하는 프로젝트에 적용이 용이하지만, 반복에 대한 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다.

정답

나선형(Spiral)

3. 문제 탐색을 통해서 식별된 비즈니스 문제를 변환하는 단계로써, 문제 탐색 단계가 무엇을 어떤 목적으로 수행해야 하는가에 대한 관점이었다면, (가) 단계는 이를 달성하기 위해서 필요한 데이터 및 기법(How)을 도출하기 위한 데이터 분석의 문제로의 변환을 수행하게 된다

정답

문제 정의

4. 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 분석과제 발굴 방식을 무엇이라고 하는가?

정답

하향식 접근 방식

5. 조직의 분석 및 활용을 위한 역량수준을 파악하기 위해 '도입→(가)→확산→최적화'의 분석 성숙도(Maturity) 단계 포지셔닝을 파악한다.

정답

활용

6. 전사차원의 모든 데이터에 대하여 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것

정답

데이터 거버넌스

7. 분석 방법론의 "시스템 구현" 단계에서 시스템으로 구현된 모델은 검증(Verification&Validation) 위하여 단위 테스트, 통합 테스트, 시스템 테스트 등을 실시한다. 이중 (가) 테스트는 품질관리 차원에서 진행함으로써 적용된 시스템의 객관성과 안정성으 확보한다.

정답

시스템

8. 데이터 거버넌스 체계에서 데이터 저장소(Repository) 관리란 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소로 구성된다. 저장소는 데이터 관리 체계 지원을 위한 (가) 및 관리용 응용소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 한다. 또한 데이터 구조 변경에 따른 (나)도 수행되어야 효율적인 활용이 가능하다.

정답

(가) 워크 플로우

(나) 사전 영향 평가

9. 분석 모델을 가동중인 운영시스템에 적용하기 위해서는 모델에 대한 상세한 "알고리즘 설명서" 작성이 필요하다. "알고리즘 설명서"는 "시스템 구현"단계에서 중요한 입력 자료로 활용되므로 필요시 (가) 수준의 상세한 작성이 필요하다.

정답

의사 코드

10. 분석 과제 관리 프로세스는 크게 과제 발굴과 (가)(으)로 나누어진다. 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 중석 과제 풀(Pool)로 관리하면서 분석과제가 확정되면 (나), (다), (라), 분석과제 결과 공유선의 분석과제 관리 프로세스를 수행하게 된다.

정답

(가) 과제 수행

(나) 팀 구성

(다) 분석과제 수행

(라) 분석과제 진행관리

11. 비즈니스 모델 캔버스는 9가지 블록을 단순화하여 (가), (나), 고객단위로 문제를 발굴하고 이를 관리하는 규제와 감사, (다) 영역으로 나눠 분석 기회를 도출한다.

정답

(가) 업무

(나) 제품

(다) 지원인프라

12. KDD 분석 방법론에서 잡음, 이상치, 결측치를 식별하여 분석용 데이터 셋을 선택하고 분석에 필요한 변수 등을 선정하는 단계와 유사한 CRISP-DM 방법론의 단계는?

정답

데이터준비

13. 분석용 데이터를 이용한 가설 설정을 통하여 통계모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정

정답

모델링

14. 소프트웨어와 시스템공학의 역량 숙성도를 측정하기 위한 모델로 소프트웨어 품질보증과 시스템 엔지니어링 분야의 품질보증 기술을 통합하여 개발된 평가모델로 1~5단계로 구성된 성숙도 모델은?

정답

능력 성숙도 통합모델(CMMI, Capability Maturity Model Integration)

15. 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 (가)을(를) 수행한다. (가)은(는) 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내/외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차이다.

정답

ISP(Information Strategy Planning)

17. 데이터 분석 기획을 위해서 데이터 분석 수준 진단이 필요하다. 분석 준비도와 분석 성숙도를 통해 데이터 분석 수준을 진단하게 되는데, 분석 준비도 6개의 영역 중 2가지를 적으시오.

정답

분석 업무, 분석 인력/조직, 분석 기법, 분석 데이터, 분석 문화, 분석 인프라

18. 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것은 무엇인가?

정답

분석 유즈 케이스

19. 데이터 거버넌스란 전사차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운용조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크(Framework) 및 저장소(Repository)를 구축하는 것을 말한다. 특히 (가), (나), (다)는 데이터 거버넌스의 중요한 관리 대상이다.

정답

(가)마스터 데이터

(나)메타 데이터

(다)데이터 사전

20. (가)은(는) 전략적 중요도가 핵심이며, 이는 현재의 관점에서 전략적 가치를 둘 것인지, 미래의 중장기적 관점에 전략적인 가치를 둘 것인지 고려하고, 분석 과제의 목표가치를 함께 고려하여 (가)의 여부를 판단할 수 있다.

정답

시급성

21. 데이터 분석 도입의 수준을 파악하기 위한 분석 준비도의 6가지 구성요소 중 하나로서 운영시스템 데이터 통합, 빅데이터 분석 환경, 통계분석 환경 등을 진단하는 구성요소는 무엇인가?

정답

IT 인프라

22. 아래에서 설명하는 데이터 분석 조직 구조는 무엇인가?

- 전사 분석업무를 별도의 분석 전담 조직에서 담당

- 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능

- 현업 업무부서의 분석업무와 이중화/이원화 가능성 높음

정답

집중구조

728x90

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 3과목 (2)	2023.10.16
[ADsP] 공부 - 2과목 (0)	2023.10.16
[ADsP] 공부 - 1과목 (1)	2023.10.15
[ADsP] 단답형 문제 정리 - 3과목 (1)	2023.10.15
[ADsP] 단답형 문제 정리 - 1과목 (0)	2023.10.14

728x90

1. (가)는 데이터 가공 및 상관관계의 이해를 통해 패턴을 인식하고 그 의미를 부여한 것이며, 지식을 도출하기 위한 재료가 된다.

정답

정보(Information)

2. (가)는 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로, 자재 구매, 생산, 제고 ,유통 ,판매, 고객 데이터로 구성된다.

정답

SCM(Supply Chain Management)

3. 기업의 의사결정 과정을 지원하기 위한 주제 중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터의 집합을 (가)라고 한다.

정답

데이터 웨어하우스(Data Warehouse)

4. 문자, 기호, 음성, 화상, 영상 등 상호 연관된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체를 무엇이라고 하는가?

정답

데이터베이스(Database)

5. 인터넷을 기반으로 모든 사물을 연결해 사람과 사물, 사물과 사물 간의 정보를 상호 소통하는 지능형 기술 및 서비스이며, 사물에서 생성되는 Data를 활용한 분석을 통해 마케팅 등에 활용할 수 있다.

정답

사물인터넷(IoT, Internet of Things)

6. 이것은 인터넷에 연결된 기기가 사람의 개입 없이 상호간에 알아서 정보를 주고 받아 처리한다. 구글의 Google Glass, 나이키의 Fuel band 등이 있다.

정답

사물인터넷(IoT, Internet of Things)

7.

- 생명의 진화를 모방하여 최적해(Optimal Solution)를 구하는 알고리즘으로 존 홀랜드(John Holland)가 1975년에 개발하였다.

- '최대의 시청률을 얻으려면 어떤 시간대에 방송해야 하는가?'와 같은 문제를 해결할 때 사용된다.

- 어떤 미지의 함수 Y=f(x)를 최적화하는 해 x를 찾기위해, 진화를 모방한 탐색 알고리즘이라고 말할 수 있다.

정답

유전자 알고리즘(Generic Algorithm)

8. 데이터로부터 의미있는 정보를 추출해 내는 학문으로, 통계학과는 달리 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 분석대상으로 하는 것을 무엇이라고 하는가?

정답

데이터 사이언스(Data Science)

9. 데이터 사이언티스트가 갖춰야할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련에 관련된 능력인 (가) 와 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인(나)로 이루어진다.

정답

(가) 하드 스킬

(나) 소프트 스킬

10. 지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다. 전사적으로 쉽게 인사이트를 공유하는 데 도움이 되기 때문이다. 다시 말해 별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트인 (가)을/를 기업들이 구현하는 것은 2017년 새롭게 등장한 트랜드가 아니다. 그러나 2017년은 이를 적절히 관리해 운영하는 첫해가 될 전망이다.

정답

데이터 레이크

11. (가)는 지역별 매출액, 영업이익률, 판매량과 같이 수치로 명확하게 표현되는 데이터로, 그양이 크게 증가하더라도 이를 DBMS에 저장, 검색, 분석하여 활용하기가 용이하다.

정답

정량적 데이터

12.

- 페이스북은 2006년 F8 행사를 기점을 자신들의 소셜 그래프 자산을 외부 개발자들에게 공개하고 서드파티 개발자들이 페이스북 위에서 작동하는 앱을 만들기 시작하면서 (가) 역할을 하기 시작했다.

- 하둡은 대규모 분산 병렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 (가) 기술이며, 선형적인 성능과 용량 확장성, 고장 감내성을 가지고 있다. 아마존(Amazon)은 S3 와 BC2 환경을 제공함으로 써 (가)을/를 위한 클라우드 서비스를 최초로 실현 하였다.

정답

플랫폼(Platform)

13. 개인의 사생활 침해를 방지하고 통계 응답자의 비밀사항은 보호하면서 통계자료의 유용성을 최대한 확보 할 수 있는 데이터변환 방법은 무엇인가?

정답

마스킹(Masking)

14. 데이터 (가)란 데이터베이스 내의 데이터에 대한 정확성, 일관성, 유효성, 신뢰성을 보장하기 이해 데이터 변경 혹은 수정시 여러가지 제한을 두어 데이터의 정확성을 보증하는 것을 말한다.

정답

무결성(Integrity)

15. 인터넷상의 서버에서 데이터 저장, 처리, 네트워크, 콘텐츠 사용 등 서로 다른 물리적인 위치에 존재하는 컴퓨팅 자원을 가상화 기술을 통해 IT 관련 서비스를 한 번에 제공하는 혁신적인이 컴퓨팅 기술은 무엇인가?

정답

클라우드 컴퓨팅

16. (가)(이)란 데이터로부터 의미있는 정보를 추출하는 학문으로, 통계학과는 달리 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 분석 대상으로 한다. 또한 분석에 초점을 두는 데이터 마이닝과는 달리 (가)는 분석 뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함하는 포괄적인 개념이다.

정답

데이터 사이언스

17. 다음에 설명하에 맞는 데이터 유형은 무엇인가?

- 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미를 부여한 데이터

- 지식을 도출할 때 사용하는 데이터

정답

정보

18. 기업내부 데이터 베이스 중 기업 전체가 경영자원을 효과적으로 이용하기 위해 통합적으로 관리하고 경영의 효율화를 기하기 위한 수단으로 정보의 통합을 위해 기업의 모든 자원을 최적으로 관리하기 위한 기업 경영 정보시스템

정답

ERP

19. 인공지능의 한 분야로, 컴퓨터가 스스로 많은 데이터를 분석해서 패턴과 규칙을 찾아내고, 학습된 패턴과 규칙을 활용하여 분류나 예측을 하는 것을 무엇이라고 하는가?

정답

머신러닝(또는 기계학습)

20. 조직 내 구성원들이 축적하고 있는 노하우 등 암묵적 지식을 형식지로 표출화 될 수 있도록 지원하는 등 조직의 경쟁력 향상을 위해 지식자원을 체계화하고 원활하게 공유가 될 수 있도록 지원하는 시스템을 무엇이라고 하는가?

정답

KMS(지식관리시스템)

21. 데이터 사이언스란 데이터로 부터 의미있는 정보를 추출하는 학문이다. 통계학이 정형화된 실험 데이터를 분석대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 (가)을/를 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 한다.

정답

비정형

728x90

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 3과목 (2)	2023.10.16
[ADsP] 공부 - 2과목 (0)	2023.10.16
[ADsP] 공부 - 1과목 (1)	2023.10.15
[ADsP] 단답형 문제 정리 - 3과목 (1)	2023.10.15
[ADsP] 단답형 문제 정리 - 2과목 (0)	2023.10.14

굉장히 엄청나!