728x90
반응형

1. (가)는 데이터 웨어하우스 환경에서 정의된 접근 계층으로, 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할을 한다. 보통 특정한 조직 혹은 팀에서 사용하는 것을 목적으로 한다.

정답
데이터 마트
 

2. P(A)=0.3, P(B)=0.4이다. 두 사건 A와 B가 독립일 경우 P(B|A)는 얼마인가?

정답
0.4
풀이: P(B|A) = P(A) * P(B) / P(A)
 

3. 이산형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포는 무엇인가?

정답
포아송분포
 

4. 가설검정 결과에서 귀무가설이 옳은데도 귀무사설을 받아들이지 않고 기각하게 되는 오류는?

정답
제 1종 오류
 

5. 통계분석 개념 중 모집단의 특성을 단일한 값으로 추정하는 방법은 무엇인가?

정답
점 추정
 

6. 중앙 50%의 데이터들의 흩어진 정도를 의미하는 것은?

정답
사분위수 범위(Interquantile Range)
 

7. 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석 방법은 무엇인가?

정답
가설검정
 

8. 가설검정 용어 중 '귀무가설이 옳은 데도 이를 기각하는 확률의 크기'를 의미하는 용어는?

정답
유의수준
 

9. 로지스틱 회귀분석에서는 이산형(Binary) 종속변수가 1일 확률을 모형화한다. 설명변수가 한 단위 증가할 때 종속변수가 1인 확률과 0인 확률 비의 증가율을 나타내는 것은?

정답
오즈(Odds)
 

10. 최적방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은 영향을 주는 변수를 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하는 방법은 무엇인가?

정답
후진제거법(Backward Elimination)
 

11. 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법은 무엇인가?

정답
분해 시계열
 

12. p시점 전의 자료가 현재 자료의 영향을 주고 과거의 관측 자료의 선형결합으로 표현, 거시점의 백색잡음의 선형결합으로 언제나 정상성을 만족하는 것은?

정답
AR 모형
 

13. 여러 대상 간의 관계에 관한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화 하는 방법은?

정답
다차원 척도법
 

14. 모형 평가방법 중 주어진 원천 데이터를 랜덤하게 두 분류로 분리하여 교차 검정을 실시하는 방법으로 하나는 모형의 학습 및 구축을 위한 훈련용 자료로, 다른 하나는 성과 평갈르 위한 검증용 자료로 사용하는 방법은 무엇인가?

정답
홀드아웃 방법
 

15. 의사결정 나무에서 끝마디가 너무 많으면 모형에 (가)인 상태로 현실문제에 적용될 수 있는 적절한 규칙이 나오지 않게 된다. 따라서 분류된 관측치의 비율 또는 MSE(Mean Square Error) 등을 고려하여 적절한 수준의 가지치기 규칙을 제공해야 한다.

정답
과대적합(Overfitting)
 

16. 불순도를 측정하는 지표로 노드의 불순도를 나타내는 값이다.클수록 이질적이며 순수도가 낮다고 볼 수 있으며, CART에서 목적변수가 범주형일 경우 사용하는 이 지표는 무엇인가?

정답
지니지수
 

17. (가)는 배깅에 랜덤과정을 추가한 방법이다. 원 자료로부터 붓스트랩 샘플을 추출하고, 각 붓스트랩 샘플에 대해 트리를 형성해 나가는 과정은 배깅과 유사하나, 각 노드마다 모두 예측변수 안에서 최적의 분할을 선택하는 방법 대신 예측 변수를 임의로 추출하고 추출된 변수 내에서 최적의 분할을 만들어 나가는 방법을 사용한다.

정답
랜덤 포레스트(Random Forest)
 

18. 앙상블 기법 중 붓스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법은?

정답
부스팅(Boosting)
 

19. 분류 분석 모형을 사용하여 분류된 관측치가 각 등급별로 얼마나 포함되는지를 나타내는 도표는?

정답
이익도표
 

20. 오분류표(Confusion Matrix)를 활용하여 모형을 평가하는 지표 중 실제값이 FALSE인 관측치 중 예측치가 적중한 정도를 나타내는 지표는?

정답
특이도
 

21. 데이터 마이닝 기법 중 동물의 뇌신경계를 모방하여 분류(또는 예측)을 위해 만들어진 모형은?

정답
인공신경망
 

22. 신경망 모형에서 출력값 z가 여러 개로 주어지고 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하여 출력노드에 주로 사용되는 함수는?

정답
소프트맥스 함수
 

23. 인공신경망에서 동일 입력층에 대해 원하는 값이 출력되도록 개개의 가중치(weight)를 조정하는 방법은 무엇인가?

정답
역전파 알고리즘
 

24. 모형기반(Model-based)의 군집방법으로 가중치를 자료로 부터 추정하는 방법으로 사용되는 군집 방법은 무엇인가?

정답
혼합 분포 군집(Mixture Distribution Clustering)
 

25. 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법을 무엇이라 하는가?

정답
배깅(Bagging)
 

26. (가)은/는 계층적 군집분석 방법 중 하나로 군집과 군집, 또는 데이터와의 거리계산 시 최단거리를 계산하여 거리가 가까운 데이터, 또는 군집을 새로운 군집으로 형성하는 방법이다. 이 방법은 사슬 구조의 군집이 생길 수 있다.

정답
최단연결법
 

27. 신경망 모형의 학습을 위한 역전파 과정에서 오차를 더 줄일 수 있는 가중치가 존재함에도 기울기가 0이 되어버려 더이상 학습이 진행되지 않는 문제를 나타내는 용어는?

정답
기울기 소실(Gradient Vanishing)
 

28. 공간적 차원과 관련된 속성들을 시각화에 추가하여 지도 위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는 분석방법은 무엇인가?

정답
공간분석(Spatial analysis)
 

29. SQL을 활용하거나 SAS에서 PROC SQL로 작업하던 사용자들에게 R 프로그램에서 지원해주는 패키지는 무엇인가?

정답
sqldf()
 

30. 평균으로부터 t 표준편차(Standard Deviation) 이상 떨어져 있는 값들을 이상값(Outlier)으로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘은?

정답
ESD(Extreme Studentized Deviation)
 

31. 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 시계열 용어는?

정답
정상성
 

32. 번호를 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누고 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번째 항목을 추출하는 표본 추출 방법

정답
계통추출법(Systematic Sampling)
 

33. 다음 내용이 설명하고 있는 것을 적으시오.

- 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형

- 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상 확률 모형

- 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ..., p차 등을 사용하나 정상시계열 모형에서는 주로 1, 2차를 사용함

정답
자기회귀모형(AR모형, Autoregressive Model)
 

34. 아래의 설명이 나타내는 척도는 무엇인가?

- 자료의 위치를 나타내는 척도의 하나로 관측치를 크기순으로 배열하였을 때 전체의 중앙에 위치한 수치이다. 평균에 비해 이상치에 의한 영향이 적기 때문에 자료의 분포가 심하게 비대칭인 경우 중심을 파악할 때 합리적인 방법이다.

정답
중앙값
 

35. 베이즈 정리(Bayes Theory)와 특징에 대해 조건부 독립을 가설로 하는 알고리즘으로 클래스에 대한 사전 정보와 데이터로부터 추출된 정보를 결합하고 베이즈 정리를 이용하여 어떤 데이터가 특정 클래스에 속하는지 분류하는 알고리즘은 무엇인가?

정답
나이브 베이지안 분류
 

36. 두 개체 간의 거리에 기반하여 군집을 형성해가는 계층적 군집방법에서 사용되는 측도 중 두 개체의 벡터 내적을 기반하여 아래의 수식으로 계산할 수 있는 유사성 측도는 무엇인가?

정답
코사인 유사도(cosine similarity)
 

37. 혼합분포군집(Mixture Disribution Clustering)은 모형 기반의 군집 방법으로서 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정 하에서 분석을 하는 방법이다. k개의 각 모형은 군집을 의미하며 이 혼합모형의 모수와 가중치의 최대가능도(Maximum Likelihood) 추정에 사용되는 알고리즘은 무엇인가?

정답
EM(Expectation-Maximization) 알고리즘
 

38. 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로 군집 내의 데이터 응집도(Cohesion)와 군집간 분리도(Separation)를 계산하여 군집 내의 데이터의 거리가 짧을 수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표는?

정답
실루엣(Shilouette)
 

39. SOM(Self Organizing Maps)에서는 각 학습 단계마다 입력층의 데이터 집합으로부터 하나의 표본 벡터를 임의로 선택하고 경쟁층의 프로토타입 백터와의 거리를 계산하고 가장 가까운 프로토타입 벡터틀 선택하는데 이 때 선택된 프로토타입 벡터를 나타내는 용어는 무엇인가?

정답
BMU(Best-Matching Unit)
 

40. 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 좋아졌는지를 각 등급별로 파악하는 그래프로 상위등급에서 매우 크고 하위 등급으로 갈수록 감소하게 되면 일반적으로 모형의 예측력이 적절하다고 판단하게 된다. 모형 평가에 사용되는 이 그래프는 무엇인가?

정답
향상도 곡선
 

41. 이것은 데이터 안의 두 변수간의 관계를 알아보기 위해 사용하는 값이다. 두 변수간의 공분산으로는 음과 양의 관계를 파악할 수 있으나 관계 정도를 확인하기는 힘들다. 그래서 각 변수의 공분산을 표준편차의 곱으로 나누어 -1에서 1사이 값으로 표준화하여 두 변수 간의 관계 정보를 확인할 수 있도록 수치화 한 이것을 활용한다. 이것은 무엇인가?

정답
상관계수(Correlation)
 

42. 우리는 모집단을 조사하기 위해 추출한 모집단의 일부 원소를 이용한다. 통계자료의 획득 방법 중 모집단을 조사하기 위해 추출한 집단을 무엇이라 하는가?

정답
샘플(Sample)
 

43. 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성 측정에 시간이라는 개념을 포함시켜 순차적인 구매 가능성이 큰 상품군을 찾아내는 데이터 마이닝 기법은?

정답
순차 분석(Sequence Analysis)
 

44. 고객은 늘 구매하지 않는다. 경쟁사의 고객 빼앗기에 따른 고객의 변심 또는 고객의 니즈나 취향이 변해 더 이상 상품과 서비스를 사용하지 않고 경쟁사와 거래하는 고객을 무엇이라 하는가?

정답
이탈고객
 

45. 의사결정나무 중 연속형 타깃변수(또는 목표변수)를 예측하는 의사결정나무를 무엇이라고 하는가?

정답
회귀나무(Regression Tree)
 

46. 데이터 마이닝 모델링 분석 기법 중 random input에 따른 forest of tree를 이용한 분류방법으로 랜덤한 forest에는 많은 트리들이 생성된다. 새로운 오브젝트를 분류하기 위해 forest에 있는 트리에 각각 투입해 각각의 트리들이 voting함으로써 분류하는 방식의 R 패키지는 무엇인가?

정답
랜덤 포레스트(Random Forest)
 

47. 다수 모델의 예측을 관리하고 조합하는 기술을 메타 학습(Meta Learning)이라 한다. 여러 분류기(Classifier)들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법은?

정답
앙상블 기법
 

48. 아래에서 언급한 것은 무엇인가?

- 데이터의 패턴을 발견하고 데이터 모델의 매개 변수를 자동으로 학습한다.

- 자체 알고리즘을 사용하여 시간이 경과함에 따라서 경험을 축적하면서 작업 성능이 향상된다.

정답
머신러닝 또는 기계학습
 

49. 텍스트 마이닝에서 어근에 차이가 있더라도 관련이 있는 단어들을 동일한 어간으로 매핑이 될 수 있도록 정해진 규칙에 따라 단어에서 어간을 분리하여 공통 어간을 가지는 단어를 묶는 작업을 무엇이라고 하는가?

정답
스테밍(Stemming) 또는 어간 추출
 

50. 시계열 분석을 위해서는 정상성을 만족해야 한다. 따라서 주어진 자료가 정상성을 만족하는지 판단하는 과정이 필요하다. 자료가 추세를 보이는 경우에는 현 시점의 자료값에서 전 시점의 자료를 빼는 방법을 통해 비정상시계열을 정상시계열로 바꾸어 준다. 이 방법은 무엇인가?

정답
차분
 
728x90
반응형

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 3과목  (2) 2023.10.16
[ADsP] 공부 - 2과목  (0) 2023.10.16
[ADsP] 공부 - 1과목  (1) 2023.10.15
[ADsP] 단답형 문제 정리 - 2과목  (0) 2023.10.14
[ADsP] 단답형 문제 정리 - 1과목  (0) 2023.10.14

+ Recent posts