728x90
반응형

데이터와 정보

1. 데이터의 유형

-정성적 데이터: 저장/검색/분석에 많은 비용이 소모 되는 언어, 문자 형태의 데이터

                             ex) 회사 매출이 증가함 등

-정형적 데이터: 정형화된 데이터로 수치, 도형, 기호 등의 형태를 가진 데이터

                            ex) 나이, 몸무게, 주가 등

2. 지식경영의 핵심 이슈

-암묵지

       # 의미: 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식

       # 특징: 사회적으로 중요하지만 공유되기 어려움

       # 상호작용: 공통화, 내면화

-형식지

       # 의미: 문서나 메뉴얼처럼 형상화된 지식

       # 특징: 전달과 공유가 용이함

       # 상호작용: 표출화, 연결화

3. DIKW 피라미드

-데이터(Data): 존재형식을 불문하고, 타 데이터와의 상관관계가 없는 가공하기 전의 순수한 수치나 기호를 의미

                               ex) A마트는 100원에, B마트는 200원에 연필을 판매한다.

-정보(Information): 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터

                               ex) A마트의 연필이 더 싸다.

-지식(Knowledge): 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 

                               ex) 상대적으로 저렴한 A마트에서 연필을 사야겠다.

-지혜(Wisdom): 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어

                               ex) A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단한다.

 

데이터베이스 정의와 특징

 1. 데이터베이스 정의

-EU: 체계적이거나 조직적으로 정리되고 전자식 또는 기타 수단으로 개별적으로 접근할 수 있는 독립된 저작물, 데이터 또는 기타 소재의 수집물

-국내 저작권법: 소재를 체계적으로 배열 또는 구성한 편집물로 개별적으로 그 소재에 접근하거나 그 소재를 검색할 수 있도록 한 것

-국내 컴퓨터용어사전: 동시의 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데이터를 받아들이고저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터의 집합

2.데이터베이스 특징

-통합된 데이터(Integrated Data): 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미. 데이터 중복은 관리상의 복잡한 부작용을 초래

-저장된 데이터(Stored Data): 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미. 데이터 베이스는 기본적으로 컴퓨터 기술을 바탕으로 한 것

-공용 데이터(Shared Data): 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미. 대용량화되고 구조가 복잡한 것이 보통

-변화되는 데이터(Changeable Data): 데이터베이스에 저장된 내용은 곧 데이터베이스의 현 시점에서의 상태를 나타냄. 다만 이 상태는 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 함.

 

빅데이터의 이해

1. 빅데이터의 정의

-관점에 따른 정의

       # Mckinsey(2011): 데이터 규모에 중점을 둔 정의 →  일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터

       # IDC(2011): 분석 비용 및 기술에 초점을 둔 정의    다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집/발굴/분석을 지원하도록 고안된 차세대 기술 및 아키텍처

       # 가트너그룹(Gartner Group) 더그 래니(Doug Laney)의 3V

               ▶Volume: 데이터의 규모 측면

               ▶Variety: 데이터의 유형과 소스 측면

               ▶Velocity: 데이터의 수집과 처리 측면

-빅데이터 정의의 범주 및 효과

       # 데이터 변화

               ▶규모 (Volume)

               ▶형태 (Variety)

               ▶속도 (Velocity)

       # 기술 변화

               ▶데이터 처리, 저장, 분석기술 및 아키텍처

               ▶클라우드 컴퓨팅 활용

       # 인재, 조직 변화

               ▶Data Scientist 같은 새로운 인재 필요

               ▶데이터 중심 조직

2. 출현 배경과 변화

-산업계의 출현배경: 고객 데이터 축적, 보유를 통해 데이터에 숨어있는 가치를 발굴

-학계의 출현배경: 거대 데이터를 다루는 학문 분야가 늘어나면서 필요한 기술 아키텍처 및 통계 도구의 발전

-기술발전으로 인한 출현 배경: 관련기술(저장 기술, 인터넷 보급, 클라우드 컴퓨팅, 모바일 혁명)의 발달

3. 빅데이터에 거는 기대의 비유적 표현

-산업혁명의 석탄과 철: 제조업 뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회/경제/문화/생활 전반에 혁명적 변화를 가져올 것으로 기대 됨

-21세기의 원유: 경제 성장에 필요한 정보를 제공함으로써 사업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망됨

-렌즈: 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠것으로 기대 됨

-플랫폼: '공동 활용의 목적으로 구축된 유무형의 구조물'로써의 다양한 서드파티  비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망됨 ex) 카카오톡, 페이스북 등

4. 빅데이터가 만들어 내는 본질적인 변화

-사전처리 → 사후처리

-표본조사 →전수조사

-질 → 양

-인과관계  상관관계

 

빅데이터의 가치와 영향 

1. 빅데이터의 가치 산정이 어려운 이유

-데이터 활용방식

-새로운 가치 창출

-분석기술 발전

2. 빅데이터의 영향

       # 기업

               ▶영향: 혁신, 경쟁력제고, 생산성향상

               ▶내용: 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업                                을 발굴한다.

       # 정부

               ▶영향: 환경 탐색, 상황분석, 미래대응

               ▶내용: 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정, 정보를 추출한다.

       # 개인

               ▶영향: 목적에 따른 활용

               ▶내용: 개인은 빅데이터를 서비스하는 기업의 출현으로 비용이 지속적으로 하락하여 정치인이나 대중 가수 등                                이 인지도 향상에 빅데이터를 활용 한다.

 

비즈니스 모델

1. 빅데이터 활용사례

       # 관점에 따른 정의

               ▶구글: 사용자의 로그 데이터를 활용한 검색엔진 개발. 기존 페이지랭크 알고리즘 혁신

               ▶월마트: 고객의 구매패턴을 분석해 상품 진열에 활용

       # 정부

               ▶실시간 교통정보 수집, 기후 정보, 소방 서비스 등을 위해 실시간 모니터링을 실시하여 국가 안전 확보에 활용

       # 개인

               ▶정치인: 선거 승리를 위해 사회관계망 분석을 활용해 유세 지역 선거

               ▶가수: 팬들의 음악 청취 기록을 분석해 공연 시 노래 순서 선정

2. 빅데이터 활용 기본 테크닉

-연관 규칙 학습, 군집분석, 유전 알고리즘, 기계학습, 회귀분석, 감정분석, 소셜네트워크분석(=사회관계망분석)

 

위기 요인과 통제방안

1. 위기 요인에 따른 통제 방안

       # 사생활 침해 → 동의에서 책임으로

       # 책임 원칙 훼손 → 결과 기반 책임 원칙 고수

       # 데이터 오용 알고리즘 접근 허용

 

미래의 빅데이터

1. 빅데이터 활용의 3요소

       # 데이터: 모든 것의 데이터 화(Datafication)

       # 기술: 진화하는 알고리즘, 인공지능

       # 인력: 데이터 사이언티스트, 알고리즈미스트

 

빅데이터 분석과 전략 인사이트

1. 빅데이터 회의론의 원인

       # 부정적 학습효과  과거의 고객관계관리(CRM): 공포 마케팅, 투자대비 효과 미흡

       # 부적정한 성공 사례 빅데이터가 필요 없는 분석사례, 기존 CRM의 분석 성과를 빅데이터 분석 성과로 과대 포장

==>단순히 빅데이터에 포커스를 두지 말고 , 분석을 통해 가치를 만드는 것에 집중해야 함

2. 일차원적인 분석 vs 전략 도출을 위한 가치 기반 분석

       # 산업별 분석 애플리케이션

               ▶금융 서비스: 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성분석

               ▶병원: 가격 책정, 고객 로열티, 수익 관리

               ▶에너지: 트레이딩, 공급, 수요 예측

               ▶정부: 사기 탐지, 사례관리, 범죄 방지, 수익 최적화

       # 전략 도출 가치 기반 분석

               ▶전략적 통찰력의 창출에 포커스 → 해당 사업에 중요한 기회를 발굴, 주요 경영진의 지원을 얻게됨

               ▶분석의 활용 범위를 더 넓고 전략적으로 변화 시키고, 전략적 인사이트를 주는 가치 기반의 분석 단계로 나아                      가야 함

 

전략 인사이트 도출을 위한 필요 역량

1. 데이터 사이언스의 의미

-데이터 사이언스란 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문

2. 데이터 사이언스의 구성요소

-데이터 사이언스의 영역

       # 분석적 영역

       # 데이터 처리와 관련된 IT영역

       # 비즈니스 컨설팅 영역

-데이터 사이언티스트의 요구 역량

       # Hard Skill

               ▶빅데이터에 대한 이론적 지식

               ▶분석 기술에 대한 숙련

      # Soft Skill

               ▶통찰력 있는 분석

               ▶설득력 있는 전달

               ▶다분야 간 협력

3. 데이터 사이언스 : 과학과 인문의 교차로

-분석 기술보다 더 중요한 것은 소프트 스킬로 전략적 통찰을 주는 분석은 단순 통계 및 데이터 처리 능력보다 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 대화 능력 등의 인문학적 요소가 필요함

4. 전략적 통찰력과 인문학의 부활

-외부 환경적 측면에서 본 인문학의 열풍과 이유

      # 컨버전스 → 디비전스

               ▶내용: 단순 세계화에서 복잡한 세계화로의 변화

               ▶예시: 규모의 경제, 세계화, 표준화, 이성화 → 복잡한 세계, 다양성, 관계, 연결성, 창조성

      # 생산 → 서비스

               ▶내용: 비즈니스 중심이 제품생산에서 서비스로 이동

               ▶예시: 고장 나지 않는 제품의 생산 → 뛰어난 서비스로 응대

      # 생산 → 시장창조

               ▶내용: 공급자 중심의 기술경쟁에서 무형자산의 경쟁으로 변화

               ▶예시: 생산에 관련된 기술 중심, 기술 중심의 대규모 투자 → 현재 패러다임에 근거한 시장 창조

                                                                                                             현지 사회와 문화에 관한 지식

     

빅데이터 그리고 데이터 사이언스의 미래

1. 빅데이터의 시대

-빅데이터 분석은 선거결과에 결정적인 영향을 미칠 수도 있고, 기업들에게 비용절감, 시간 절약, 매출증대, 고객서비스 향상, 신규 비즈니스 창출, 내부 의사결정 지원 등에 있어 상당한 가치를 발휘하고 있음

2. 빅데이터 회의론을 넘어 가치 패러다임의 변화

      # 과거 - Digitalization

               ▶아날로그 세상을 어떻게 효과적으로 디지털화하는가가 과거의 가치 창출 원천

      # 현재 - Connection

               ▶디지털화 된 정보와 대상들은 서로 연결 시작

               ▶연결을 더 효과적이고 효율적으로 제공하는가가 성공요인

      # 미래 - Agency

               ▶복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가의 이슈

3. 데이터 사이언스의 한계와 인문학

-데이터 사이언스의 한계

      # 분석과정에서는 가정 등 인간의 해석이 개입되는 단계를 반드시 거침

      # 분석결과가 의마하는 바는 사람에 따라 전혀 다른 해석과 결론을 내릴 수 있음

      # 아무리 정량적인 분석이라도 모든 분석은 가정에 근거함

-데이터 사이언스의 인문학

      # 인문학을 이용하여 빅데이터와 데이터 사이언스가 데이터에 묻혀 있는 잠재력을 풀어냄

      # 새로운 기회를 찾고, 누구도 보지 못한 창조의 밑그림을 그릴 수 있는 힘을 발휘하게 될 것

 

 

728x90
반응형

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 3과목  (2) 2023.10.16
[ADsP] 공부 - 2과목  (0) 2023.10.16
[ADsP] 단답형 문제 정리 - 3과목  (1) 2023.10.15
[ADsP] 단답형 문제 정리 - 2과목  (0) 2023.10.14
[ADsP] 단답형 문제 정리 - 1과목  (0) 2023.10.14
728x90
반응형

1. (가)는 데이터 웨어하우스 환경에서 정의된 접근 계층으로, 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할을 한다. 보통 특정한 조직 혹은 팀에서 사용하는 것을 목적으로 한다.

정답
데이터 마트
 

2. P(A)=0.3, P(B)=0.4이다. 두 사건 A와 B가 독립일 경우 P(B|A)는 얼마인가?

정답
0.4
풀이: P(B|A) = P(A) * P(B) / P(A)
 

3. 이산형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포는 무엇인가?

정답
포아송분포
 

4. 가설검정 결과에서 귀무가설이 옳은데도 귀무사설을 받아들이지 않고 기각하게 되는 오류는?

정답
제 1종 오류
 

5. 통계분석 개념 중 모집단의 특성을 단일한 값으로 추정하는 방법은 무엇인가?

정답
점 추정
 

6. 중앙 50%의 데이터들의 흩어진 정도를 의미하는 것은?

정답
사분위수 범위(Interquantile Range)
 

7. 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석 방법은 무엇인가?

정답
가설검정
 

8. 가설검정 용어 중 '귀무가설이 옳은 데도 이를 기각하는 확률의 크기'를 의미하는 용어는?

정답
유의수준
 

9. 로지스틱 회귀분석에서는 이산형(Binary) 종속변수가 1일 확률을 모형화한다. 설명변수가 한 단위 증가할 때 종속변수가 1인 확률과 0인 확률 비의 증가율을 나타내는 것은?

정답
오즈(Odds)
 

10. 최적방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은 영향을 주는 변수를 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하는 방법은 무엇인가?

정답
후진제거법(Backward Elimination)
 

11. 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법은 무엇인가?

정답
분해 시계열
 

12. p시점 전의 자료가 현재 자료의 영향을 주고 과거의 관측 자료의 선형결합으로 표현, 거시점의 백색잡음의 선형결합으로 언제나 정상성을 만족하는 것은?

정답
AR 모형
 

13. 여러 대상 간의 관계에 관한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화 하는 방법은?

정답
다차원 척도법
 

14. 모형 평가방법 중 주어진 원천 데이터를 랜덤하게 두 분류로 분리하여 교차 검정을 실시하는 방법으로 하나는 모형의 학습 및 구축을 위한 훈련용 자료로, 다른 하나는 성과 평갈르 위한 검증용 자료로 사용하는 방법은 무엇인가?

정답
홀드아웃 방법
 

15. 의사결정 나무에서 끝마디가 너무 많으면 모형에 (가)인 상태로 현실문제에 적용될 수 있는 적절한 규칙이 나오지 않게 된다. 따라서 분류된 관측치의 비율 또는 MSE(Mean Square Error) 등을 고려하여 적절한 수준의 가지치기 규칙을 제공해야 한다.

정답
과대적합(Overfitting)
 

16. 불순도를 측정하는 지표로 노드의 불순도를 나타내는 값이다.클수록 이질적이며 순수도가 낮다고 볼 수 있으며, CART에서 목적변수가 범주형일 경우 사용하는 이 지표는 무엇인가?

정답
지니지수
 

17. (가)는 배깅에 랜덤과정을 추가한 방법이다. 원 자료로부터 붓스트랩 샘플을 추출하고, 각 붓스트랩 샘플에 대해 트리를 형성해 나가는 과정은 배깅과 유사하나, 각 노드마다 모두 예측변수 안에서 최적의 분할을 선택하는 방법 대신 예측 변수를 임의로 추출하고 추출된 변수 내에서 최적의 분할을 만들어 나가는 방법을 사용한다.

정답
랜덤 포레스트(Random Forest)
 

18. 앙상블 기법 중 붓스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법은?

정답
부스팅(Boosting)
 

19. 분류 분석 모형을 사용하여 분류된 관측치가 각 등급별로 얼마나 포함되는지를 나타내는 도표는?

정답
이익도표
 

20. 오분류표(Confusion Matrix)를 활용하여 모형을 평가하는 지표 중 실제값이 FALSE인 관측치 중 예측치가 적중한 정도를 나타내는 지표는?

정답
특이도
 

21. 데이터 마이닝 기법 중 동물의 뇌신경계를 모방하여 분류(또는 예측)을 위해 만들어진 모형은?

정답
인공신경망
 

22. 신경망 모형에서 출력값 z가 여러 개로 주어지고 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하여 출력노드에 주로 사용되는 함수는?

정답
소프트맥스 함수
 

23. 인공신경망에서 동일 입력층에 대해 원하는 값이 출력되도록 개개의 가중치(weight)를 조정하는 방법은 무엇인가?

정답
역전파 알고리즘
 

24. 모형기반(Model-based)의 군집방법으로 가중치를 자료로 부터 추정하는 방법으로 사용되는 군집 방법은 무엇인가?

정답
혼합 분포 군집(Mixture Distribution Clustering)
 

25. 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법을 무엇이라 하는가?

정답
배깅(Bagging)
 

26. (가)은/는 계층적 군집분석 방법 중 하나로 군집과 군집, 또는 데이터와의 거리계산 시 최단거리를 계산하여 거리가 가까운 데이터, 또는 군집을 새로운 군집으로 형성하는 방법이다. 이 방법은 사슬 구조의 군집이 생길 수 있다.

정답
최단연결법
 

27. 신경망 모형의 학습을 위한 역전파 과정에서 오차를 더 줄일 수 있는 가중치가 존재함에도 기울기가 0이 되어버려 더이상 학습이 진행되지 않는 문제를 나타내는 용어는?

정답
기울기 소실(Gradient Vanishing)
 

28. 공간적 차원과 관련된 속성들을 시각화에 추가하여 지도 위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는 분석방법은 무엇인가?

정답
공간분석(Spatial analysis)
 

29. SQL을 활용하거나 SAS에서 PROC SQL로 작업하던 사용자들에게 R 프로그램에서 지원해주는 패키지는 무엇인가?

정답
sqldf()
 

30. 평균으로부터 t 표준편차(Standard Deviation) 이상 떨어져 있는 값들을 이상값(Outlier)으로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘은?

정답
ESD(Extreme Studentized Deviation)
 

31. 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 시계열 용어는?

정답
정상성
 

32. 번호를 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누고 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번째 항목을 추출하는 표본 추출 방법

정답
계통추출법(Systematic Sampling)
 

33. 다음 내용이 설명하고 있는 것을 적으시오.

- 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형

- 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상 확률 모형

- 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ..., p차 등을 사용하나 정상시계열 모형에서는 주로 1, 2차를 사용함

정답
자기회귀모형(AR모형, Autoregressive Model)
 

34. 아래의 설명이 나타내는 척도는 무엇인가?

- 자료의 위치를 나타내는 척도의 하나로 관측치를 크기순으로 배열하였을 때 전체의 중앙에 위치한 수치이다. 평균에 비해 이상치에 의한 영향이 적기 때문에 자료의 분포가 심하게 비대칭인 경우 중심을 파악할 때 합리적인 방법이다.

정답
중앙값
 

35. 베이즈 정리(Bayes Theory)와 특징에 대해 조건부 독립을 가설로 하는 알고리즘으로 클래스에 대한 사전 정보와 데이터로부터 추출된 정보를 결합하고 베이즈 정리를 이용하여 어떤 데이터가 특정 클래스에 속하는지 분류하는 알고리즘은 무엇인가?

정답
나이브 베이지안 분류
 

36. 두 개체 간의 거리에 기반하여 군집을 형성해가는 계층적 군집방법에서 사용되는 측도 중 두 개체의 벡터 내적을 기반하여 아래의 수식으로 계산할 수 있는 유사성 측도는 무엇인가?

정답
코사인 유사도(cosine similarity)
 

37. 혼합분포군집(Mixture Disribution Clustering)은 모형 기반의 군집 방법으로서 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정 하에서 분석을 하는 방법이다. k개의 각 모형은 군집을 의미하며 이 혼합모형의 모수와 가중치의 최대가능도(Maximum Likelihood) 추정에 사용되는 알고리즘은 무엇인가?

정답
EM(Expectation-Maximization) 알고리즘
 

38. 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로 군집 내의 데이터 응집도(Cohesion)와 군집간 분리도(Separation)를 계산하여 군집 내의 데이터의 거리가 짧을 수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표는?

정답
실루엣(Shilouette)
 

39. SOM(Self Organizing Maps)에서는 각 학습 단계마다 입력층의 데이터 집합으로부터 하나의 표본 벡터를 임의로 선택하고 경쟁층의 프로토타입 백터와의 거리를 계산하고 가장 가까운 프로토타입 벡터틀 선택하는데 이 때 선택된 프로토타입 벡터를 나타내는 용어는 무엇인가?

정답
BMU(Best-Matching Unit)
 

40. 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 좋아졌는지를 각 등급별로 파악하는 그래프로 상위등급에서 매우 크고 하위 등급으로 갈수록 감소하게 되면 일반적으로 모형의 예측력이 적절하다고 판단하게 된다. 모형 평가에 사용되는 이 그래프는 무엇인가?

정답
향상도 곡선
 

41. 이것은 데이터 안의 두 변수간의 관계를 알아보기 위해 사용하는 값이다. 두 변수간의 공분산으로는 음과 양의 관계를 파악할 수 있으나 관계 정도를 확인하기는 힘들다. 그래서 각 변수의 공분산을 표준편차의 곱으로 나누어 -1에서 1사이 값으로 표준화하여 두 변수 간의 관계 정보를 확인할 수 있도록 수치화 한 이것을 활용한다. 이것은 무엇인가?

정답
상관계수(Correlation)
 

42. 우리는 모집단을 조사하기 위해 추출한 모집단의 일부 원소를 이용한다. 통계자료의 획득 방법 중 모집단을 조사하기 위해 추출한 집단을 무엇이라 하는가?

정답
샘플(Sample)
 

43. 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성 측정에 시간이라는 개념을 포함시켜 순차적인 구매 가능성이 큰 상품군을 찾아내는 데이터 마이닝 기법은?

정답
순차 분석(Sequence Analysis)
 

44. 고객은 늘 구매하지 않는다. 경쟁사의 고객 빼앗기에 따른 고객의 변심 또는 고객의 니즈나 취향이 변해 더 이상 상품과 서비스를 사용하지 않고 경쟁사와 거래하는 고객을 무엇이라 하는가?

정답
이탈고객
 

45. 의사결정나무 중 연속형 타깃변수(또는 목표변수)를 예측하는 의사결정나무를 무엇이라고 하는가?

정답
회귀나무(Regression Tree)
 

46. 데이터 마이닝 모델링 분석 기법 중 random input에 따른 forest of tree를 이용한 분류방법으로 랜덤한 forest에는 많은 트리들이 생성된다. 새로운 오브젝트를 분류하기 위해 forest에 있는 트리에 각각 투입해 각각의 트리들이 voting함으로써 분류하는 방식의 R 패키지는 무엇인가?

정답
랜덤 포레스트(Random Forest)
 

47. 다수 모델의 예측을 관리하고 조합하는 기술을 메타 학습(Meta Learning)이라 한다. 여러 분류기(Classifier)들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법은?

정답
앙상블 기법
 

48. 아래에서 언급한 것은 무엇인가?

- 데이터의 패턴을 발견하고 데이터 모델의 매개 변수를 자동으로 학습한다.

- 자체 알고리즘을 사용하여 시간이 경과함에 따라서 경험을 축적하면서 작업 성능이 향상된다.

정답
머신러닝 또는 기계학습
 

49. 텍스트 마이닝에서 어근에 차이가 있더라도 관련이 있는 단어들을 동일한 어간으로 매핑이 될 수 있도록 정해진 규칙에 따라 단어에서 어간을 분리하여 공통 어간을 가지는 단어를 묶는 작업을 무엇이라고 하는가?

정답
스테밍(Stemming) 또는 어간 추출
 

50. 시계열 분석을 위해서는 정상성을 만족해야 한다. 따라서 주어진 자료가 정상성을 만족하는지 판단하는 과정이 필요하다. 자료가 추세를 보이는 경우에는 현 시점의 자료값에서 전 시점의 자료를 빼는 방법을 통해 비정상시계열을 정상시계열로 바꾸어 준다. 이 방법은 무엇인가?

정답
차분
 
728x90
반응형

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 3과목  (2) 2023.10.16
[ADsP] 공부 - 2과목  (0) 2023.10.16
[ADsP] 공부 - 1과목  (1) 2023.10.15
[ADsP] 단답형 문제 정리 - 2과목  (0) 2023.10.14
[ADsP] 단답형 문제 정리 - 1과목  (0) 2023.10.14
728x90
반응형

1. 합리적 의사결정을 방해하는 요소로 표현방식 및 발표자에 따라 동일한 사실에도 판단을 달리하는 현상을 무엇이라 하는가?

정답
프레이밍 효과
 

2. (가) 모델은 반복을 통하여 점증적으로 개발하는 방법으로 처음 시도하는 프로젝트에 적용이 용이하지만, 반복에 대한 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다.

정답
나선형(Spiral)
 

3. 문제 탐색을 통해서 식별된 비즈니스 문제를 변환하는 단계로써, 문제 탐색 단계가 무엇을 어떤 목적으로 수행해야 하는가에 대한 관점이었다면, (가) 단계는 이를 달성하기 위해서 필요한 데이터 및 기법(How)을 도출하기 위한 데이터 분석의 문제로의 변환을 수행하게 된다

정답
문제 정의
 

4. 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 분석과제 발굴 방식을 무엇이라고 하는가?

정답
하향식 접근 방식
 

5. 조직의 분석 및 활용을 위한 역량수준을 파악하기 위해 '도입→(가)→확산→최적화'의 분석 성숙도(Maturity) 단계 포지셔닝을 파악한다.

정답
활용
 

6. 전사차원의 모든 데이터에 대하여 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것

정답
데이터 거버넌스
 

7. 분석 방법론의 "시스템 구현" 단계에서 시스템으로 구현된 모델은 검증(Verification&Validation) 위하여 단위 테스트, 통합 테스트, 시스템 테스트 등을 실시한다. 이중 (가) 테스트는 품질관리 차원에서 진행함으로써 적용된 시스템의 객관성과 안정성으 확보한다.

정답
시스템
 

8. 데이터 거버넌스 체계에서 데이터 저장소(Repository) 관리란 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소로 구성된다. 저장소는 데이터 관리 체계 지원을 위한 (가) 및 관리용 응용소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 한다. 또한 데이터 구조 변경에 따른 (나)도 수행되어야 효율적인 활용이 가능하다.

정답
(가) 워크 플로우
(나) 사전 영향 평가
 

9. 분석 모델을 가동중인 운영시스템에 적용하기 위해서는 모델에 대한 상세한 "알고리즘 설명서" 작성이 필요하다. "알고리즘 설명서"는 "시스템 구현"단계에서 중요한 입력 자료로 활용되므로 필요시 (가) 수준의 상세한 작성이 필요하다.

정답
의사 코드
 

10. 분석 과제 관리 프로세스는 크게 과제 발굴과 (가)(으)로 나누어진다. 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 중석 과제 풀(Pool)로 관리하면서 분석과제가 확정되면 (나), (다), (라), 분석과제 결과 공유선의 분석과제 관리 프로세스를 수행하게 된다.

정답
(가) 과제 수행
(나) 팀 구성
(다) 분석과제 수행
(라) 분석과제 진행관리
 

11. 비즈니스 모델 캔버스는 9가지 블록을 단순화하여 (가), (나), 고객단위로 문제를 발굴하고 이를 관리하는 규제와 감사, (다) 영역으로 나눠 분석 기회를 도출한다.

정답
(가) 업무
(나) 제품
(다) 지원인프라
 

12. KDD 분석 방법론에서 잡음, 이상치, 결측치를 식별하여 분석용 데이터 셋을 선택하고 분석에 필요한 변수 등을 선정하는 단계와 유사한 CRISP-DM 방법론의 단계는?

정답
데이터준비
 

13. 분석용 데이터를 이용한 가설 설정을 통하여 통계모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정

정답
모델링
 

14. 소프트웨어와 시스템공학의 역량 숙성도를 측정하기 위한 모델로 소프트웨어 품질보증과 시스템 엔지니어링 분야의 품질보증 기술을 통합하여 개발된 평가모델로 1~5단계로 구성된 성숙도 모델은?

정답
능력 성숙도 통합모델(CMMI, Capability Maturity Model Integration)
 

15. 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 (가)을(를) 수행한다. (가)은(는) 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내/외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차이다.

정답
ISP(Information Strategy Planning)
 

17. 데이터 분석 기획을 위해서 데이터 분석 수준 진단이 필요하다. 분석 준비도와 분석 성숙도를 통해 데이터 분석 수준을 진단하게 되는데, 분석 준비도 6개의 영역 중 2가지를 적으시오.

정답
분석 업무, 분석 인력/조직, 분석 기법, 분석 데이터, 분석 문화, 분석 인프라
 

18. 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것은 무엇인가?

정답
분석 유즈 케이스
 

19. 데이터 거버넌스란 전사차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운용조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크(Framework) 및 저장소(Repository)를 구축하는 것을 말한다. 특히 (가), (나), (다)는 데이터 거버넌스의 중요한 관리 대상이다.

정답
(가)마스터 데이터
(나)메타 데이터
(다)데이터 사전
 

20. (가)은(는) 전략적 중요도가 핵심이며, 이는 현재의 관점에서 전략적 가치를 둘 것인지, 미래의 중장기적 관점에 전략적인 가치를 둘 것인지 고려하고, 분석 과제의 목표가치를 함께 고려하여 (가)의 여부를 판단할 수 있다.

정답
시급성
 

21. 데이터 분석 도입의 수준을 파악하기 위한 분석 준비도의 6가지 구성요소 중 하나로서 운영시스템 데이터 통합, 빅데이터 분석 환경, 통계분석 환경 등을 진단하는 구성요소는 무엇인가?

정답
IT 인프라
 

22. 아래에서 설명하는 데이터 분석 조직 구조는 무엇인가?

- 전사 분석업무를 별도의 분석 전담 조직에서 담당

- 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능

- 현업 업무부서의 분석업무와 이중화/이원화 가능성 높음

정답
집중구조
 
728x90
반응형

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 3과목  (2) 2023.10.16
[ADsP] 공부 - 2과목  (0) 2023.10.16
[ADsP] 공부 - 1과목  (1) 2023.10.15
[ADsP] 단답형 문제 정리 - 3과목  (1) 2023.10.15
[ADsP] 단답형 문제 정리 - 1과목  (0) 2023.10.14
728x90
반응형

1. (가)는 데이터 가공 및 상관관계의 이해를 통해 패턴을 인식하고 그 의미를 부여한 것이며, 지식을 도출하기 위한 재료가 된다.

정답
정보(Information)
 

2. (가)는 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로, 자재 구매, 생산, 제고 ,유통 ,판매, 고객 데이터로 구성된다.

정답
SCM(Supply Chain Management)
 

3. 기업의 의사결정 과정을 지원하기 위한 주제 중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터의 집합을 (가)라고 한다.

정답
데이터 웨어하우스(Data Warehouse)
 

4. 문자, 기호, 음성, 화상, 영상 등 상호 연관된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집/축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체를 무엇이라고 하는가?

정답
데이터베이스(Database)
 

5. 인터넷을 기반으로 모든 사물을 연결해 사람과 사물, 사물과 사물 간의 정보를 상호 소통하는 지능형 기술 및 서비스이며, 사물에서 생성되는 Data를 활용한 분석을 통해 마케팅 등에 활용할 수 있다.

정답
사물인터넷(IoT, Internet of Things)
 

6. 이것은 인터넷에 연결된 기기가 사람의 개입 없이 상호간에 알아서 정보를 주고 받아 처리한다. 구글의 Google Glass, 나이키의 Fuel band 등이 있다.

정답
사물인터넷(IoT, Internet of Things)
 

7.

- 생명의 진화를 모방하여 최적해(Optimal Solution)를 구하는 알고리즘으로 존 홀랜드(John Holland)가 1975년에 개발하였다.

- '최대의 시청률을 얻으려면 어떤 시간대에 방송해야 하는가?'와 같은 문제를 해결할 때 사용된다.

- 어떤 미지의 함수 Y=f(x)를 최적화하는 해 x를 찾기위해, 진화를 모방한 탐색 알고리즘이라고 말할 수 있다.

정답
유전자 알고리즘(Generic Algorithm)
 

8. 데이터로부터 의미있는 정보를 추출해 내는 학문으로, 통계학과는 달리 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 분석대상으로 하는 것을 무엇이라고 하는가?

정답
데이터 사이언스(Data Science)
 

9. 데이터 사이언티스트가 갖춰야할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련에 관련된 능력인 (가) 와 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인(나)로 이루어진다.

정답
(가) 하드 스킬
(나) 소프트 스킬
 

10. 지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다. 전사적으로 쉽게 인사이트를 공유하는 데 도움이 되기 때문이다. 다시 말해 별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트인 (가)을/를 기업들이 구현하는 것은 2017년 새롭게 등장한 트랜드가 아니다. 그러나 2017년은 이를 적절히 관리해 운영하는 첫해가 될 전망이다.

정답
데이터 레이크
 

11. (가)는 지역별 매출액, 영업이익률, 판매량과 같이 수치로 명확하게 표현되는 데이터로, 그양이 크게 증가하더라도 이를 DBMS에 저장, 검색, 분석하여 활용하기가 용이하다.

정답
정량적 데이터
 

12.

- 페이스북은 2006년 F8 행사를 기점을 자신들의 소셜 그래프 자산을 외부 개발자들에게 공개하고 서드파티 개발자들이 페이스북 위에서 작동하는 앱을 만들기 시작하면서 (가) 역할을 하기 시작했다.

- 하둡은 대규모 분산 병렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 (가) 기술이며, 선형적인 성능과 용량 확장성, 고장 감내성을 가지고 있다. 아마존(Amazon)은 S3 와 BC2 환경을 제공함으로 써 (가)을/를 위한 클라우드 서비스를 최초로 실현 하였다.

정답
플랫폼(Platform)
 

13. 개인의 사생활 침해를 방지하고 통계 응답자의 비밀사항은 보호하면서 통계자료의 유용성을 최대한 확보 할 수 있는 데이터변환 방법은 무엇인가?

정답
마스킹(Masking)
 

14. 데이터 (가)란 데이터베이스 내의 데이터에 대한 정확성, 일관성, 유효성, 신뢰성을 보장하기 이해 데이터 변경 혹은 수정시 여러가지 제한을 두어 데이터의 정확성을 보증하는 것을 말한다.

정답
무결성(Integrity)
 

15. 인터넷상의 서버에서 데이터 저장, 처리, 네트워크, 콘텐츠 사용 등 서로 다른 물리적인 위치에 존재하는 컴퓨팅 자원을 가상화 기술을 통해 IT 관련 서비스를 한 번에 제공하는 혁신적인이 컴퓨팅 기술은 무엇인가?

정답
클라우드 컴퓨팅
 

16. (가)(이)란 데이터로부터 의미있는 정보를 추출하는 학문으로, 통계학과는 달리 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 분석 대상으로 한다. 또한 분석에 초점을 두는 데이터 마이닝과는 달리 (가)는 분석 뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함하는 포괄적인 개념이다.

정답
데이터 사이언스
 

17. 다음에 설명하에 맞는 데이터 유형은 무엇인가?

- 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미를 부여한 데이터

- 지식을 도출할 때 사용하는 데이터

정답
정보
 

18. 기업내부 데이터 베이스 중 기업 전체가 경영자원을 효과적으로 이용하기 위해 통합적으로 관리하고 경영의 효율화를 기하기 위한 수단으로 정보의 통합을 위해 기업의 모든 자원을 최적으로 관리하기 위한 기업 경영 정보시스템

정답
ERP
 

19. 인공지능의 한 분야로, 컴퓨터가 스스로 많은 데이터를 분석해서 패턴과 규칙을 찾아내고, 학습된 패턴과 규칙을 활용하여 분류나 예측을 하는 것을 무엇이라고 하는가?

정답
머신러닝(또는 기계학습)
 

20. 조직 내 구성원들이 축적하고 있는 노하우 등 암묵적 지식을 형식지로 표출화 될 수 있도록 지원하는 등 조직의 경쟁력 향상을 위해 지식자원을 체계화하고 원활하게 공유가 될 수 있도록 지원하는 시스템을 무엇이라고 하는가?

정답
KMS(지식관리시스템)
 

21. 데이터 사이언스란 데이터로 부터 의미있는 정보를 추출하는 학문이다. 통계학이 정형화된 실험 데이터를 분석대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 (가)을/를 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 한다.

정답
비정형
 
728x90
반응형

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 3과목  (2) 2023.10.16
[ADsP] 공부 - 2과목  (0) 2023.10.16
[ADsP] 공부 - 1과목  (1) 2023.10.15
[ADsP] 단답형 문제 정리 - 3과목  (1) 2023.10.15
[ADsP] 단답형 문제 정리 - 2과목  (0) 2023.10.14

+ Recent posts