728x90
반응형

2024 정보처리기사 일정이 올라왔습니다.

사전에 준비하셔서 좋은 결과 얻으시길 바랍니다!

🌳정기시험 수험원서 접수 방법🌳

✏️수험원서 접수방법 (인터넷 접수만 가능)
 원서접수홈페이지: www.Q-net.or.kr

 

Q-Net 자격의 모든 것

 

www.q-net.or.kr

 

✏️ 수험원서 접수시간
원서접수 첫날 10:00부터 원서접수 마지막 날 18:00까지

* 일부 등급별 원서접수 시작 시간이 구분될 수 있음

✏️ 수험원서 접수기간
필기시험 대상자: 해당 종목 필기시험 원서접수기간
실기(면접)시험 대상자: 해당 종목 실기(면접)시험 원서접수기간

🌳정보처리기사 원서접수 일정 및 시험일정🌳

 

 

🌳 기사 응시자격 안내🌳

  • 1. 산업기사 등급 이상의 자격을 취득한 후 응시하려는 종목이 속하는 동일 및 유사 직무분야에서 1년 이상 실무에 종사한 사람
  • 2. 기능사 자격을 취득한 후 응시하려는 종목이 속하는 동일 및 유사 직무분야에서 3년 이상 실무에 종사한 사람
  • 3. 응시하려는 종목이 속하는 동일 및 유사 직무분야의 다른 종목의 기사 등급 이상의 자격을 취득한 사람
  • 4. 관련학과의 대학졸업자등 또는 그 졸업예정자
  • 5. 3년제 전문대학 관련학과 졸업자등으로서 졸업 후 응시하려는 종목이 속하는 동일 및 유사 직무분야에서 1년 이상 실무에 종사한 사람
  • 6. 2년제 전문대학 관련학과 졸업자등으로서 졸업 후 응시하려는 종목이 속하는 동일 유사 직무분야에서 2년 이상 실무에 종사한 사람
  • 7. 동일 및 유사 직무분야의 기사 수준 기술훈련과정 이수자 또는 그 이수예정자
  • 8. 동일 및 유사 직무분야의 산업기사 수준 기술훈련과정 이수자로서 이수 후 응시하려는 종목이 속하는 동일 및 유사 직무분야에서 2년 이상 실무에 종사한 사람
  • 9. 응시하려는 종목이 속하는 동일 및 유사 직무분야에서 4년 이상 실무에 종사한 사람
  • 10. 외국에서 동일한 종목에 해당하는 자격을 취득한 사람
  •  
더 확실한 방법은

마이페이지 > 응시자격 > 응시자격 자가진단

에서 본인 학력정보와 경력정보 입력 후 확인 가능합니다.

 

🌳 CBT 필기시험 시험시간🌳

 

더 자세한 정보는 큐넷 ( www.Q-net.or.kr ) 홈페이지 공지사항에 PDF 파일로 올라와있습니다.

728x90
반응형

'Certificate' 카테고리의 다른 글

정보처리기사 합격자가 되...  (7) 2024.07.15
728x90
반응형

1. SQL 문장들의 종류

명령어의 종류 명령어 설명
데이터 조작어
(DML : Data Manipulation Language)
SELECT 데이터베이스에 들어있는 데이터를 조회하거나 검색하기 위한 명령어를 말하는 것으로 RETRIEVE 라고도 한다.
INSERT
UPDATE
DELETE
데이터베이스의 테이블에 들어 있는 데이터에 변형을 가하는 종류의 명령어들을 말한다. 예를 들어 데이터를 테이블에 새로운 행을 집어넣거나, 원하지 않는 데이터를 삭제하거나 수정하는 것들의 명령어들을 DML이라고 부른다.
데이터 정의어
(DDL : Data Definition Language)
CREATE
ALTER
DROP
RENAME
테이블과 같은 데이터 구조를 정의하는데 사용되는 명령어들로 그러한 구조를 생성하거나 변경하거나 삭제 하거나 이름을 바꾸는 데이터 구조와 관련된 명령어들을 DDL이라고 부른다.
데이터 제어어
(DCL : Data Control Language)
GRANT
REVOKE
데이터베이스에 접근하고 객체들을 사용하도록 권한을 주고 회수하는 명령어를 DCL이라고 부른다.
트랜잭션 제어어
(TCL : Transaction Control Language)
COMMIT
ROLLBACK
논리적인 작업의 단위를 묶어서 DML에 의해 조작된 결과를 작업단위(트랜잭션) 별로 제어하는 명령어를 말한다.

 

2. 테이블 칼럼에 대한 정의 변경

- [ORACLE]

ALTER TABLE 테이블명 MODIFY (칼럼명1 데이터 유형 [DEFAULT 식] [NOT NULL], 칼럼명2 데이터 유형 · · ·);

 

- [SQL Server]

ALTER TABLE 테이블명 ALTER (칼럼명1 데이터 유형 [DEFAULT 식] [NOT NULL], 칼럼명2 데이터 유형 · · ·);

 

3. NULL

- NULL(ASCII 코드 00번)은 공백(BLANK, ASCII 코드 32번)이나 숫자 0(ZERO, ASCII 48)과는 전혀 다른 값이며, 조건에 맞는 데이터가 없을 때의 공집합과도 다르다. 'NULL'은 '아직 정의되지 않는 미지의 값'이거나 '현재 데이터를 입력하지 못하는 경우'를 의미한다.

 

4. 제약조건의 종류

- PRIMARY KEY(기본키)

- UNIQUE KEY(고유키)

- NOT NULL

- CHECK

- FOREIGN KEY(외래키)

 

5. 테이블 생성의 주의사항

- 테이블명은 객체를 의미할 수 있는 적절한 이름을 사용한다. 가능한 단수형을 권고한다.

- 테이블 명은 다른 테이블의 이름과 중복되지 않아야 한다.

- 한 테이블 내에서는 칼럼명이 중복되게 지정될 수 없다.

- 테이블 이름을 지정하고 각 칼럼들은 괄호 "()"로 묶어 지정한다.

- 각 컬럼들은 콤마 ","로 구분되고, 테이블 생성문의 끝은 항상 세미콜론 ";''으로 끝난다.

- 칼럼에 대해서는 다른 테이블가지 고려하여 데이터 베이스 내에서는 일관성 있게 사용하는 것이 좋다. (데이터 표준화 관점)

- 칼럼 뒤에 데이터 유형은 꼭 지정되어야 한다.

- 테이블명과 칼럼명은 반드시 문자로 시작해야 하고, 벤더별로 길이에 대한 한계가 있다.

- 벤더에서 사전에 정의한 예약어(Reserved word)는 쓸 수 없다.

- A-Z, a-z, 0-9, _, $, # 문자만 허용된다.

 

6. 테이블의 불필요한 칼럼 삭제

ALTER TABLE 테이블 명
DROP COLUMN 삭제할 컬럼명;

 

7. 테이블에 데이터를 입력하는 두 가지 유형

INSERT INTO 테이블명 (COLUMN_LIST) VALUES (COLUMN_LIST에 넣을 VALUE_LIST);
INSERT INTO 테이블명 VALUES (전체 COLUMN에 넣을 VALUE_LIST);

 

8. 입력된 데이터의 수정

UPDATE 테이블명 SET 수정되어야 하는 컬럼명 = 수정되기를 원하는 새로운 값;

 

9. 테이블에 입력된 데이터 조회

SELECT [ALL/DISTINCT] 보고 싶은 칼럼명, 보고 싶은 칼럼명, ...
FROM 해당 칼럼들이 있는 테이블명;

- ALL : Default 옵션이므로 별도로 표시하지 않아도 된다. 중복된 데이터가 있어도 모두 출력한다.

- DISTINCT : 중복된 데이터가 있는 경우 1건으로 처리해서 출력한다.

 

10. TRUNCATE

- TRUNCATE TABLE은 테이블 자체가 삭제되는 것이 아니고, 해당 테이블에 들어있던 모든 행들이 제거되고 저장 공간을 재사용 가능하도록 해제 한다. 테이블 구조를 완전히 삭제하기 위해서는 DROP TABLE을 실행하면 된다.

 

11. 트랜잭션의 특성

- 원자성(atomicity) : 트랜잭션에서 정의된 연산들은 모두 성공적으로 실행되던지 아니면 전혀 실행되지 않은 상태로 남아 있어야 한다. (all or nothing)

- 일관성(consistency) : 트랜잭션이 실행되기 전의 데이터베이스 내용이 잘못 되어 있지 않다면 트랜잭션이 실행된 이후에도 데이터베이스의 내용에 잘못이 있으면 안 된다.

- 고립성(isolation) : 트랜잭션이 실행되는 도중에 다른 트랜잭션의 영향을 받아 잘못된 결과를 만들어서는 안 된다.

- 지속성(durability) : 트랜잭션이 성공적으로 수행되면 그 트랜잭션이 갱신한 데이터베이스의 내용은 영구적으로 저장된다.

 

12. COMMIT, ROLLBACK

- 테이블 내 입력한 데이터나, 수정한 데이터, 삭제한 데이터에 대하여 COMMIT 이전에는 변경사항을 취소할 수 있는데 데이터베이스에서는 롤백(ROLLBACK)기능을 사용한다.  롤백(ROLLBACK)은 데이터 변경 사항이 취소되어 데이터의 이전 상태로 복구되며, 관련된 행에 대한 잠금(LOCKING)이 풀리고 다른 사용자들이 데이터 변경을 할 수 있게 된다.

 

13. BEGIN TRANSACTION

- BEGIN TRANSACTION(BEGIN TRAN 구문도 기능)으로 트랜잭션을 시작하고 COMMIT TRANSACTION(TRANSACTION은 생략 가능) 또는 ROLLBACK TRANSACTION(TRANSACTION은 생략 가능)으로 트랜잭션을 종료한다. ROLLBACK 구문을 만나면 최초의 BEGIN TRANSACTION 시점까지 모두 ROLLBACK이 수행된다.

 

14. SAVEPOINT

-저장점(SAVEPOINT)을 정의하면 롤백(ROLLBACK)할 때 트랜잭션에 포함된 전체 작업을 롤백하는 것이 아니라 현 시점에서 SAVEPOINT까지 트랜잭션의 일부만 롤백할 수 있다.

[ORACLE]
SAVEPOINT SVPT1;
...
ROLLBACK TO SVPT1;
[SQL Server]
SAVE TRANSACTION SVTR1;
...
ROLLBACK TRANSACTION SVTR1;

 

15. WHERE

- WHERE 절은 FROM 절 다음에 위치하며, 조건식은 아래 내용으로 구성된다.

     > 칼럼(Column)명 (보통 조건식의 좌측에 위치)

     > 비교 연산자

     > 문자, 숫자, 표현식 (보통 조건식의 우측에 위치)

     > 비교 칼럼명 (JOIN 사용시)

 

16. 연산자의 우선순위

① 괄호로 묶은 연산

② 부정 연산자(NOT)

③ 비교 연산자(=, >, >=, <, <=)와 SQL 비교 연산자 (BETWEEN a AND b, IN (list), LIKE, IS NULL)

④ 논리 연산자 중 AND, OR의 순으로 처리

 

17. NULL의 연산

- NULL 값과의 연산(+, -, *, / 등)은 NULL값을 리턴

- NULL 값과의 비교연산(=, >, >=, <, <=)은 거짓(FALSE)을 리턴

- 특정 값보다 크다, 적다라고 표현할 수 없음

 

18. 연산자의 종류

구분 연산자 연산자의 의미
비교 연산자 = 같다.
> 보다 크다.
>= 보다 크거나 같다.
< 보다 작다.
<= 보다 작거나 같다.
SQL 연산자 BETWEEN a AND b a와 b의 값 사이에 있으면 된다.(a와 b 값이 포함됨)
IN (list) 리스트에 있는 값 중에서 어느 하나라도 일치하면 된다
LIKE '비교문자열' 비교문자열과 형태가 일치하면 된다.(%, _ 사용)
IS NULL NULL 값인 경우
논리 연산자 AND 앞에 있는 조건과 뒤에 오는 조건이 참(TRUE)이 되면 결과도 참(TRUE)이 된다. 즉, 앞의 조건과 뒤의 조건을 동시에 만족해야 한다.
OR 앞의 조건이 참(TRUE)이거나 뒤의 조건이 참(TRUE)이 되어야 결과도 참(TRUE)이 된다. 즉, 앞뒤의 조건 중 하나만 참(TRUE)이면 된다.
NOT 뒤에 오는 조건에 반대되는 결과를 되돌려준다.
부정 비교 연산자 != 같지 않다.
^=  같지 않다.
<> 같지 않다. (ISO 표준, 모든 운영체제에서 사용 가능)
NOT 칼럼명 =  ~와 같지 않다.
NOT 칼럼명 >   !보다 크지 않다.
부정 SQL 연산자 NOT BETWEEN a AND b a와 b의 값 사이에 있지 않다.
NOT IN (list) list 값과 일치하지 않는다.
IS NOT NULL NULL 값을 갖지 않는다.

 

19. 함수

- 함수는 벤더에서 제공하는 함수인 내장 함수(Built-in Function)와 사용자가 정의할 수 있는 함수(User Defined Function)로 나눌 수 있다. 내장 함수는 다시 단일행 함수(Single-Row Function)와 다중행 함수(Multi-Row Function)로 나눌 수 있으며, 다중행 함수는 집계 함수(Aggregate Function), 그룹 함수(Group Function), 윈도우 함수(Window Function)로 구분된다.

 

20. 단일행 문자형 함수의 종류

문자형 함수 함수 설명
LOWER (문자열) 문자열의 알파벳 문자를 소문자로 바꾸어 준다.
UPPER (문자열) 문자열의 알파벳 문자를 대문자로 바꾸어 준다.
ASCII (문자) 문자나 숫자를 ASCII 코드 번호로 바꾸어 준다.
CHR/CHAR (ASCII번호) ASCII 코드 번호를 문자나 숫자로 바꾸어 준다.
CONCAT (문자열1, 문자열2) Oracle, My SQL 에서 유효한 함수이며 문자열1가 문자열2를 연결한다. 합성 연산자 '||'(Oracle)나 '+'(SQL Server)와 동일하다.
SUBSTR/SUBSTRING (문자열, m[, n ]) 문자열 중 m위치에서 n개의 문자 길이에 해당하는 문자를 돌려준다. n이 생략되면 마지막 문자까지이다.
LENGTH/LEN (문자열) 문자열의 개수를 숫자값으로 돌려준다.
LTRIM (문자열 [, 지정문자]) 문자열의 첫 문자부터 확인해서 지정 문자가 나타나면 해당 문자를 제거한다.(지정 문자가 생략되면 공백 값이 디폴트)
SQL Server에서는 LTRIM 함수에 지정문자를 사용할 수 없다. 즉, 공백만 제거할 수 있다.
RTRIM (문자열 [, 지정문자]) 문자열의 마지막 문자부터 확인해서 지정 문자가 나타나는 동안 해당 문자를 제거한다.(지정 문자가 생략되면 공백 값이 디폴트)
SQL Server에서는 RTRIM 함수에 지정문자를 사용할 수 없다. 즉, 공백만 제거할 수 있다.
TRIM ([leading | trailing | both] 지정문자 FROM 문자열) 문자열에서 머리말, 꼬리말, 또는 양쪽에 있는 지정 문자를 제거한다. (leading | trailing | both 가 생략되면 both가 디폴트)
SQL Server에서는 TRIM 함수에 지정문자를 사용할 수 없다. 즉, 공백만 제거할 수 있다.
※ 주: Oracle 함수 / SQL Server함수 표시, '/' 없는 것은 공통 함수

 

21. 단일행 함수의 종류

종류 내용 함수의 예
문자형 함수 문자를 입력하면 문자나 숫자값을 반환한다. LOWER, UPPER, SUBSTR/SUBSTRING, LENGTH / LEN, LTRIM, RTRIM, TRIM, ASCII
숫자형 함수 숫자를 입력하면 숫자 값을 반환한다. ABS, MOD, ROUND, TRUNC, SIGN, CHR / CHAR, CEIL / CEILING, FLOOR, EXP, LOG, LN, POWER, SIN, COS, TAN
날짜형 함수 DATE 타입의 값을 연산한다. SYSDATE/GETDATE, EXTRACT/DATEPART, TO_NUMBER(TO_CHAR(d, 'YYYY'|'MM'|'DD')) / YEAR|MONTH|DAY
변환형 함수 문자, 숫자, 날짜형 값의 데이터 타입을 변환한다. TO_NUMBER, TO_CHAR, TO_DATE / CAST, CONVERT
NULL관련 함수 NULL을 처리하기 위한 함수 NVL / ISNULL, NULLIF, COALESCE

 

22. DUAL 테이블의 특성

- 사용자 SYS가 소유하며 모든 사용자가 액세스 가능한 테이블이다.

- SELECT ~ FROM ~ 의 형식을 갖추기 위한 일종의 DUMMY 테이블이다.

- DUMMY 라는 문자열 유형의 칼럼에 'X'라는 값이 들어 있는 행을 1건 포함하고 있다.

 

23. NULL의 특성

- NULL 값은 아직 정의되지 않은 값으로 0 또는 공백과 다르다. 0은 숫자이고, 공백은 하나의 문자이다.

- 테이블을 생성할 때 NOT NULL 또는 PRIMARY KEY로 정의되지 않은 모든 데이터 유형은 NULL값을 포함할 수 있다.

- NULL 값을 포함하는 연산의 경우 결과 값도 NULL값이다. 모르는 데이터에 숫자를 더하거나 빼도 결과는 마찬가지로 모르는 데이터인 것과 같다.

- 결과값을 NULL이 아닌 다른 값을 얻고자 할 때 NVL/ISNULL 함수를 사사용한다. NULL 값의 대상이 숫자 유형 데이터인 경우는 주로 0(Zero)으로 , 문자 유형 데이터인 경우는 블랭크보다는 'x'같이 해당 시스템에서 의미 없는 문자로 바꾸는 경우가 많다.

 

24. 단일행 NULL 관련 함수의 종류

일반형 함수 함수 설명
NVL(표현식1, 표현식2) /
ISNULL(표현식1, 표현식2)
표현식1의 결과값이 NULL이면 표현식2의 값을 출력한다.
단, 표현식1과 표현식2의 결과 데이터 타입이 같아야 한다.
NULL관련 가장 많이 사용되는 함수이므로 상당히 중요하다.
NULLIF(표현식1, 표현식2) 표현식1이 표현식2와 같으면 NULL을, 같지 않으면 표현식1을 리턴한다.
COALESCE(표현식1, 표현식2, ...) 임의의 개수 표현식에서 NULL이 아닌 최초의 표현식을 나타낸다. 모든 표현식이 NULL이라면 NULL을 리턴한다.
※ 주: Oracle 함수 / SQL Server함수 표시, '/' 없는 것은 공통 함수

 

25. NULL 표현 연산의 결과

- NULL + 2, 2 + NULL, NULL - 2, 2 - NULL, NULL * 2, 2 * NULL, NULL / 2, 2 / NULL 의 결과는 모두 NULL이다.

 

26. 집계 함수의 종류

집계 함수 사용 목적
COUNT (*) NULL값을 포함한 행의 수를 출력한다.
COUNT (표현식) 표현식의 값이 NULL 값인 것을 제외한 행의 수를 출력한다.
SUM ([DISTINCT |  ALL] 표현식) 표현식의 NULL 값을 제외한 합계를 출력한다.
AVG ([DISTINCT |  ALL] 표현식) 표현식의 NULL 값을 제외한 평균를 출력한다.
MAX ([DISTINCT |  ALL] 표현식) 표현식의 최대값을 출력한다.
(문자, 날짜 데이터 타입도 사용가능)
MIN ([DISTINCT |  ALL] 표현식) 표현식의 최소값을 출력한다.
(문자, 날짜 데이터 타입도 사용가능)
STDDEV ([DISTINCT |  ALL] 표현식) 표현식의 표준 편차를 출력한다.
VARIAN ([DISTINCT |  ALL] 표현식) 표현식의 분산을 출력한다.
기타 통계 함수 벤더별로 다양한 통계식을 제공한다.

 

27. GROUP BY 문장

SELECT [DISTINCT] 칼럼명 [ALIAS명]
FROM 테이블명
[WHERE 조건식]
[GROUP BY 칼럼(Column)이나 표현식]
[HAVING 그룹조건식] ;

 

28. GROUP BY 절과 HAVING 절의 특성

- GROUP BY 절을 통해 소그룹별 기준을 정한 후, SELECT 절에 집계 함수를 사용한다.

- 집계 함수의 통계 정보는 NULL 값을 가진 행을 제외하고 수행한다.

- GROUP BY 절에서는 SELECT 절과 달리 ALIAS 명을 사용할 수 없다

- 집계함수는 WHERE 절에는 올 수 없다.(집계 함수를 사용할 수 있는 GROUP BY 절보다 WHERE 절이 먼저 수행된다)

- WHERE 절은 전체 데이터를 GROUP으로 나누기 전에 행들을 미리 제거시킨다.

- HAVING 절은 GROUP BY 절의 기준 항목이나 소그룹의 집계 함수를 이용한 조건을 표시할 수 있다.

- GROUP BY 절에 의한 소그룹별로 만들어진 집계 데이터 중, HAVING 절에서 제한 조건을 두어 조건을 만족하는 내용만 출력한다.

- HAVING 절은 일반적으로 GROUP BY 절 뒤에 위치한다.

 

29. ORDER BY 문장

SELECT 칼럼명 [ALIAS명]
FROM 테이블명
[WHERE 조건식]
[GROUP BY 칼럼(Column)이나 표현식]
[HAVING 그룹조건식]
[ORDER BY 칼럼(Column)이나 표현식 [ASC 또는 DESC]] ;

- ASC (Ascending) : 조회한 데이터를 오름차순으로 정렬한다. (기본 값이므로 생략 가능)

- DESC (Descending) : 조회한 데이터를 내림차순으로 정렬한다.

 

30. ORDER BY 절 특징

- 기본적인 정렬 순서는 오름차순(ASC)이다.

- 숫자형 데이터 타입은 오름차순으로 정렬했을 경우에 가장 작은 값 부터 출력된다.

- 날짜형 데이터 타입은 오름차순으로 정렬했을 경우 날짜 값이 가장 빠른 값이 먼저 출력된다. 예를 들어 '01-JAN-2012'는 '01-SEP-2012'보다 먼저 출력된다.

- Oracle에서는 NULL 값을 가장 큰 값으로 간주하여 오름차순으로 정렬했을 경우에는 가장 마지막에, 내림차순으로 정렬했을 경우에는 가장 먼저 위치한다.

- 반면, SQL Server에서는 NULL 값을 가장 작은 값으로 간주하여 오름차순으로 정렬했을 경우에는 가장 먼저, 내림차순으로 정렬했을 경우에는 가장 마지막에 위치한다.

 

31. SELECT 문장 실행 순서

① 발췌 대상 테이블을 참조한다. (FROM)

② 발췌 대상 데이터가 아닌 것은 제거한다. (WHERE)

③ 행들을 소그룹화 한다. (GROUP BY)

④ 그룹핑된 값의 조건에 맞는 것만을 출력한다. (HAVING)

⑤ 데이터 값을 출력/계산한다. (SELECT)

⑥ 데이터를 정렬한다. (ORDER BY)

 

32. TOP () WITH TIES

- 사원 테이블에서 급여가 높은 2명을 내림차순으로 출력하는데 같은 급여를 받는 사원이 있으면 같이 출력한다.

SELECT TOP(2) WITH TIES ENAME, SAL
FROM EMP
ORDER BY SAL DESC;

 

33. EQUI JOIN 문장

SELECT 테이블1.칼럼명, 테이블2.칼럼명, ...
FROM 테이블1, 테이블2
WHERE 테이블1.칼럼명1 = 테이블2.칼럼명2;
→ WHERE 절에 JOIN 조건을 넣는다.

 

34. ANSI/ISO SQL 표준 EQUI JOIN 문장

SELECT 테이블1.칼럼명, 테이블2.칼럼명, ...
FROM 테이블1 INNER JOIN 테이블2
ON 테이블1.칼럼명1 = 테이블2.칼럼명2;
→ ON 절에 JOIN 조건을 넣는다.

 

35. JOIN

- 두개 이상의 테이블 들을 연결 또는 결합하여 데이터를 출력하는 것을 JOIN이라고 하며, 일반적인 경우 행들은 PRIMARY KEY(PK)나 FOREIGN KEY(FK) 값의 연관에 의해 JOIN이 성립된다. 하지만 어떤 경우에는 이러한 PK, FK의 관계가 없어도 논리적인 값들의 연관만으로 JOIN이 성립 가능하다.

728x90
반응형

'Certificate > SQLD' 카테고리의 다른 글

[SQLD] 기출문제 오답정리 2  (3) 2023.11.15
[SQLD] 기출문제 오답정리  (2) 2023.11.12
[SQLD] 2과목 2장 핵심정리 모아놓기  (1) 2023.11.12
[SQLD] 단답형 정리  (0) 2023.11.05
[SQLD] 1과목 핵심정리 모아놓기  (0) 2023.11.05
728x90
반응형

1. 업무에서 필요로 하는 인스턴스에서 관리하고자 하는 의미상 더 이상 분리되지 않는 최소의 데이터 단위를 무엇이라 하는가?

정답
속성(Attribute)
 

2. 아래 설명을 읽고 다음 에 들어갈 단어를 작성하시오.

첫번째, 데이터 모델링을 할 때 정규화를 정확하게 수행한다.
두번째, 데이터베이스 용량산정을 수행한다.
세번째, 데이터베이스에 발생되는 트랜잭션의 유형을 파악한다.
네번째, 용량과 트랜잭션의 유형에 따라 <         ㉠         >를 수행한다.
다섯번째, 이력모델의 조정, PK/FK조정, 슈퍼타입/서브타입 조정 등을 수행한다.
정답
반정규화(역정규화)
 

3. 아래 설명에서 데이터 액세스 성능을 향상시키기 위해 적용하는 방법에 대해서 을 채우시오.

하나의 테이블에 많은 양의 데이터가 저장되면 인덱스를 추가하고 데이블을 몇 개로 쪼개도 성능이 저하되는 겅우가 있다. 이때 논리적으로는 하나이 테이블이지만 물리적으로는 여러 개의 테이블로 분리하여 데이터 액세스 성능도 향상시키고, 데이터 관리방법도 개선할 수 있도록 테이블에 적용하는 기법을 <         ㉠         >이라고 한다.
정답
파티셔닝 기법(Partitioning)
 

4. 아래 내용에 해당하는 SQL 명령어의 종류를 작성하시오.

논리적인 작업의 단위를 묶어 DML에 의해 조작된 결과를 작업단위(Transaction)별로 제어하는 명령어인 Commit, Rollback, Savepoint 등이 여기에 해당하며, 일부에서는 DCL(Data Control Language)로 분류하기도 한다.
정답
TCL
 

5. 4개의 칼럼으로 이루어진 EMP 테이블에서 COMN 칼럼을 삭제하고자 할 때, 아래 SQL 문장의 ㉠, ㉡ 안에 들어갈 내용을 기술하시오.

<         ㉠         > TABLE EMP
<         ㉡         > COMN;
정답
㉠ : ALTER
㉡ : DROP COLUMN
 

6. STADIUM 테이블의 이름을 STADIUM_JSC로 변경하는 SQL을 작성하시오.(ANSI 표준 기준)

정답
RENAME STADIUM TO STADIUM_JSC
 

7. 아래의 고객지역 테이블을 대상으로 질의 결과와 같이 거주지와 근무지를 출력하고자 한다. 아래 SQL의 ㉠ 안에 들어갈 내용을 작성하시오.


[SQL]

SELECT <         ㉠         > 거주지, 근무지
FROM 고객지역;
정답
DISTINCT
 

8. 아래 내용의 ㉠, ㉡, ㉢에 해당하는 단어를 순서대로 작성하시오.

<         ㉠         >은 데이터베이스의 논리적 연산단위로서 밀접히 관련되어 분리될 수 없는 한 개 이상의 데이터베이스 조작을 가리킨다.<         ㉠         >의 종료를 위한 대표적 명령어로서는 데이터에 대한 변경사항을 데이터베이스에 영구적으로 반영하는 <         ㉡         >과 데이터에 대한 변경사항을 모두 폐기하고 변경전의 상태로 되돌리는 <                >이 있다.
정답
㉠ : 트랜잭션 또는 Transaction
㉡ : 커밋 또는 Commit
㉢ : 롤백 또는 Rollback
 

9. 아래의 상품 테이블의 데이터에 대하여 관리자가 아래와 같이 SQL문장을 실행하여 데이터를 변경하였다. 데이터 변경 후의 상품ID '001'의 최종 상품명을 작성하시오.

[테이블 : 상품]

상품ID 상품명
001 TV

[SQL]

BEGIN TRANSACTION;
SAVE TRANSACTION SP1;
UPDATE 상품 SET 상품명 = 'LCD-TV' WHERE 상품ID = '001';
SAVE TRANSACTION SP2;
UPDATE 상품 SET 상품명 = '평면-TV' WHERE 상품ID = '001';
ROLLBACK TRANSACTION SP2;
COMMIT; 
정답
LCD-TV
 

10. 아래의 에 들어갈 내용을 적으시오.

SQL을 사용하여 데이터베이스에서 데이터를 조회할 때 원하는 데이터만을 검색하기 위해서 SELECT, FROM 절과 함께 <         ㉠         >을(를) 이용하여 조회되는 데이터의 조건을 설정하여 데이터를 제한할 수 있다.
정답
WHERE 또는 WHERE 절
 

11. 아래는 SEARCHED_CASE_EXPRESSION SQL문장이다. 이때 사용된 SEARCHED_CASE_EXPRESSION은 SIMPLE_CASE_EXPRESSION을 이용해 똑같은 기능을 표현할 수 있다. 아래 SQL 문장의 안에 들어갈 표현을 작성시오. (스칼라 서브쿼리는 제외함)

[SEARCHED_CASE_EXPRESSION 문장 사례]
SELECT LOC,
       CASE WHEN LOC = 'NEW YORK' THEN 'EAST'
          ELSE 'ETC'
       END as AREA
FROM DEPT;

[SIMPLE_CASE_EXPRESSION 문장 사례]
SELECT LOC,
       CASE <         ㉠         >
          ELSE 'ETC'
       END as AREA
FROM DEPT;
정답
LOC WHEN 'NEW YORK' THEN 'EAST'
 

12. 사원 테이블에서 MGR의 값이 7698과 같으면 NULL을 표시하고, 같지 않으면 MGR을 표시 하려고 한다. 아래 SQL 문장의 안에 들어갈 함수명을 작성하시오.

SELECT ENAME, EMPNO, MGR, <         ㉠         > (MGR,7698) as NM
FROM EMP;
정답
NULLIF
 

13. 아래 각 함수에 대한 설명 중 ㉠, ㉡, ㉢에 들어갈 함수를 차례대로 작성하시오.

<         ㉠         > (표현식1, 표현식2) : 표현식1의 결과값이 NULL이면 표현식2의 값을 출력한다.
<         ㉡         > (표현식1, 표현식2) : 표현식1이 표현식2와 같으면 NULL을, 같지 않으면 표현식1을 리턴한다.
<         ㉢         > (표현식1, 표현식2) : 임의의 개수 표현식에서 NULL이 아닌 최초의 표현식을 나타낸다.
정답
㉠ : NVL / ISNULL
㉡ : NULLIF
㉢ : COALESCE
 

14. 아래의 사례1은 Cartesian Product를 만들기 위한 SQL 문장이며 사례1과 같은 결과를 얻기 위해 사례2 SQL 문장의 ㉠ 안에 들어갈 내용을 작성하시오.

[사례1]
SELECT ENAME, DNAME
FROM EMP, DEPT
ORDER BY ENAME;

[사례2] SELECT ENAME, DNAME
FROM EMP  <         ㉠         > DEPT
ORDER BY NAME;
정답
㉠ : CROSS JOIN
 

15. 다음과 같은 2개의 릴레이션이 있다고 가정하자. student의 기본키는 st_num이고, department의 기본키는 dept_num이다. 또한 student의 d_num은 department의 dept_num을 참조하는 외래키이다. 아래 SQL문의 실행 결과 건수는?

SELECT count(st_num)
FROM student s
WHERE not exists
            (SELECT *
               FROM department d
               WHERE s.d_num = d.dept_num
                   and dept-name = '전자계산학과');

정답
5
 

16. 아래와 같은 데이터 상황에서 아래의 SQL을 수행할 경우 정렬 순서상 2번째 표시될 값을 적으시오.


SELECT C3
FROM TAB1
START WITH C2 IS NULL
CONNECT BY PRIOR C1 = C2
ORDER SIBLINGS BY C3 DESC


정답
C
 

17. 아래 결과를 얻기 위한 SQL문에서 에 들어갈 함수를 작성하시오.

구매고객 구매월 총 구매건 총 구매액
AAA 201001 1 1000
AAA 201002 2 3000
AAA 201003 1 1000
AAA   4 5000
BBB 201001 3 2000
BBB 201002 5 3000
BBB 201003 1 2000
BBB   9 7000
CCC 201101 1 2000
CCC 201102 1 5000
CCC 201103 1 1000
CCC   3 8000
    16 20000

[SQL 문]
SELECT 구매고객, 구매월, COUNT(*) "총 구매건", SUM "총 구매액" FROM 구매이력
GROUP BY  <         ㉠         >  (구매고객, 구매월)
 정답
ROLLUP
 

18. 아래 설명 중 ㉠, ㉡에 해당하는 내용을 작성하시오.

DBMS에 생성된 USER와 다양한 권한들 사이에서 중개 역할을 할 수 있도록 DBMS에서는 ROLE을 제공한다. 이러한 ROLE을 DBMS에게 부여하기 위해서는 <         ㉠         > 명령을 사용하며ROLE을 회수하기 위해서는 <         ㉡         > 명령을 사용한다.
정답

㉠ : GRANT

㉡ : REVOKE

 

18. 아래의 ㉠에 들어갈 내용을 쓰시오.

DBMS 사용자를 생성하면 기본적으로 많은 권한을 부여해야 한다. 많은 DBMS에서는 DBMS 관리자가 사용자별로 권한을 관리해야 하는 부담과 복잡함을 줄이기 위하여 다양한 권한을 그룹으로 묶어 관리할 수 있도록 사용자와 권한 사이에서 중개 역할을 수행하는<         ㉠         >을 제공한다.
정답

ROLE

728x90
반응형
728x90
반응형

1. 발생시점에 따른 엔터티 분류

- 기본/키엔터티 (Fundamental Entity, Key Entity)

- 중심엔터티 (Main Entity)

- 행위엔터티(Active Entity)

 

2. 데이터모델링이란

- 정보시스템을 구축하기 위한 데이터 관점의 업무 분석 기법

- 현실세계의 데이터에 대해 약속된 표기법에 의해 표현하는 과정

- 데이터베이스를 구축하기 위한 분석/설계의 과정

 

3. 데이터 모델링의 유의점

- 중복(Duplication)

- 비유연성(Inflexibility)

- 비일관성(Inconsistency)

 

4. 데이터 모델링 개념

- 개념적 데이터 모델링 : 추상화 수준이 높고 업무중심적이고 포괄적인 수준의 모델링 진행. 전사적 데이터 모델링, EA수립 시 많이 사용.

- 논리적 데이터 모델링 : 시스템으로 구축하고자 하는 업무에 대해 Key, 속성, 관계 등을 정확하게 표현, 재사용성이 높음.

- 물리적 데이터 모델링 : 실제로 데이터베이스에 이식할 수 있도록 성능, 저장 등 물리적인 성격을 고려하여 설계

 

5. 데이터베이스 스키마 구조 3단계

- 외부스키마(External Schema)

- 개념스키마(Conceptual Schema)

- 내부스키마(Internal Schema)

 

6. ERD 작성 순서

① 엔터티를 그린다

② 엔터티를 적절하게 배치한다.

③ 엔터티 간 관계를 설정한다.

④ 관계명을 기술한다.

⑤ 관계의 참여도를 기술한다.

⑥ 관계의 필수여부를 기술한다.

 

7. 엔터티의 특징

- 반드시 해당 업무에서 필요하고 관리하고자 하는 정보이어야 한다. (EX. 환자, 토익의 응시횟수, ...)

- 유일한 식별자에 의해 식별이 가능해야 한다.

- 영속적으로 존재하는 인스턴스의 집합이어야 한다. ('한 개'가 아니라 '두 개 이상')

- 엔터티는 업무 프로세스에 의해 이용되어야 한다.

- 엔터티는 반드시 속성이 있어야 한다,

- 엔터티는 다른 엔터티와 최소 한 개 이상의 관계가 있어야 한다.

 

8. 엔터티, 인스턴스, 속성, 속성값의 관계

- 한 개의 엔터티는 두 개 이상의 인스턴스의 집합이어야 한다.

- 한 개의 엔터티는 두 개 이상의 속성을 갖는다.

- 한 개의 속성은 한 개의 속성 값을 갖는다.

 

9. 속성의 특성에 따른 분류

- 기본속성

- 설계속성

- 파생속성

 

10. 도메인

- 각 속성은 가질 수 있는 값의 범위가 있는데 이를 그 속성의 도메인(Domain)이라 하며, 엔터티 내에서 속성에 대한 데이터타입과 크기 그리고 제약사항을 지정하는 것이다.

 

11. 속성의 명칭 부여

- 해당업무에서 사용하는 이름을 부여한다.

- 서술식 속성명은 사용하지 않는다.

- 약어사용은 가급적 제한한다.

- 전체 데이터모델에서 유일성을 확보하는 것이 좋다.

 

12. 관계

- ERD에서는 존재적 관계와 행위에 의한 관계를 구분하지 않지만 클래스다이어그램에서는 이것을 구분하여 연관관계와 의존관계로 표현한다.

 

13. 관계의 표기법

- 관계명(Membership) : 관계의 이름

- 관계차수(Cardinality) : 1:1, 1:M, M:N

- 관계선택사양(Optionality) : 필수관계, 선택관계

 

14. 관계 읽기

- 기준(Source) 엔터티를 한 개(One) 또는 각(Each)으로 읽는다.

- 대상(Target) 엔터티의 관계참여도 즉 개수(하나, 하나 이상)를 읽는다.

- 관계선택사양과 관계명을 읽는다.

 

15. 식별자의 종류

- 엔터티 내에서 대표성을 가지는가에 따라 주 식별자(Primary Identifier)와 보조 식별자(Alternate Identifier)로 구분

- 엔터티 내에서 스스로 생성되었는지 여부에 따라 내부식별자와 외부식별자(Foreign Identifier)로 구분

- 단일 속성으로 식별이 되는가에 따라 단일식별자(Single Identifier)와 복합식별자(Composit Identifier)로 구분

- 원래 업무적으로 의미가 있던 식별자 속성을 대체하여 일련번호와 같이 새롭게 만든 식별자를 구분하기 위해 본질식별자와 인조식별자로 구분

 

16. 주식별자의 특징

- 유일성 : 주식별자에 의해 엔터티 내에 모든 인스턴스들을 유일하게 구분함

- 최소성 : 주식별자를 구성하는 속성의 수는 유일성을 만족하는 최소의 수가 되어야 함

- 불변성 : 주식별자가 한 번 특정 엔터티에 지정되면 그 식별자의 값은 변하지 않아야 함

- 존재성 : 주식별자가 지정되면 반드시 데이터 값이 존재 (Null 안됨)

 

17. 식별자와 비식별자관계 비교

항목 식별자관계 비식별자관계
목적 강한 연결관계 표현 약한 연결관계 표현
자식 주식별자 영향  자식 주식별자의 구성에 포함됨 자식 일반 속성에 포함됨
표기법 실선 표현  점선 표현
연결 고려사항 - 반드시 부모엔터티 종속
- 자식 주식별자구성에 부모 주식별자 포함 필요
- 상속받은 주식별자속성을 타 엔터티에 이전 필요
- 약한 종속관계
- 자식 주식별자구성을 독립적으로 구성
- 자식 주식별자구성에 부모 주식별자 부분 필요
-상속받은 주식별자속성을 타 엔터티에 차단 필요
- 부모쪽의 관계참여가 선택관계

 

18. 식별자의 분류 체계

분류 식별자 설명
대표성 여부 주식별자 엔터티 내에서 각 어커런스를 구분할 수 있는 구분자이며, 타 엔터티와 참조관계를 연결할 수 있는 식별자
보조식별자 엔터티 내에서 각 어커런스를 구분할 수 있는 구분자이나 대표성을 가지지 못해 참조관계 연결을 못함
스스로 생성여부 내부식별자 엔터티 내부에서 스스로 만들어지는 식별자
외부식별자 타 엔터티와의 관계를 통해 타 엔터티로부터 받아오는 식별자
속성의 수 단일식별자 하나의 속성으로 구성된 식별자
복합식별자 둘 이상의 속성으로 구성된 식별자
대체 여부 본질식별자 업부에 의해 만들어지는 식별자
인조식별자 업무적으로 만들어지지는 않지만 원조식별자가 복잡한 구성을 가지고 있기 때문에 인위적으로 만든 식별자

 

19. 성능 데이터모델이란?

- 데이터베이스 성능 향상을 목적으로 설계단계의 데이터 모델링 때부터 성능과 관련된 사항이 데이터 모델링에 반영될 수 있도록 하는 것이다.

 

20. 1차 정규화

- 중복속성에 대한 분리가 1차 정규화의 대상이 되며, 로우단위의 중복도 1차 정규화의 대상이 되지만 칼럼 단위로 중복이 되는 경우도 1차 정규화의 대상이다.

 

21. 반정규화

- 반정규화는 정규화된 엔터티, 속성, 관계에 대해 시스템의 성능향상과 개발(Development)과 운영(Maintenance)의 단순화를 위해 중복, 통합, 분리 등을 수행하는 데이터 모델링의 기법을 의미한다. 반정규화는 데이터를 중복하여 성능을 향상하기 위한 기법이라고 정의할 수 있고 좀 더 넓은 의미의 반정규화는 성능을 향상시키기 위해 정규화된 데이터 모델에서 중복, 통합, 분리 등을 수행하는 모든 과정을 의미한다. 데이터 무결성이 깨질 수 있는 위험을 무릅쓰고 데이터를 중복하여 반정규화를 적용하는 이유는 데이터를 조회할 때 디스크 I/O량이 많아서 성능이 저하되거나 경로가 너무 멀어 조인으로 인한 성능저하가 예상되거나 칼럼을 계산하여 읽을 때 성능이 저하될 것이 예상되는 경우 반정규화를 수행하게 된다.

 

22. 테이블의 반정규화

기법분류 반정규화 기법
테이블 병합 1 : 1 관계 테이블 병합
1 : M 관계 테이블 병합
슈퍼/서브타입 테이블 병합
테이블 분할 수직분할
수평분할
테이블 추가 중복테이블 추가
통계테이블 추가
이력테이블 추가
부분테이블 추가

 

23. 칼럼의 반정규화

반정규화 기법
중복칼럼 추가
파생칼럼 추가
이력테이블 칼럼추가
PK에 의한 칼럼 추가 
응용시스템 오작동을 위한 칼럼 추가

 

24. 반정규화 절차

- 반정규화 대상조사

     > 범위처리빈도수 조사

     > 대량의 범위 처리 조사

     > 통계성 프로세스 조사

     > 테이블 조인 개수

- 다른 방벙유도 검토

     > 뷰(View) 테이블

     > 클러스터링 적용

     > 인덱스의 조정

     > 응용애플리케이션

- 반정규화 적용

     > 테이블의 반정규화

     > 속성의 반정규화

     > 관계의 반정규화

 

25. 반정규화의 대상에 대해 다른 방법으로 처리

- 지나치게 많은 조인(JOIN)이 걸려 데이터를 조회하는 작업이 기술적으로 어려울 경우 뷰(View)를 사용하면 이를 해결할 수도 있다.

- 대량의 데이터 처리나 부분처리에 의해 성능이 저하되는 경우에 클러스터링을 적용하거나 인덱스를 조정함으로써 성능을 향상시킬 수 있다.

- 대량의 데이터는 Primary Key의 성격에 따라 부분적인 테이블로 분리할 수 있다. 즉 파티셔닝 기법(Partitioning)이 적용되어 성능저하를 방지할 수 있다. 

- 응용 애플리케이션에서 로직을 구사하는 방법을 변경함으로써 성능을 향상시킬 수 있다.

 

26. 슈퍼/서브 타입 데이터 모델의 변환기술 

- 개별로 발생되는 트랜잭션에 대해서는 개별 테이블로 구성

- 슈퍼타입 + 서브타입에 대해 발생되는 트랜잭션에 대해서는 슈퍼타입 + 서브타입 테이블로 구성

- 전체를 하나로 묶어 트랜잭션이 발생할 때는 하나의 테이블로 구성

 

27. PK순서 결정

- PK순서를 결정하는 기준은 인덱스 정렬구조를 이해한 상태에서 인덱스를 효율적으로 이용할 수 있도록 PK순서를 지정해야 한다. 즉 인덱스의 특징은 여러 개의 속성이 하나의 인덱스로 구성되어 있을 때 앞쪽에 위치한 속성의 값이 비교자로 있어야 인덱스가 좋은 효율을 나타낼 수 있다. 앞쪽에 위치한 속성 값이 가급적 '=' 아니면 최소한 범위 'BETWEEN', '< >'가 들어와야 인덱스를 이용할 수 있는 것이다.

 

28. 분산 데이터베이스 장점

- 지역 자치성, 점증적 시스템 용량 확장

- 신뢰성과 가용성

- 효용성과 융통성

- 빠른 응답 속도와 통신비용 절감

- 데이터의 가용성과 신뢰성 증가

- 시스템 규모의 적절한 조절

- 각 지역 사용자의 요구 수용 증대

 

29. 분산 데이터베이스 단점

- 소프트웨어 개발 비용

- 오류의 잠재성 증대

- 처리 비용의 증대

- 설계, 관리의 복잡성과 비용

- 불규칙한 응답 속도

- 통제의 어려움

- 데이터 무결성에 대한 위협

728x90
반응형
728x90
반응형

데이터 분석 기법의 이해

1. 데이터 처리 과정

      # 데이터 분석을 위해서는 데이터 웨어하우스(DW)나 데이터 마트(DM)을 통해 분석 데이터를 구성

      # 신규데이터나 DW에 없는 데이터는 기존 운영시스템(Legacy)에서 직접 가져오거나 운영데이터저장소(ODS)에서 정제된 데이터를 가져와서 DW의 데이터에 결합하여 사용

2. 시각화 기법

      # 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다 더 효율적이며 대용량 데이터를 다룰 때와 탐색적 분석을 할 때 시각화는 필수

3. 공간분석

      # 공간적 차원과 관련된 속성들을 시각화하는 분석으로 지도 뒤에 관련된 속성들을 생성하고 크기모양, 선 굵기 등을 구분하여 인사이트를 얻음

3. 탐색적 자료분석(EDA)

      # 다양한 차원과 값을 조합해 가며 특이점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해 가는 과정

      # EDA의 4가지 주제: 저항성 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성

4. 통계분석

      # 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자와 표, 그림의 형태로 나타내는 것

5. 데이터 마이닝

      # 대용량의 자료로부터 정보를 요약하고 미래에 대한 예측을 목표로 자료에 존재하는 관계, 패턴, 규칙 등을 탐색하고 이를 모형화함으로써 이전에 알지 못한 유용한 지식을 추출하는 분석 방법

      # 방법론: 기계학습(인공신경망, 의사결정나무, 클러스터링, SVM), 패턴인식(연관규칙, 장바구니분석) 등

 

R소개

1. R의 탄생

      # R은 오픈 소스 프로그램으로 통계/데이터 마이닝과 그래프를 위한 언어이다.

      # 다양한 최신 통계분석과 마이닝 기능을 제공하며, 5000개에 이르는 패키지가 수시로 업데이트 된다.

2. 변수 다루기

      # R에서는 변수명만 선언한 값을 할당하면 자료형태를 스스로 인식하고 선언함

      # 화면에 프린트하고자 할 때, print()를 사용해도 되지만 변숫값만 표현해도 내용을 출력함

      # 변수에 값을 할당할 때는 대입연산자(<-, <<-, =, ->, ->>)를 사용할 수 있으나 <-를 추천함

      # 메모리에 불필요한 변수가 있는지 확인하기 위해서는 Is()를 활용하고 삭제는 rm()을 활용함

3. 기본적인 통계량 계산

      # 평균: mean()

      # 표준편차: sd()

      # 공분산: cov()

      # 중앙값: median()

      # 분산: var()

      # 상관계수: cor()

4. 외부 파일 입력과 출력

      # 고정자리 변수 파일: read.fwf("파일명", width=c(w1, w2,...))

      # 구분자 변수 파일: read.table("파일명", sep="구분자")

      # csv 파일 읽기: read.csv("파일명", header=T) ***1행이 변수인 경우: header=T

      # csv 파일 출력: write.csv(데이터 프레임, "파일명")

 

데이터 구조와 데이터 프레임

1. 데이터 구조의 정의

특징 벡터 리스트 데이터프레임
원소자료형 동질적 이질적 이질적
원소를 위치로 인덱싱 가능 가능 가능
인덱싱으로 여러 개 원소로 구성된 하위 데이터 생성 가능 가능 가능
원소들에 이름 부여 가능 가능 가능

2. 문자열 다루기

문자열 길이 nchar("문자열")
벡터의 길이 length(vec)
문자열 연결하기 paste("단어", "문장", scalar)
하위 문자열 추출하기 substr("문자열", 시작번호, 끝번호)
구분자로 문자열 추출하기 strsplit("문자열", 구분자)
문자열 대체하기 sub("대상문자열", "변경문자열", s)
gsub("대상문자열", "변경문자열", s)

3. 날짜 다루기

      # 문자열 → 날짜 : as.Date("2014-12-25")

                                    as.Date("12/25/2014", format="%m/%d/%y")

      # 날짜 → 문자열 : format(Sys.Date(), format = "%m/%d/%Y")

      # format 인자값

R 표현 표시 형태 R 표현 표시 형태
%b 축약된 월 이름("Jan") %B 전체 월 이름("January")
%d 두 자리 숫자로 된 일("31") %m 두 자리 숫자로 된 월("12")
%y 두 자리 숫자로 된 년("14") %Y 네 자리 숫자로 된 년("2014")

데이터 변경 및 요약

1. 데이터 마트

-데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있음

2. 요약변수와 파생변수

  요약변수 파생변수
정의 -수집된 정보를 분석에 맞게 종합한 변수로 데이터 마트에서 가장 기본적인 변수
-많은 모델이 공통으로 사용할 수 있어 재활용성 높음
-사용자(분석가)가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
-매우 주관적일 수 있으므로 논리적 타당성을 갖출 필요가 있음
예시 기간별 구매 금액, 횟수, 여부 / 위클리 쇼퍼 / 상품별 구매 금액, 횟수, 여부 / 상품별 구매 순서 / 유통 채널별 구매 금액 / 단어 빈도 / 초기 행동변수 / 트랜드 변수 / 결측값과 이상값 처리 / 연속형 변수의 구간화 근무시간 구매지수 / 주 구매 매장 변수 / 주 활동 지역변수 / 주 구매 상품 변수 / 구매상품 다양성 변수 / 선호하는 가격대 변수 /시즌 선호 고객 변수 / 라이프 스테이지 변수 / 라이프스타일 변수 / 휴면가망 변수 / 최대가치 변수 / 최적 통화시간 등

 

3. reshape 패키지

-2개의 핵심적인 함수로 구성

      # melt(): 쉬운 casting을 위해 데이터를 적당한 형태로 만들어주는 함수

      # cast(): 데이터를 원하는 형태로 계산 또는 변형시켜 주는 함수

-변수를 조합해 변수명을 만들고 변수들을 시간, 상품의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있게 해주는 패키지임

4. sqldf 패키지

-R에서 sql 명령어를 사용 가능하게 해주는 패키지로 SAS의 proc sql과 같은 기능

-head([df]) → sqldf("select * from [df] limit 6")

-subset([df], [col] %in% c("BF", "HF")) → sqldf("select * from [df] where [col] in('BF', 'HF')")

-merge([df1],[df2]) → sqldf("select * from [df1], [df2]")

5. plyr 패키지

-apply 함수를 기반으로 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지

-split-apply-combine 방식으로 데이터를 분리하고 처리한 다음, 당시 결합하는 등 필수적인 데이터 처리 기능 제공

6. data.table

-R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나로 대용량 데이터의 탐색, 연산, 병합에 유용

-기존 data.frame 방식보다 월등히 빠른 속도

-특정 column을 key 값으로 색인을 지정한 후 데이터 처리

-빠른 grouping과 ordering, 짧은 문장 지원 측면에서 데이터프레임 보다 유용함

 

데이터 가공

1. 변수의 구간화

-신용평가모형, 고객 세분화 등의 시스템으로 모형을 제공하기 위해서 각 변수들을 구간화하여 점수를 적용하는 방식 활용

-변수의 구간화를 위한 rule이 존재함 (※ 10진수 단위로 구간화하고, 구간을 5개로 나누는 것이 보통이며, 7개 이상의 구간을 잘 만들지 않음)

2. 변수 구간화의 방법

-Binning: 연속형 변수를 범주형 변수로 변환하기 위해 50개 이하의 구간에 동일한 수 의 데이터를 할당하여 의미를 파악하면서 구간을 축소하는 방법

-의사결정나무: 모형을 통해 연속형 범수를 범주형 변수로 변환하는 방법

 

기초 분석 및 데이터 관리

1. 결측값 처리

-변수에 데이터가 비어 있는 경우

      # NA, ., 99999999, Unknown, Not Answer 등으로 표현

-단순 대치법(Single Imputation)

      # Complets Analysis: 결측값의 레코드를 삭제

      # 평균대치법: 관측 및 실험을 통해 얻어진 데이터의 평균으로 대치

               ▶ 비조건부 평균 대치법: 관측 데이터의 평균으로 대치 

               ▶ 조건부 평균 대치법: 회귀분석을 통해 데이터를 대치

      # 단순 확률 대치법: 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보안한 방법으로 Hot-Deck 방법, Nearest Neighbor 방법이 있음

-다중 대치법(Multiple Imputation)

      # 단순 대치법을 m번 실시하여, m개의 가상적 자료를 만들어 대치하는 방법

2. R의 결측값 처리 관련 함수

-complete.cases(): 데이터 내 레코드에 결측값이 있으면 FALSE, 없으면 TRUE 반환

-is.na(): 결측값이 NA인지의 여부를 TRUE/FALSE로 반환

-DMwR 패키지

      # centralInputation(): NA 값을 가운데 값(Central Value)으로 대치 (숫자-중위수, Factor-최빈)

      # knnImputation(): NA 값을 k최근 이웃 분류 알고리즘을 사용하여 대치 (k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 사용)

-Amelia 패키지

      # amelia(): time-series-cross-sectional data set(여러 국가에서 매년 측정된 자료)에서 활용

3. 이상값 처리

-이상값

      # 의도하지 않은 현상으로 입력된 값 or 의도된 극단값 → 활용할 수 있음

      # 잘못 입력된 값 or 의도하지 않은 현상으로 입력된 값이지만 분석 목적에 부합되지 않는 값 → Bad Data이므로 제거

-이상값의 인식

      # ESD(Extreme Studentized Deviation): 평균으로부터 3 표준편차 떨어진 값

      # 기하평균 - 2.5 * 표준편차 < data < 기하평균 + 2.5 * 표준편차

      # Q1 - 1.5 *IQR < data < Q3 + 1.5 * IQR을 벗어나는 데이터 (IQR = Q3 - Q1)

-이상값의 처리

      # 절단(Trimming): 이상값이 포함된 레코드를 삭제

      # 조정(Winsorizing): 이상값을 상한 또는 하한값으로 조정

 

통계분석의 이해

1. 통계

통계 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현
통계자료의 획득 방법  총 조사(Census)와 표본조사(Sampling)
표본 추출 방법 단순랜덤추출(Simple Random Sampling), 계통추출법(Systematic Sampling),
집락추출법(Cluster Sampling), 층화추출법(Stratified Random Sampling)
자료의 측정 방법 명목척도, 순서척도, 구간척도, 비율척도

2. 통계분석

기술통계(Descriptive statistic) 평균, 표준편차, 중위수, 최빈값, 그래프
통계적 추론(Statistical inference) 모수추정, 가설검정, 예측

3. 확률 및 확률 분포

확률변수(Random Variable) 특정 값이 나타날 가능성이 확률적으로 주어지는 변수
이산형 확률분포(Discrete Distribution) 베르누이분포, 이항분포, 기하분포, 다항분포, 포아송분포
연속형 확률분포(Continuous Distribution) 균일분포, 정규분포, 지수분포, t분포, f분포, x^2분포

4. 추정 및 가설검정

추정 표본으로부터 미지의 모수를 추측하는 것
점추정
(Point Estimation)
'모수가 특정한 값일 것'이라고 추정하는 것
평균, 표준편차, 중앙값 등을 추정
점추정 조건: 불편성(Unbiasedness), 효율성(Efficiency), 일치성(Consistency), 충족성(Sufficient)
구간추정
(Interval Estimation)
점추정을 보완하기 위해 모수가 특정 구간에 있을 것이라고 추정하는 것. 모분산을 알거나 대표본의 경우 표준정규분포 활용, 모분산을 모르거나 소표본의 경우 t분포 활용

-가설검정: 모집단에 대한 가설을 설정한 뒤, 그 가설을 채택여부를 결정하는 방법

      # 귀무가설(Null Hypothesis, H0) vs 대립가설(Alternative Hypothesis, H1)

      # 1종 오류(Type 1 Error): 귀무가설 H0가 옳은데도 귀무가설을 기각하게 되는 오류

      # 2종 오류(Type 2 Error): 귀무가설 H0가 옳지 않은데도 귀무가설을 채택하게 되는 오류

  가설검정결과
H0가 사실이라고 판정 H0가 사실이 아니라고 판정
정확한 사실 H0가 사실임 옳은 결정 제 1종 오류( α )
H0가 사실이 아님 제 2종 오류( β ) 옳은 결정

      # 1종 오류의 크기를 0.1, 0.05, 0.01로 고정시키고 2종 오류가 최소가 되도록 기각역을 설정

5. 비모수 검정

-비모수 검정: 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시

-가설 설정 방법: '분포의 형태가 동일하다', '분포의 형태가 동일하지 않다'라는 식으로 가설을 설정

-검정 방법: 순위나 두 관측값 차이의 부호를 이해 검정

      # 예: 부호검정(Sign Test), 윌콕슨의 순위합 검정(Wilcoxon's Rank Sum Test), 윌콕슨의 부호 순위 검정(Wilcoxon's Signed Rank Test), 맨-휘트니의 U검정(Mann–Whitney U Test), 스피어만의 순위상관계수(Spearman's rank correlation analysis)

 

기초 통계 분석

1. 기술 통계

-기술 통계(Descriptive Statistic): 자료의 특성을 표, 그림, 통계량 등을 사용해 쉽게 파악할 수 있도록 정리/요약하는 것

      # 통계량에 의한 자료 정리

               ▶중심 위치의 측도: 평균, 중앙값, 최빈값

               ▶산포의 측도: 분산, 표준편차, 범위, 사분위수범위, 변동계수, 표준오차

               ▶분포의 형태: 왜도, 첨도

      # 그래프를 통한 자료 정리

               ▶범주형 자료: 막대그래프, 파이차트, 모자이크 플랏 등

               ▶연속형 자료: 히스토그램, 줄기-잎 그림, 상자그림 

2. 인과관계의 이해

-용어

      # 용어

               ▶종속변수(반응변수, y), 독립변수(설명변수, x), 산점도(Scatter Plot)

               ▶산점도에서 확인할 수 있는 것

                       두 변수 사이의 선형관계가 성립하는가?

                       두 변수 사이의 함수관계가 성립하는가?

                       이상값의 존재 여부와 몇 개의 집단으로 구분되는지를 확인

      # 공분산(Covariance)

               ▶두 변수 간의 상관 정도를 상관계수를 통해 확인할 수 있음

               ▶ (Cov(X, Y) = E[(Xᵢ - μₓ)  (Yᵢ - μᵧ)]

3. 상관분석(Correlation Analysis)

-정의와 특성

      # 상관분석: 두 변수간의 관계를 상관계수를 이용하여 알아보는 분석 방법

      # 상관계수가 1에 가까울수록 강한 양의 상관관계, 상관계수가 -1에 가까울수록 강한 음이 상관관계를 가짐

      # 상관계수가 0인 경우 데이터 간의 상관이 없음

-유형

구분 피어슨 스피어만
개념 등간척도 이상으로 측정된 두 변수의 상관관계 측정 순서, 서열 척도인 두 변수들 간의 상관관계를 측정
특징 연속형 변수, 정규성 가정 순서형 변수, 비모수적 방법
상관계수 적률상관계수  r 순위상관계수 p
R코드 cor(x, y, method=c("person", "kendall", "spearman"))

회귀분석

1. 회귀분석의 개요

-정의

      # 하나 또는 그 이상의 독립 변수들이 종속 변수에 미치는 영향을 추정할 수 있는 통계 기법

      # 독립 변수가 1개: 단순선형회귀분석, 독립 변수가 2개 이상: 다중선형회귀분석

      # 최소제곱법: 측정값을 기초로 제곱합을 만들고 그것의 최소인 값을 구하여 처리하는 방법, 잔차제곱합이 가장 작은 선을 선택

-회귀분석의 검정

      # 회귀식(모형)에 대한 검증: F-검증

      # 회귀계수들에 대한 검증: T-검증

      # 모형의 설명력은 결정계수(R^2)로 알 수 있으며 구하는 식은 R^2=회귀제곱합/전체제곱합=SSR/SST

      # 단순회귀분석의 결정계수는 상관계수 값의 제곱과 같음

-선형회귀분석

      #가정

선형성 입력변수와 출력변수의 관계가 선형
독립성 잔차와 독립변인은 관련이 없음
등분산성 독립변인의 모든 값에 대한 오차들의 분산이 일정
비상관성  관측치들의 잔차들끼리 상관이 없어야 함
정상성(정규성) 잔차항이 정규분포를 이뤄야 함

      # 다중선형회귀분석의 다중공선성(Multicolinearity)

               ▶다중회귀분석에서 설명변수들 사이에 강한 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란

      # 다중공선성 검사 방법

               ▶분산팽창요인(VIF): 10보다 크면 심각한 문제

               ▶상태지수: 10 이상이면 문제가 있다고 보고, 30보다 크면 심각, 선형관계가 강한 변수는 제거

-회귀분석의 종류: 단순회귀, 다중회귀, 로지스틱회귀, 다항회귀, 곡선회귀, 비선형회귀

-변수선택법(Variable Selection)

      # 모든 가능한 조합: 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택

전진선택법
(Forward Selection)
절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
→ 이해 쉬움, 많은 변수에서 활용가능, 변수 값의 작은 변동에 결과가 달라져 안정성이 부족
후진제거법
(Backward Selection)
독립변수 후보 모두를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거
→ 전체 변수들의 정보를 이용 가능, 변수가 많은 경우 활용이 어려움, 안정성 부족 
단계별방법
(Stepwise Method)
전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 삭제되는 변수를 검토해 더 이상 없을때 중단

시계열 분석

1. 시계열 자료

-개요

      # 시계열 자료(Time Series): 시간의 흐름에 따라 관찰된 값들

      # 시계열 데이터의 분석 목적: 미래의 값을 예측, 특성 파악(경향, 주기, 계절성, 불규칙성 등)

-정상성 (3가지를 모두 만족)

      # 평균이 일정(모든 시점에서 일정한 평균을 가짐)

      # 분산도 일정

      # 공분산도 특정시점에서 t, s에 의존하지 않고 일정

-시계열 모형

      # 자기회귀모형(AR, Autoregressive Model): p 시점 전의 자료가 현재 자료에 영향을 주는 모형

      # 이동평균모형(MA, Moving Average Model): 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이뤄진 모형

      #자기회귀누적이동평균모형(ARIMA(p,d,q))

               ▶d(차분) = 0 이면 정상성 만족, p=0 이면 d번 차분한 MA(q) 모델, q=0이면 d번 차분한 AR(p) 모델

-분해 시계열

      # 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

               ▶추세요인(Trend Factor): 형태가 오르거나 또는 내리는 추세, 선형, 이차식, 지수형태

               ▶계절요인(Seasonal Factor): 요일, 월, 사분기 별로 변화하여 고정된 주기에 따라 자료가 변화

               ▶순환요인(Cyclical Factor): 명백한 경제적, 자연적 이유 없이 알려지지 않은 주기로 자료가 변화

               ▶불규칙요인(Irregular Factor): 위 세 가지의 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인

 

다차원 척도법과 주성분분석

1. 다차원 척도법

-정의 및 목적

      # 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후, 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간 상에서 점으로 표현하는 분석방법

      # 목적: 개체들의 비유사성을 이용하여 2차원 공간상에 점으로 표시하고 개체들 사이의 집단화를 시각적으로 표현

-방법

      # 개체들의 거리 계산은 유클리드 거리행렬을 활용

      # d(x, y) = √(x₂ - x₁)² + (y₂ - y₁)²

      # STRESS: 개체들을 공간상에 표현하기 위한 방법으로 STRESS나 S-STRESS를 부적합도 기준으로 사용

               ▶최적모형의 적합은 부적합도를 최소로 하는 방법으로 일정 수준 이하로 될 때까지 반복해서 수행

-종류

계량적 MDS
(Metric MDS)
-데이터가 구간척도나 비율척도인 경우 활용(전통적인 다차원척도법)
-N개의 케이스에 대해 p개의 특성변수가 있는 경우, 각 개체들 간의 유클리드 거리행렬을 계산하고 개체들 간의 비유사성 S(거리제곱 행렬의 선형함수)를 공간상에 표현
비계량적 MDS
(Nonmetric MDS)
-데이터가 순서척도인 경우 활용
-개체들 간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환(Monotone Transformation)하여 거리를 생성한 후 적용

2. 주성분분석

-정의 및 목적

      # 상관관계가 있는 변수들을 결합해 상관관계가 없는 변수로 분산을 극대화하는 분석으로, 선형결합으로 변수를 축약, 축소하는 기법

      # 목적: 여러 변수들을 소수의 주성분으로 축소하여 데이터를 쉽게 이해하고 관리. 주성분분석을 통해 차원을 축소하여 군집분석에서 군집화 결과와 연산 속도 개선, 회귀분석에서 다중 공선성을 최소화

-주성분분석 vs 요인분석

      # 요인분석(Factor Analysis): 등간척도(혹은 비율척도)로 두 개 이상의 변수들에게 잠재되어 있는 공통 인자를 찾아내는 기법

      # 공통점: 모두 데이터를 축소하는데 활용, 몇 개의 새로운 변수들로 축소

차이점 생성된 변수의 수와 이름 생성된 변수들 간의 관계 목표변수와의 관계
요인분석 몇 개로 지정할 수 없으나, 이름을 붙일 수 있음 생성된 변수들이 기본적으로 대등한 관계 목표변수를 고려하지 않고 주어진 변수들간 비슷한 성격들을 묶음
주성분분석 제 1주성분, 제 2주성분을 생성(보통 2개), 이름은 제 1주성붙과 같이 정해짐 제 1주성분, 제 2주성분 순으로 중요함 목표변수를 고려하여 주성분 변수 생성

-주성분의 선택법

      # 누적기여율(Cumulative Proportion)이 85% 이상이면 주성분의 수로 결정할 수 있음

      # Screen Plot에서 고윳값(Eigen Value)이 수평을 유지하기 전 단계로 주성분의 수를 선택

 

데이터 마이닝의 개요

1. 데이터 마이닝

-개요

      # 정의: 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법

      # 통계분석과 차이점: 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 추출

      # 활용분야: 분류, 예측, 군집화, 시각화 등

      # 방법론: 의사결정나무, 로지스틱 회귀분석, 최근접 이웃법, 군집분석, 연관규칙 분석 등

-분석 방법

지도학습 비지도 학습
-의사결정나무(Decision Tree)
-인공신경망(Artificial Neural Network)
-로지스틱 회귀분석(Logistic Regression)
-최근접 이웃법(k-Nearest Neighbor)
-사례기반 추론(Case-Based Reasoning)
-OLAP(On-Line Analytic Processing)
-연관 규칙 분석(Association Rule Analysis)
-군집분석(k-Means Clustering)
-SOM(Self Organizing Map)

-데이터 마이닝 추진단계

1. 목적설정 데이터 마이닝을 위한 명확한 목적 설정
2. 데이터 준비 모델링을 위한 다양한 데이터을 준비, 데이터 정제를 통해 품질을 보장
3. 데이터 가공 목적변수 정의, 모델링을 위한 데이터 형식으로 가공
4. 기법 적용 데이터 마이닝 기법을 적용하여 정보를 추출
5. 검증 마이닝으로 추출한 결과를 검정하고 업무에 적용해 기대효과를 전파

-데이터 분할

      # 구축용(Training Data): 50%의 데이터를 모델링을 위한 훈련용으로 활용

      # 검증용(Validation Data): 30%의 데이터를 구축된 모형의 과대/과소 추정의 판정 목적으로 활용

      # 시험용(Test Data): 20%의 데이터를 테스트 데이터나 과거 데이터로 활용하여 모델의 성능 평가에 활용

 

분류분석

1. 분류분석과 예측분석

-개요

공통점 레코드의 특정 속성의 값을 미리 알아 맞히는 것
차이점 분류는 레코드의 범주형 속성의 값을 알아 맞히는 것
예측을 레코드의 연속형 속성의 값을 알아 맞히는 것
분류의 예 학생들의 국어, 영어 등 점수를 통해 내신등급을 예측
카드회사에서 회원들의 가입 정보를 통해 1년 후 신용등급을 예측
예측의 예 학생들의 여러 가지 정보를 입력해 수능점수를 예측
카드회사에서 회원들의 가입정보를 통해 연 매출액을 예측
분류 모델링 신용평가모형, 사기방지모형, 이탈모형, 고객세분화
분류기법 로지스틱 회귀분석
의사결정나무, CART
나이브 베이즈 분류
인공신경망
서포트 벡터 머신
K 최근접 이웃
규칙기반의 분류와 사례기반추론

2. 의사결정나무

-정의와 특징

      # 분류 함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법으로, 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 함

      # 주어진 입력값에 대해 출력값을 예측하는 모형으로 분류나무와 회귀나무 모형이 있음

      # 특징

               ▶계산 결과가 의사결정나무에 직접 나타나게 돼 분석이 간편함

               ▶분류 정확도가 좋음

               ▶계산이 복잡하지 않아 대용량 데이터에서도 빠르게 만들 수 있음

               ▶비정상 잡음 데이터에 대해서도 민감함 없이 분류

               ▶한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향받지 않음

-활용

      # 세분화(Segmentation): 데이터를 비슷한 특성을 갖는 몇 개의 그룹으로 분할해 그룹별 특성을 발견

      # 분류(Classification): 관측개체를 여러 예측변수들에 근거해 목표변수의 범주를 몇개의 등급으로 분류하고자 하는 경우

      # 예측(Prediction): 자료에서 규칙을 찾아내고 이를 이용해 미래의 사건을 예측하고자 하는 경우

      # 차원축소 및 변수선택(Reduction, Variable Selection): 매우 많은 수의 예측변수 중 목표변수에 영향을 미치는 변수들을 골라내고자 하는 경우

      # 교호작용효과의 파악(Interaction Effect Identification): 여러 개의 예측변수들을 결합해 목표 변수에 작용하여 파악하고자 하는 경우

      # 범주의 병합 또는 연속형 변수의 이산화(Binning): 범주형 목표변수의 범주를 소수의 몇 개로 병합하거나 연속형 목표변수를 몇 개의 등급으로 이산화 하고자 하는 경우

-의사결정나무의 분석 과정

      # 분석 단계: 성장 → 가지치기 → 타당성 평가 → 해석 및 예측

      # 가지치기(Pruning): 너무 큰 나무 모형은 자료를 과대적합하고 너무 작은 나무 모형은 과소적합 할 위험이 있어 마디에 속한 자료가 일정 수 이하일 경우, 분할을 정지하고 가지치기 실시

      # 불순도에 따른 분할 측도: 카이제곱 통계량, 지니지수, 엔트로피 지수

-의사결정나무 분석의 종류

      # CART(Classification and RegressionTree)

               ▶목적변수가 범주형인 경우 지니지수, 연속형인 경우 분산을 이용해 이진분리를 사용

               ▶개별 입력변수뿐만 아니라 입력변수들의 선형결합들 중 최적의 분리를 찾을 수 있음

      # C4.5와 C5.0

               ▶다지분리(Multiple Split)가 가능하고 범주형 입력 변수의 범주 수만큼 분리 가능

               ▶불순도의 측도로 엔트로피 지수 사용

      # CHAID(Chi-Square Automatic Interaction Detection)

               ▶가지치기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하며 입력변수가 반드시 범주형 변수여야 함

               ▶불순도의 측도로 카이제곱 통계량 사용

3. 앙상블 기법

-개요

      # 주어진 자료로부터 여러 개의 예측모형들을 만든 후 조합하여 하나의 최종예측모형을 만드는 방법

      # 다중 모델 조합(Combining Multiple Models), Classifier Combination 방법이 있음

      # 학습 방법의 불안전성을 해결하기 위해 고안된 기법

      # 가장 불안정성을 가지는 기법은 의사결정나무, 가장 안정성을 가지는 기법은 1-Nearest Neighbor

-기법의 종류

배깅
(Bagging: Bootstrap
Aggregating)
-여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료의 예측모형 결과를 결합하여 결과를 선정
-배깅은 훈련자료를 모집단으로 생각하고 평균 예측모형을 구한 것과 같아 분산을 줄이고 예측력을 향상시킬 수 있음
부스팅
(Boosting)
-예측력이 약한 모형(Weak Learner)들을 결합하여 강한 예측모형을 만드는 방법
-훈련 오차를 빨리 그리고 쉽게 줄일 수 있고, 예측오차의 향상으로 배깅에 비해 뛰어난 예측력을 보임
랜덤 포레스트
(Random Forest)
-의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법
-이론적 설명이나 해석이 어렵다는 단점이 있지만 예측력이 매우 높은 장점이 있음
-입력변수가 많은 경우 더 좋은 예측력을 보임

4. 성과분석

-오분류표를 통한 모델 평가

  Condition  
Positive Negative
Prediction Positive True Positive / TP False Positive / FP 정밀도(Precision)
TP/(TP+FP)
Negative False Negative / FN True Negative /TN  
  민감도(Sensitivity)
재현율(Recall)
=TP/(TP + FN)
특이도(Specificity)
TN/(TN + FP)
 

      # F1 Score = 2 * {(정밀도 * 재현율) / (정밀도 + 재현율)}

-ROC(Receiver Operation Characteristic)

      # 민감도와 1-특이도를 활용하여 모형을 평가

      # AUROC(ROC 커브 밑부분의 넓이): 1이 될수록 좋음

5. 인공신경망

-신경망의 연구

      # 인공신경망은 뇌를 기반으로 한 추론 모델

      # 1943년 매컬럭과 피츠: 인간의 뇌를 수많은 신경세포가 연결된 하나의 디지털 네트워크 모형으로 간주하고 신경세포의 신호처리 과정을 모형화하여 단순 패턴분류 모형을 개발

      # 헵(Hebb): 신경세포(뉴런) 사이의 연결강도(Weight)를 조정하여 학습규칙 개발

      # 로젠블럿(Rosenblatt, 1955): 퍼셉트론(Perceptron)이라는 인공 세포 개발, 비선형성의 한계점 발생 

      # 홉필드, 러멜하트, 맥클랜드: 역전파 알고리즘(Backpropagation)을 활용하여 비선형성을 극복한 다계층 퍼셉트론으로 새로운 인공신경망 모형 등장

-뉴런

      # 인공신경망은 뉴런이라는 아주 단순하지만 복잡하게 연결된 프로세스로 이루어져 있음

      # 뉴런은 가중치가 있는 링크들로 연결되어 있으며, 뉴런은 여러 개의 입력신호를 받아 하나의 출력신호를 생성

      # 뉴런은 전이함수, 즉 활성화함수(Activation Function)를 사용

               ▶뉴런은 입력 신호의 가중치 합을 계산하여 임계값과 비교

               ▶가중치 합이 임계값보다 작으면 뉴런의 출력은 -1, 같거나 크면 +1을 출력함

6. 로지스틱 회귀분석

-개요

      # 반응변수가 범주형이 경우에 적용되는 회귀분석모형

      # 새로운 설명변수(또는 예측변수)가 주어질 때 반응변수의 각 범주(또는 집단)에 속할 확률이 얼마인지를 추정(예측모형)하여, 추정 확률을 기준치에 따라 분류하는 목적(분류모형)으로 활용

      # 이때 모형의 적합을 통해 추정된 확률을 사후확률이라고 함

      # exp(β₁)의 의미는 나머지 변수(x₁, x₂, ..., xₖ)가 주어질 때, x₁이 한 단위 증가할 때마다 성공(Y=1)의 오즈가 몇 배 증가하는지를 나타내는 값

 

군집분석

1. 군집분석

-개요

      # 각 객체(대상)의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체 간의 상이성을 규명하는 분석방법

      # 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것으로 군집의 개수, 구조에 대한 가정 없이 데이터로부터 거리 기준으로 군집화 유도

-특징

      # 비지도학습법에 해당하여 타깃변수(종속변수)의 정의가 없이 학습이 가능

      # 데이터를 분석의 목적에 따라 적절한 군집으로 분석자가 정의 가능

      # 요인분석과의 차이: 유사한 변수를 함께 묶어주는 목적이 아니라 각 데이터(객체)를 묶어 줌

      # 판별분석과의 차이: 판별분석은 사전에 집단이 나누어져 있어야 하고 군집분석은 집단이 없는 상태에서 집단을 구분

-거리 측정 방법

      # 연속형 변수: 유클리드 거리, 표준화 거리, 마할라노비스 거리, 체비셔프 거리, 맨해튼 거리, 캔버라 거리, 민코우스키 거리 등

      # 범주형 변수: 자카드 거리 등

-계층적 군집분석

      # n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법

최단연결법 -n*n 거리행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성
-군집과 군집 또는 데이터와의 거리를 계산시 최단거리를 거리로 계산하여 거리행렬 수정
-수정된 거리행렬에서 거리가 가까운 데이터 또는 군집을 새로운 군집으로 형성
최장연결법 -군집과 군집 또는 데이터와의 거리를 계산시 최장거리를 거리로 계산하여 거리행렬 수정
평균연결법 -군집과 군집 또는 데이터와의 거리를 계산시 평균거리를 거리로 계산하여 거리행렬 수정
와드연결법 -군집 내 편차들의 제곱합을 고려한 방법으로 군집 간 정보의 손실을 최소화하기 위해 군집화를 진행

-비계층적 군집분석

      # n개의 개체를 k개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성하는 것

      # K-평균 군집분석(K-Means Clustering)

      # 프로세스

               ▶ 원하는 군집의 개수와 초기 값(seed)들을 정해 seed 중심으로 군집을 형성

               ▶각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류

               ▶각 군집의 seed 값을 다시 계산

               ▶모든 개체가 군집으로 할당될 때까지 위 과정들을 반복

      # 장점과 단점

장점 단점
주어진 데이터의 내부구조에 대한 사정정보 없이 의미있는 자료구조를 찾을 수 있음 가중치와 거리 정의가 어려움
다양한 형태의 데이터에 적용이 가능함 초기 군집 수를 결정하기 어려움
분석방법 적용이 용이함  사전에 주어진 목적이 없으므로 결과 해석이 어려움

-혼합 분포 군집(Mixture Distribution Clustering)

      # 모형 기반(Model-Based)의 군집 방법이며, 데이터가 k개의 모수적 모형(흔히 정규분포 또는 다변량 정규분포를 가정함)의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에서 가중치를 자료로부터 추정하는 방법을 사용

      # k개의 각 모형은 군집을 의미하며 , 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분류가 이루어짐

      # 흔히 혼합모형에서의 모수와 가중치의 추정(최대가능도추정)에는 EM 알고리즘이 사용

      # 혼합 분포 군집 모형의 특징

               ▶K-평균 군집의 절차와 유사하지만 확률분포를 도입하여 군집을 수행

               ▶군집을 몇 개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있음

               ▶EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸림

               ▶군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려움

               ▶K-평균 군집과 같이 이상치 자료에 민감하므로 사전에 조치가 필요

-SOM(Self-Organizing Map)

      # SOM(자기조직화지도) 알고리즘은 코호넨에 의해 제시, 개발되었으면 코호넨 맵이라고도 알려져 있음

      # SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저 차원의 뉴런으로 정렬하여 지도의 형태로 형상화, 이러한 형상화는 입력 변수의 위치 관계를 그대로 보존한다는 특징이 있음. 다시 말해 실제 공간의 입력 변수가 가까이 있으면, 지도 상에도 가까운 위치에 있게 됨

      # SOM의 특징

               ▶고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉬움

               ▶입력 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현되며, 이런 특징 때문에 패턴 발견, 이미지 분석 등에서 뛰어난 성능을 보임

               ▶역전파 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스(Feed-Forward Flow)를 사용함으로써 속도가 매우 빠르므로 실시간 학습처를 할 수 있는 모형임

 

연관분석

1. 연관분석

-개요

      # 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위한 분석. 흔히 장바구니 분석, 순차분석 등이 있음

      # 장바구니 분석: 장바구니에 무엇이 같이 들어 있는지에 대해 분석.

          ex) 주말을 위해 목요일에 기저귀를 사러 온 30대 직장인 고객은 맥주도 함께 사감

      # 순차 분석: 구매 이력을 분석해서 A 품목을 산 후 추가 B 품목을 사는지를 분석

          ex) 휴대폰을 새로 구매한 고객은 한 달 내에 휴대폰 케이스를 구매

-형태

      # 조건과 반응의 형태(if-then)

-측도

지지도
(Support)
전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의
지지도 = A와 B가 동시에 포함된 거래 수 / 전채 거래 수
신뢰도
(Confidence)
항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함 될 확률. 연관성의 정도를 파악할 수 있음
신뢰도 = A와 B가 동시에 포함 된 거래 수 / A를 포함하는 거래 수
향상도
(Lift)
A가 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율
연관규칙 A → B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 됨
향상도 = A와 B가 동시에 포함 된 거래 수 / (A를 포함하는 거래 수 * B를 포함하는 거래 수)

-특징

      #장점과 단점

장점 단점
탐색적인 기법
조건 반응으로 표현되는 연관성분석 결과를 쉽게 이해 할 수 있음
상당한 수의 계산과정
품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어남
강력한 비목적성 분석기법
분석 방향이나 목적이 특별히 없는 경우 목적 변수가 없으므로 유용하게 활용 됨
적절한 품목의 결정
너무 세분화한 품목을 갖고 연관석 규칙을 찾으면 수많은 연관성 규칙들이 발견되겠지만, 실제 발생 비율 면에서 의미 없는 분석이 될 수도 있음
사용이 편리한 분석 데이터의 형태
거래 내용에 대한 데이터를 변환 없이 그 자체로 이용
품목의 비율차이
사용 될 모든 품목들 자체가 전체자료에서 동일한 빈도를 갖는 경우, 연관성 분석은 가장 좋은 결과를 얻음. 그러나 거래량이 적은 품목은 당연히 포함된 거래 수가 적을 것이고 규칙 발견 과정 중에서 제외되기 쉬움
계산의 용이성
분석을 위한 계산이 상당히 간단
 

-평가기준 적용 시 주의점

      # 두 항목의 신뢰도가 높다고 해서 꼭 두 항목이 높은 연관관계가 있는 것은 아님(지지도를 함께 고려)

               ▶만일 두 항목의 신뢰도가 높게 나왔어도 전체 항목 중 두 항목의 동시 구매율인 지지도가 낮게 나온다면 두 항목 간 연관성을 신뢰하기에는 부족한 점이 있음

               ▶즉, 구매율 자체가 낮은 항목이기에 일반적인 상관관계로 보기엔 어려움

      # 지지도와 신뢰도가 모두 높게 나왔더라도 꼭 두 항목이 높은 연관관계가 있는 것은 아님(향상도를 함께 고려)

               ▶일반적으로 빈번하게 구매되는 항목들에 대해서는 지지도와 신뢰도가 높게 나올 수 있음

      # A, B 두 항목의 신뢰도(Confidence(A→B))가 높게 나왔을 때, 전체거래에서 B의 자체 구매율 보다 A의 자체 구매율이 더 높아야 의미 있는 정보임

-Apriori 알고리즘

      # 어떤 항목 집합이 빈발한다면, 그 항목 집합의 모든 부분 집합도 빈발

728x90
반응형

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 2과목  (0) 2023.10.16
[ADsP] 공부 - 1과목  (1) 2023.10.15
[ADsP] 단답형 문제 정리 - 3과목  (1) 2023.10.15
[ADsP] 단답형 문제 정리 - 2과목  (0) 2023.10.14
[ADsP] 단답형 문제 정리 - 1과목  (0) 2023.10.14
728x90
반응형

분석 기획 방향성 도출

1. 분석 기획의 특징

- 분석 기획: 실제 분석을 수행하가기 앞서 분석을 수행할 과제를 정의하고, 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리 할 수 있는 방안을 사전에 계획하는 일련의 작업

-데이터 사이언티스트의 역량: 수학/통계적 지식, 정보기술(IT기술, 해킹기술, 통신기술 등), 비즈니스에 대한 이해와 전문성

2. 분석 대상과 방법: 분석은 분석의 대상(What)과 분석의 방법(How)에 따라 4가지로 분류할 수 있음

분석 주제 유형 분석의 대상(What)
Known Un-Known
분석의 방법(How) Known Optimization Insight
Un-Known Solution Discovery

3. 목표 시점별 분석 기획 방안

당면한 분석 주제의 해결
(과제 단위)
  지속적 분석 문화 내재화
(마스터 플랜 단위)
Speed & Test 1차 목표 Accuracy & Deploy
Quick-Win 과제의 유형 Long Term View
Problem Solving 접근 방식 Problem Definition

4. 분석 기획 시 고려사항

-분석의 기본인 가용 데이터(Available Data)에 대한 고려가 필요

-분석을 통해 가치가 창출 될 수 있는 적절한 활용방안과 유즈케이스(Proper Business Use Case) 탐색이 필요

-분석 수행시 발생하는 장애요소들에 대한 사전계획 수립이 필요(Low Barrier Of Execution)

 

분석 방법론

1. 분석 방법론 개요

-기업의 합리적 의사결정을 가로막는 장애요소

      # 고정 관념(Stereotype)

      # 편향된 생각(Bias)

      # 프레이밍 효과(Framing Effect)

-방법론의 적용 업무의 특성에 따른 모델

      # 폭포수 모델(Waterfall Model)

      # 프로토타입 모델(Prototype Model)

      # 나선형 모델(Spiral Model)

2. KDD 분석 방법론

-데이터셋 선택(Selection)

-데이터 전처리(Preprocessing)

-데이터 변환(Transformation)

-데이터 마이닝(Data Mining)

-결과 평가(Interpretation/Evaluation)

3. CRISP-DM 분석 방법론

-업무 이해(Business Understanding)

-데이터 이해(Data Understanding)

-데이터 준비(Data Preparation)

-모델링(Modeling)

-평가(Evaluation)

-전개(Deployment)

4. 빅데이터 분석 방법론

-빅데이터 분석의 계층적 프로세스

      # 단계 Phase 

      # 테스크 Task 

      # 스텝 Step

-빅데이터 분석 방법론 5단계

      # 분석 기획 

             ▶ 비즈니스 이해 및 범위 설정

             ▶ 프로젝트 정의 및 계획 수립

             ▶ 프로젝트 위험계획 수립

      # 데이터 준비

             ▶ 필요 데이터 정의

             ▶ 데이터 스토어 설계

             ▶ 데이터 수집 및 정합성 점검

      # 데이터 분석

             ▶ 분석용 데이터 준비

             ▶ 텍스트 분석

             ▶ 탐색적 분석

             ▶ 모델링

             ▶ 모델 평가 및 검증

             ▶ 모델 적용 및 운영방안 수립 

      # 시스템 구현

             ▶ 설계 및 구현

             ▶ 시스템 테스트 및 운영

      # 평가 및 전개

             ▶ 모델 발전계획 수립

             ▶ 프로젝트 평가 및 보고

 

분석 과제 발굴

1. 분석과제 발굴 방법론

-하향식 접근 방식(Top Down Approach): 분석 과제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식

-상향식 접근 방식(Bottom Up Approach): 문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식

2. 하향식 접근 방식(Top Down Approach)

      # 문제 탐색(Problem Discovery)

             ▶ 비즈니스 모델기반 문제탐색

             ▶ 외부사례 기반 문제탐색(=벤치마킹)

      # 문제 정의(Problem Definition)

             ▶ 데이터 분석 문제 변환

      # 해결방안 탐색(Solution Search)

             ▶ 수행 옵션 도출

      # 타당성 검토(Feasibility Study)

             ▶ 타당성평가

             ▶ 과제 선정

3. 하향식 접근 방식(Top Down Approach)의 과정

-문제 탐색(Problem Discovery)

      # 비즈니스 모델 기반 문제 탐색: 업무(Operation), 제품(Product), 고객(Customer), 규제와 감사(Regulation & Audit),             지원 인프라(IT & Human Resource) 등 5가지영역으로 기업의 비즈니스를 분석

      # 분석 기회 발굴의 범휘 확장

             ▶ 거시적 관점: 사회, 기술, 경제, 환경, 정치

             ▶ 경쟁자 확대: 경쟁사의 동향(대체제, 경쟁자, 신규 진입자)

             ▶ 시장니즈 탐색: 고객, 채널, 영향자들

             ▶ 역량의 재해석: 역량의 변화(내부역량, 파트너 네트워크)

      # 외부 참조 모델 기반의 문제 탐색: 유사, 동종 사례를 벤치마킹을 통해 분석 기회를 발굴

      # 분석 유즈 케이스(Analytics Use Case) 정의

-문제 정의(Problem Definition): 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계

-해결방안 탐색(Solution Search): 분석역량(Who), 분석기법 및 시스템(How)으로 해결 방안 탐색

-타당성 검토(Feasibility Study): 경제적 타당성, 데이터 및 기술적 타당성 검토

4. 상향식 접근 방식(Bottom Up Approach)

-정의

      # 기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근방법

      # 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정

-상향식 접근법의 특징

      # 하향식 접근법은 논리적 단계별 접근법으로 최근의 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어렵기 때문에 디자인적 사고(Design Thinking) 접근법을 통해 WHY→WHAT 관점으로 존재하는 데이터 그 자체를 객관적으로 관찰하여 문제를 해결하려는 접근법을 사용

      #  상향식 접근법은 비지도 학습 방법으로 수행되며, 데이터 자체의 결합, 연관성, 유사성을 중심으로 접근

      #  시행착오를 통한 문제 해결: 프로토타이핑 접근법

5. 분석과제 정의

-분석 과제 정의서를 통해 분석별 필요 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도, 분석 수행주기, 검증 오너십, 상세 분석 과정 등의 정의

 

분석 프로젝트 관리 방안

1. 분석과제 관리를 위한 5가지 주요 영역

-분석프로젝트는 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 수행되어야 할 뿐 아니라 데이터에 기반한 분석 기법을 적용한다는 특성 때문에 아래와 같은 5가지의 주요 속성을 고려하여 추가적이 관리가 필요

      # 분석과제 관리(5 Analytic Dimensions)

             ▶ Data Complexity

             ▶ Speed

             ▶ Analytic Complexity

             ▶ Accuracy & Precision

             ▶ Data Size

2. 분석 프로젝트의 특성

-분석가의 목표: 개별적인 분석업무 수행 뿐만 아니라 전반적인 프로젝트 관리 또한 중요

-분석가의 입장: 데이터 영역과 비즈니스 영역의 현황을 이해하고, 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가 역할이 중요

-분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 애자일(Agile) 프로젝트 관리방식에 대한 고려도 필요

 

마스터 플랜 수립 프레임워크

1. 마스터 플랜 프레임 워크

-분석 과제를 대상으로 다양한 기준을 고려해 적용 우선순위를 설정하고, 데이터 분석 구현을 위한 로드맵 수립

우선순위 고려요소
1. 전략적 중요도 적용 우선 순위 결정
2. 비즈니스 성과/ROI
3. 실행 용이성
적용범위/방식 고려요소
1. 업무 내재화 적용 수준 Analytics 구현 로드맵 수립
2. 분석 데이터 적용 수준
3. 기술 적용 수준

2. 우선순위 평가에 활용하기 위한 ROI 관점에서 빅데이터의 핵심 특징

4V 3V
난이도
1. 크기 Volume 데이터 규모/양 투자비용 요소
(Investment)
2. 다양성 Variety 데이터 종류/유형
3. 속도 Velocity 데이터 생성속도/처리속도
시급성 4. 가치 Value 분석 결과 활용 및 실행을 통한
비즈니스 가치
비즈니스 효과
(Return)

분석 거버넌스 체계 수립

1. 분석 거버넌스 체계 구성요소

-Data: 데이터

-Human Resource: 분석교육/마인드 육성체계

-Organization: 분석기획 및 관리 수행 조직

-Process: 과제 기획 및 운영 프로세스

-System: 분석관련시스템

2. 데이터 분석 수준 진단

-분석 준비도 Readiness

      # 분석 업무

      # 분석 인력, 조직

      # 분석 기법

      # 분석 데이터

      # 분석 문화

      # 분석 인프라

-분석 성숙도 Maturity

      # 도입 → 활용 확산 최적화

      # 조직의 성숙도 평가도구: CMMI(Capability Maturity Model Integration)

-분석 수준 진단 결과: 도입형, 준비형, 확산형, 정착형

3. 데이터 거버넌스 체계 수립

-데이터 거버넌스 개요

      # 전사 차원의 모든 데이터에 대하여 정책 및 지침 표준화, 운영조직 및 책임 등의 표준화 된 관리 체계를 수립하고 운영을 위한 프레임워크(Framework) 및 저장소(Repository)를 구축하는 것을 말함

      # 마스터 데이터(Master Data), 메타 데이터(Meta Data), 데이터사전(Data Dictionary)은 데이터 거버넌스의 중요한 관리대상

-데이터 거버넌스 구성요소

      # 원칙(Principle), 조직(Organization), 프로세스(Process)

-데이터 거버넌스 체계

      # 데이터 표준화, 데이터 관리 체계, 데이터 저장소(Repository) 관리, 표준화 활동

4. 데이터 분석을 위한 3가지 조직구조

-집중구조

-기능구조

-분산구조

5. 분석과제 관리 프로세스

과제 발굴 1. 분석 Idea 발굴
2. 분석 과제 후보 제안
3. 분석 과제 확정
과제 수행 4. 팀구성
5. 분석 과제 실행
6. 분석 과제 진행 관리
7. 결과 공유/개선

 

728x90
반응형

'Certificate > ADSP' 카테고리의 다른 글

[ADsP] 공부 - 3과목  (2) 2023.10.16
[ADsP] 공부 - 1과목  (1) 2023.10.15
[ADsP] 단답형 문제 정리 - 3과목  (1) 2023.10.15
[ADsP] 단답형 문제 정리 - 2과목  (0) 2023.10.14
[ADsP] 단답형 문제 정리 - 1과목  (0) 2023.10.14

+ Recent posts