정리 내용은 [2022 ADsP 데이터 분석 준전문가]책을 기반으로 작성하였습니다.
2022 ADsP 데이터 분석 준전문가 - 교보문고
본 도서는 한국데이터베이스진흥원에서 실시하고 있는 『데이터 분석 전문가(ADP)』 자격증과 『데이터 분석 준전문가(ADsP)』 자격증을 준비하는 수험생들을 위한 도서이다. 2014년 4월 이후 시행
www.kyobobook.co.kr
1. DBMS와 SQL
1. DBMS
DataBase Management System의 약자. 데이터베이스 관리하여 응용프로그램들이 데이터베이스를 공유하며 사용할 수 있는 환경을 제공하는 소프트웨어. 데이터베이스를 구축하는 틀을 제공하며, 효율적인 데이터 검색, 저장 기능 등을 제공 오라클, 인포믹스, 액세스 등이 있다.
DBMS 종류
관계형 DBMS: 이 모델은 데이터 컬럼과 로우를 이루는 하나 이상의 테이블로 정리하며, 고유키가 각 로우를 식별한다. 로우는 레코드나 튜플로 부르며, 일반적으로 각 테이블/관계는 하나의 엔티티 타입을 대표한다.
객체지향 DBMS: 관계형 DB와 다르게 객체형태로 표현하는 데이터베이스 모델이다.
네트워크 DBMS: 레코드는 노드, 레코드 사이의 관계는 간선으로 표현 그래프 기반으로 하는 데이터베이스 모델
계층형 DBMS: 트리구조를 기반으로 하는 계층 데이터베이스 모델
관계형 DBMS와 객체형 DBMS
관계형 DBMS | 객체지향 DBMS |
테이블(행의 집합) | 클래스 |
행(row) | 객체 |
테이블정의서(사용자 정의 데이터 타입) | 타입 |
비적용(내장 프로시저) | 메소드 |
인덱스 | 인덱스 |
비적용(내장 프로시저) | 객체 식별자 |
비적용(배열 Array) | 콜렉션 |
비적용 | 상속성 |
비적용 | 캡슐화 |
내장프로시저를 갖는 SOL | 계산완전성 |
SOL을 통한 상호호환성, 이식성 | 비적용 |
수학적 모델에 기초 | 비적용 |
2. SQL
Sturctured Query Language 약자. 데이터베이스를 사용할 때 데이터베이스에 접근할 수 있는 데이터베이스의 하부 언어로 단순한 질의 기능뿐만 아니라 데이터의 정의와 조작 기능을 갖춤
테이블 단위로 연산을 수행, 영어 문장과 비슷한 구문으로 초보자들도 비교적 쉽게 사용
집계함수
함수명 | 설명 | 유형별 가능 여부 |
AVG | 지정한 열의 평균값 반환 | 수치형 |
COUNT | 테이블 특정 조건이 맞는 것의 개수 반환 | 수치형, 문자형 |
SUM | 지정한 열이 총합 반환 | 수치형 |
STDDEV | 지정한 열의 분산 반환 | 수치형 |
MIN | 지정한 열의 가장 작은 값을 반환 | 수치형 |
MAX | 지정한 열의 가장 큰 값을 반환 | 수치형 |
2. Data와 관련한 기술
1. 개인정보 비식별 기술
데이터 셋에서 개인정보를 식별할 수 있는 요소를 전부 또는 일부를 삭제하거나 다른 값으로 대체하는 등의 방법으로 개인을 알아볼 수 없도록 하는 기술
비식별기술 | 내용 | 예시 |
데이터 마스킹 |
데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술 | 홍길동 35세, 서울 거주, 한국대 재학 -> 홍**, 서울거주, **대 재학 |
가명처리 | 개인정보 주체의 이름을 다른 이름으로 변경하는 기술, 다른 값으로 대체할 시 규칙이 노출되지 않도록 주의 | 홍길동 35세, 서울 거주, 한국대 재학 -> 홍**, 서울거주, **대 재학 |
총계처리 | 데이터의 총합 값을 보임으로서 개별 데이터 개별 데이터의 값을 보이지 않도록 함. 단 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인정보를 공개하는 것과 마찬가지의 결과임으로 주의 | 임꺽정 180cm, 홍길동 170 cm, 이콩쥐 160cm, 김팥쥐 150cm -> 물리학과 학생 키 합 660cm, 평균 165cm |
데이터값 삭제 |
데이터 공유, 개방 목적에 따라 데이터 셋에 규정된 값 중 필요 없는 값 또는 개인 식별에 중요한 값을 삭제, 개인과 관련된 날짜정보는 연단위로 처리 | 홍길동, 35세, 서울거주, 한국대 졸업 -> 35세 서울거주 주민등록번호: 901206-1234567 -> 90년대 생, 남자 |
데이터 범주화 |
데이터의 값을 범주의 값으로 변환하여 값을 숨김 | 홍길동, 35세->홍씨,30~40세 |
2. 무결성과 레이크
데이터 무결성: 데이터베이스 내에 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정 시 여러 가지 제한을 두어 데이터의 정확성을 보증하는 것. 개체 무결성, 참조 무결성, 범위 무결성이 있다.
데이터 레이크: 수많은 정보 속에서 의미 있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템. 대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소. Apaache Hadoop, Teradata integrated Big Data platform 1700 등과 같은 플랫폼으로 구성된 솔루션을 제공하고 있다
3. 빅데이터 분석기술
하둡
여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술. 분산파일 시스템을 통해 천 대의 장비에 대용량 파일을 저장할 수 있는 기능을 제공하고 맵리듀스로 HDFS에 저장된 대용량의 데이터들을 대상으로 SQL을 이용해 사용자의 질의를 실시간으로 처리하는 기술로 이루어져 있음하둡의 부족한 기능을 서로 보완하는 하둡 에코시스템이 등장하여 다양한 솔루션을 제공
Apache Spark
실시간 분산형 컴퓨팅 플랫폼으로써 스칼라로 작성되어 있지만 스칼라, 자바, R, 파이썬, API를를 지원한다. In-memory 방식으로 처리를 하기 때문에 하둡에 비해 처리속도가 빠름
Smart Factory
공장 내 설비와 기계에 사물인터넷이 설치되어 공정 데이터가 실시간으로 수집되고 데이터 기반한 의사 결정이 이뤄짐으로써 생산성을 극대화할 수 있는 기술
Machine Learnig & Deep Learnigs
머신러닝은 인공지능의 연구 분야 중 하나로, 인간의 학습능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술 및 기법이다. 딥러닝은 컴퓨터가 많은 데이터를 이용해 사람처럼 스스로 학습할 수 있게 하기 위하여 인공신경망 등의 기술을 기반하여 구축한 기계학습 기술 중 하나
4. 기타
데이터 양 단위
단위 | 데이터량 | 단위 | 데이터량 |
바이트(B) | 1byte, 20 B | 페타바이트(PB) | 1024TB, 250 B |
킬로바이트(KB) | 1024B, 210 B | 엑사바이트(EB) | 1024PB, 260 B |
메가바이트(MB) | 1024KB, 220 B | 제타바이트(ZB) | 1024EB, 270 B |
기가바이트(GB) | 1024MB, 230 B | 요타바이트(YB) | 1024ZB, 280 B |
테라바이트(TB) | 1024GB, 240 B |
B2B와 B2C
B2B: 기업과 기업 사이의 거래를 기반으로 한 비즈니스 모델을 의미하며, 기업이 필요로 하는 장비, 재료나 공사 입찰 등이 있다.
B2C: 기업과 고객 사이의 거래를 기반으로 한 비즈니스 모델을 의미하며 이동통신사, 여행회사, 신용카드회사, 옥션, 지마켓 등이 있다.
블록체인
거래 정보를 하나의 덩어리로 보고 이를 차례로 연결한 거래장부
기존 금융회사의 경우 중앙집중형 서버에 거래 기록을 보관하는 반면 블록체인은 거래에 참여하는 모든 사용자에게 거래 내역을 보내주며 거래 때마다 이를 대조해 데이터 위조를 막는 방식 사용
데이터 유형
유형 | 내용 | 예시 |
정형 데이터 |
형태(고정된 필드)가 있으며, 연산이 가능함. 주로 관계형 데이터베이스에 저장됨 데이터 수집 난이도가 낮고, 형식이 정해져 있어 처리가 쉬운편 |
관계형 데이터베이스, 스프레드시트, CSV등 |
반정형 데이터 |
형태(스키마, 메타데이터)가 있으며, 연산이 불가능, 주로 파일로 저장됨 데이터 수집 난이도가 중간, 보통 API 형태로 제공되기 때문에 데이터 처리 기술(파싱)이 요구됨 |
XML, HTML, JSON, 로그형태(웹로그, 센서데이터) 등 |
비정형 데이터 |
형태가 없으며 연산 불가능, NoSQL에 저장됨 데이터 수집 난이도가 높으며 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱 해야하기 때문에 수집 데이터 처리가 어려움 |
소셜데이터(트위터, 페이스북), 영상, 이미지, 음성, 텍스트(word, PDF 등) 등 |
'Study > ADSP' 카테고리의 다른 글
[후기] 2022 ADsP 합격 후기 (feat. 민트책) (0) | 2022.06.01 |
---|---|
[ADsP] 3과목 데이터 분석 - 5장 정형 데이터 마이닝 (2) (0) | 2022.03.10 |
[ADsP] 3과목 데이터 분석 - 5장 정형 데이터 마이닝 (1) (0) | 2022.03.09 |
[ADsP] 3과목 데이터 분석 - 4장 통계분석 (2) (0) | 2022.03.08 |
[ADsP] 3과목 데이터 분석 - 4장 통계분석 (1) (0) | 2022.03.07 |