metacodeM
빅데이터분석기사 강의
2월부터 강의료가 오른다고 하니 얼른 정리하세요!!
빅데이터분석기사 필기 요약정리
Part 01. 빅데이터 분석 기획 [중요도 - ★★★]
1. 데이터 거버넌스의 정의 및 체계요소
<정의>
- 데이터 거버넌스란 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말함.
- 기업에서 가치 있는 양질의 데이터를 지속적으로 발굴 및 관리해 비즈니스 자산으로 활용하기 위한 데이터 통합관리체계를 말함.
- 마스터 데이터, 메타데이터, 데이터 사전은 데이터 거버넌스의 중요한 관리대상.
<체계요소>
- 데이터 표준화 : 데이터 표준 용어 설명, 명명규칙, 메타데이터 구축, 데이터 사전 구축 등의 업무로 구성.
- 데이터 관리 체계 : 데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타데이터와 데이터 전의 관리원칙을 수립. 수립된 원칙에 근거하여 항목별 상세한 프로세스를 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임을 상세하게 준비.
- 데이터 저장소 관리 : 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성. 저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 함. 또한 데이터 구조 변경에 따른 사전영향평가도 수행되어야 효율적인 활용이 가능.
- 표준화 활동 : 데이터 거버넌스의 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시. 거버넌스의 조직 내 안정적 정착을 위한 계속적인 변화관리 및 주기적인 교육을 진행.
2. 빅데이터 플랫폼을 구성하는 오픈소스 소프트웨어들의 역할
초기 빅데이터 플랫폼은 하둡 분산파일시스템과 맵리듀스의 모듈로 구성되었으나, 아래와 같이 지속적 발전.
기능 | 소프트웨어 | 설명 |
---|
코디네이터 | Zookeeper | 분산 환경에서 서버간의 상호 조정이 필요한 다양한 서비스를 제공하는 시스템 |
리소스관리 | YARN | 데이터 처리 작업을 실행하기 위한 클러스터 자원과 스케줄링을 위한 프레임워크 |
데이터저장 | HBase | HDFS 기반의 컬럼 기반 데이터베이스로 실시간 랜덤 조회 및 업데이트가 가능 |
... | ... | ... |
3. 빅데이터의 3V, 5V (ROI 기반 4V)
구분
구분 | 특징 | 내용 |
---|
3V(투자비용) | Volume(규모) | 수집, 저장, 처리하는 데이터의 규모가 매우 큼 |
... | ... | ... |
... (이하 내용 생략)
Part 01. 빅데이터 분석 기획 [중요도 - ★]
1. 데이터의 정의
- 데이터란 현실 세계로부터 관찰되거나 측정되어 수집된 사실 또는 값을 의미.
- 의미 있는 정보를 가진 모든 값으로, 사람이나 자동기기가 생성 또는 처리하는 형태로 표시된 것.
- 데이터는 현상이나 사실을 기술하거나 추론과 추정의 근거를 이루는 사실로 사용되고 있음.
- 데이터를 어떻게 활용하는지에 따라 정보, 지식, 지혜로 구분.
... (이어서 정리)
Part 02. 빅데이터 탐색 [중요도 - ★★★]
구분
구분 | 내용 |
---|
변수선택 | - 변수선택은 관련이 없거나 중복되는 변수들을 필터링하고 간결한 하위집합(subset)을 생성하는 방법 |
변수추출 | - 변수추출은 기존 변수들의 조합으로 유용한 변수들을 새롭게 생성하는 과정 |
Part 02. 빅데이터 탐색 [중요도 - ★★]
1. 결측값의 유형
종류
종류 | 특징과 예시 |
---|
완전 무작위 결측(MCAR) | - 다른 변수와 무관하게 발생한 결측값 |
무작위 결측 (MAR) | - 결측값이 다른 변수와 연관이 있음 |
비무작위결측(NMAR) | - 결측값이 다른 변수와 연관이 있음 |
2. 이상값의 측정 방법
- ESD(Extreme Studentized Deviation) : 평균으로부터 표준편차*3 만큼 떨어진 값을 이상값으로 판단.
- 기하평균활용 : 기하평균으로부터 표준편차*2.5만큼 떨어진 값을 이상값으로 판단.
- 사분위수활용 : 제1사분위, 제3사분위를 기준으로 사분위 간 범위(Q3 – Q1)의 1.5배 이상 떨어진 값을 이상값으로 판단.
- 데이터 시각화 : 히스토그램, 시계열 차트, 밀도차트, 상자그림 등.
- 분석 기법 활용 : 비지도 학습, 마할라노비스 거리 활용, LOF, iFOREST.
... (이어서 정리)
Part 02. 빅데이터 탐색 [중요도 - ★]
1. 데이터 전처리
- 정제 : 결측 데이터, 이상치 파악 및 제거하고 정합성이 맞도록 교정하는 작업.
- 통합 : 여러 개의 데이터베이스, 데이터 집합 또는 파일을 통합하는 작업.
- 축소 : 샘플링, 차원축소, 변수선택 및 추출을 통해 차원을 줄이는 방법.
- 변환 : 데이터를 정규화, 이산화, 파생변수 등으로 변환하는 작업.
2. 파생변수와 요약변수 개념
구분
구분 | 설명 |
---|
파생변수 | - 기존 변수에 특정 조건 혹은 함수 등을 사용하여 새롭게 재정의한 변수를 의미. |
요약변수 | - 구매금액, 구매횟수, 구매여부 등. 단순 데이터들을 종합한 변수라고 생각할 수 있음. |
... (이어서 정리)