[METACODE] 메타코드 - 빅데이터분석기사(필기) 총정리

박종일·2024년 1월 24일
3

엠버서더 활동일지

목록 보기
11/12

metacodeM
빅데이터분석기사 강의

2월부터 강의료가 오른다고 하니 얼른 정리하세요!!

빅데이터분석기사 필기 요약정리

Part 01. 빅데이터 분석 기획 [중요도 - ★★★]

1. 데이터 거버넌스의 정의 및 체계요소

<정의>

  • 데이터 거버넌스란 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것을 말함.
  • 기업에서 가치 있는 양질의 데이터를 지속적으로 발굴 및 관리해 비즈니스 자산으로 활용하기 위한 데이터 통합관리체계를 말함.
  • 마스터 데이터, 메타데이터, 데이터 사전은 데이터 거버넌스의 중요한 관리대상.

<체계요소>

  • 데이터 표준화 : 데이터 표준 용어 설명, 명명규칙, 메타데이터 구축, 데이터 사전 구축 등의 업무로 구성.
  • 데이터 관리 체계 : 데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타데이터와 데이터 전의 관리원칙을 수립. 수립된 원칙에 근거하여 항목별 상세한 프로세스를 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임을 상세하게 준비.
  • 데이터 저장소 관리 : 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성. 저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 함. 또한 데이터 구조 변경에 따른 사전영향평가도 수행되어야 효율적인 활용이 가능.
  • 표준화 활동 : 데이터 거버넌스의 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시. 거버넌스의 조직 내 안정적 정착을 위한 계속적인 변화관리 및 주기적인 교육을 진행.

2. 빅데이터 플랫폼을 구성하는 오픈소스 소프트웨어들의 역할

초기 빅데이터 플랫폼은 하둡 분산파일시스템과 맵리듀스의 모듈로 구성되었으나, 아래와 같이 지속적 발전.

기능소프트웨어설명
코디네이터Zookeeper분산 환경에서 서버간의 상호 조정이 필요한 다양한 서비스를 제공하는 시스템
리소스관리YARN데이터 처리 작업을 실행하기 위한 클러스터 자원과 스케줄링을 위한 프레임워크
데이터저장HBaseHDFS 기반의 컬럼 기반 데이터베이스로 실시간 랜덤 조회 및 업데이트가 가능
.........

3. 빅데이터의 3V, 5V (ROI 기반 4V)

구분

구분특징내용
3V(투자비용)Volume(규모)수집, 저장, 처리하는 데이터의 규모가 매우 큼
.........

... (이하 내용 생략)

Part 01. 빅데이터 분석 기획 [중요도 - ★]

1. 데이터의 정의

  • 데이터란 현실 세계로부터 관찰되거나 측정되어 수집된 사실 또는 값을 의미.
  • 의미 있는 정보를 가진 모든 값으로, 사람이나 자동기기가 생성 또는 처리하는 형태로 표시된 것.
  • 데이터는 현상이나 사실을 기술하거나 추론과 추정의 근거를 이루는 사실로 사용되고 있음.
  • 데이터를 어떻게 활용하는지에 따라 정보, 지식, 지혜로 구분.

... (이어서 정리)

Part 02. 빅데이터 탐색 [중요도 - ★★★]

1. 변수선택(Feature Selection)과 변수추출(Feature Extraction) 개념 (차원축소 유형)

구분

구분내용
변수선택- 변수선택은 관련이 없거나 중복되는 변수들을 필터링하고 간결한 하위집합(subset)을 생성하는 방법
변수추출- 변수추출은 기존 변수들의 조합으로 유용한 변수들을 새롭게 생성하는 과정

Part 02. 빅데이터 탐색 [중요도 - ★★]

1. 결측값의 유형

종류

종류특징과 예시
완전 무작위 결측(MCAR)- 다른 변수와 무관하게 발생한 결측값
무작위 결측 (MAR)- 결측값이 다른 변수와 연관이 있음
비무작위결측(NMAR)- 결측값이 다른 변수와 연관이 있음

2. 이상값의 측정 방법

  • ESD(Extreme Studentized Deviation) : 평균으로부터 표준편차*3 만큼 떨어진 값을 이상값으로 판단.
  • 기하평균활용 : 기하평균으로부터 표준편차*2.5만큼 떨어진 값을 이상값으로 판단.
  • 사분위수활용 : 제1사분위, 제3사분위를 기준으로 사분위 간 범위(Q3 – Q1)의 1.5배 이상 떨어진 값을 이상값으로 판단.
  • 데이터 시각화 : 히스토그램, 시계열 차트, 밀도차트, 상자그림 등.
  • 분석 기법 활용 : 비지도 학습, 마할라노비스 거리 활용, LOF, iFOREST.

... (이어서 정리)

Part 02. 빅데이터 탐색 [중요도 - ★]

1. 데이터 전처리

  • 정제 : 결측 데이터, 이상치 파악 및 제거하고 정합성이 맞도록 교정하는 작업.
  • 통합 : 여러 개의 데이터베이스, 데이터 집합 또는 파일을 통합하는 작업.
  • 축소 : 샘플링, 차원축소, 변수선택 및 추출을 통해 차원을 줄이는 방법.
  • 변환 : 데이터를 정규화, 이산화, 파생변수 등으로 변환하는 작업.

2. 파생변수와 요약변수 개념

구분

구분설명
파생변수- 기존 변수에 특정 조건 혹은 함수 등을 사용하여 새롭게 재정의한 변수를 의미.
요약변수- 구매금액, 구매횟수, 구매여부 등. 단순 데이터들을 종합한 변수라고 생각할 수 있음.

... (이어서 정리)

profile
존경하는 인물: 스토브리그 백승수 단장(남궁민)

0개의 댓글