1. 빅데이터 플랫폼
(1) 빅데이터 플랫폼(Bigdata Platform)의 개념
- 빅데이터에서 가치를 추출하기 위해 일련의 과정(수집->저장->처리->분석->시각화)을 규격화한 기술
(2) 빅데이터 플랫폼 구성요소
- 빅데이터 플랫폼은 크게 수집, 저장, 분석, 활용 단계로 구성
(3) 빅데이터 플랫폼 데이터 형식
- 빅데이터 플랫폼 데이터 형식은 대표적으로 HTML, XML, JSON, CSV가 있다.
(4) 빅데이터 플랫폼 구축 소프트웨어
- 빅데이터 플랫폼 구축을 위한 주요 소프트웨어로는 R, 우지, 플럼, HBase, 스쿱이 있다.
(5) 하둡 에코시스템(Hadoop Ecosystem)
- 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임
- 하둡 에코시스템은 수집, 저장, 처리 기술과 분석, 실시간 및 시각화를 위한 기술로 구분
① 하둡 에코 시스템의 수집, 저장 처리 기술
비정형 데이터 수집 : 척와, 플럼, 스크라이브
정형 데이터 수집 : 스쿱, 히호
분산 데이터 저장 : HDFS
분산 데이터 처리 : 맵리듀스
분산 데이터베이스 : HBase
② 하둡 에코 시스템의 데이터 가공 및 분석, 관리의 주요 기술
데이터 가공 : 피그, 하이브
데이터마이닝 : 머하웃
실시간 SQL 질의 : 임팔라
워크플로우 관리 : 우지
분산코드네이션 : 주키퍼
2. 빅데이터와 인공지능
(1) 빅데이터 플랫폼(Bigdata Platform)의 개념
- 인공지능이란 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어
(2) 빅데이터와 인공지능의 관계
- 1950년에 등장한 인공지능을 최신 트렌드로 끌고 온 것은 '빅데이터'의 존재
- 인공지능의 암흑기를 지나 빅데이터를 통해 자체 알고리즘을 가지고 학습하는 딥러닝 기술로 특정 분야에서 인간의 지능을 뛰어넘는 능력을 갖추게 되었다.
(3) 빅데이터와 인공지능의 전망
- 빅데이터가 인공지능 목표와 부합하고, 인공지능 판단을 위해서는 빅데이터와 같은 기술이 필수이므로, 빅데이터는 인공지능을 위한 기술이 될 가능성이 크다.
3. 개인정보보호법, 제도
(1) 개인정보보호의 개념
- 개인정보보호는 정보 주체(개인)의 개인정보 자기 결정권을 철저히 보장하는 활동을 의미한다.
(2) 개인정보보호의 필요성
- 개인정보는 정보사회의 핵심 인프라로 유출 시 피해가 심각하여 개인정보보호의 필요성이 존재한다.
(3) 빅데이터 개인정보보호 가이드라인
- 한국 방송통신위원회, 한국 인터넷진흥원에서 제정한 <빅데이터 개인정보보호 가이드라인>의 주요 내용을 참고한다.
(4) 개인정보보호 관련 법령
- 개인정보 보호법, 정보통신망법, 신용정보법 등의 개인정보보호 관련 법령이 존재한다.
(5) 개인정보보호 내규
- 법령에는 시행령, 시행 규칙 등이 정의되며, 이를 바탕으로 데이터 수집을 위한 내규가 재정된다.
4. 개인정보 활용
(1) 개인정보 비식별화 개념
- 데이터값 삭제, 가명처리, 총계처리, 범주화, 데이터 마스킹 등을 통해 개인정보의 일부 또는 전부를 삭제하거나 대체함으로써 다른 정보와 쉽게 결합하여도 특정 개인을 식별할 수 없도록 하는 조치를 말한다.
(2) 개인정보 비식별화 절차
- 개인정보 비식별화는 사전검토, 비식별 조치, 적정성 평가, 사후관리 절차로 이루어진다.
(3) 개인정보 비식별 조치 방법
- 개인정보 비식별 조치 방법은 가명처리, 총계처리, 데이터 삭제, 데이터 범주화, 데이터 마스킹 등이 있다.
(4) 재식별 가능성 모니터링
- 재식별 기능 모니터링 점검 항목
내부 요인의 변화, 외부 환경의 변화