분석모형 선정
분석 목적에 부합하고 수집된 데이터의 변수들을 고려하여 적합한 빅데이터 분석 모형을 선정
통계/데이터 마이닝/머신러닝 기반 분석 모델 기법
통계 기반 분석 모형 선정
두음 : 기상회 분주판
기술 통계, 상관 분석, 회귀 분석, 분산 분석(ANOVA), 주성분 분석, 판별 분석
(중)데이터마이닝 기반 분석 모형 선정
두음 : 분예군연
분류 모델, 예측 모델, 군집화 모델, 연관 규칙 모델
분류 모델의 개념
분류(Classification)는 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 것으로, 다수의 속성
혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 범주 중의 하나로 분류하는 모델
분류 모델의 개념
통계적 기법, 트리 기반 기법, 최적화 기법, 기계학습
예측 모델의 개념
범주형 및 수치형 등의 과거 데이터로부터 특성을 분석하여 다른 데이터의 결괏값을 예측하는 모델
예측 방법의 종류
두음 : 회의시인
회귀분석, 의사결정나무, 시계열분석, 인공신경망
군집화 모델의 개념
이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 모델
군집화 방법
계층적 방법 : 응집 분석법, 분할 분석법
비 계층적 방법 : K 평균 군집화
연관규칙 모델
데이터에 숨어있으면서 동시에 발생하는 사건 혹은 항목 간의 규칙을 수치화하는 모델
장바구니 분석이라고도 불리며 주로 마케팅에서 활용
머신러닝 기반 분석 모형 선정
두음 : 지비강준
지도학습, 비지도학습, 강화학습, 준지도학습
지도 학습의 개념
정답인 레이블(Label)이 포함되어 있는 학습 데이터를 통해 컴퓨터를 학습시키는 방법
지도 학습의 유형
두음 : 로인의 서랜감
로지스틱 회귀, 인공신경망 분석, 의사결정나무, 서포트 벡터 머신, 랜덤 포레스트, 감성 분석
비지도 학습
입력 데이터에 대한 정답인 레이블(Label)이 없는 상태에서 데이터가 어떻게 구성되었는지를 알아내는 기계 학습 기법
비지도 학습의 유형
군집화, 차원 축소 기법, 장바구니 분석, 자기조직화 지도 등
변수에 따른 분석기법 선정
변수의 유형 및 개수를 확인하는 단계로 이에 따른 모델을 검토
단일변수 분석, 이변수 분석, 다변수 분석
데이터 유형에 따른 분석기법
독립변수와 종속변수가 주어져 있는 경우에는 이들을 이용하여 주어진 독립변수에 대한 종속변수의
값을 예측, 분류하는 분석 모델을 개발
분석 모형 정의
분석 모형을 선정하고 모형에 적합한 변수를 선택하여 모형의 사양을 작성하는 기법
모델에 적합한 변수를 선택하기 위해 파라미터와 하이퍼 파라미터를 선정
파라미터, 하이퍼 파라미터
분석 모형 정의 시 고려사항
분석 대상인 데이터에 비해 모델이 너무 간단하면 과소적합이 발생
모델을 너무 복잡하게 선택하면 과대적합이 발생하므로 적절한 모델을 사용
분석 모형 구축 절차
두음 : 요모검적
요건 정의, 모델링, 검증 및 테스트, 적용
요건 정의
기획단계의 분석과제 정의를 통해 도출된 내용을 요건 정의로 구체화하는 과정
요건정의 세부 절차
분석요건 도출, 수행방안 설계, 요건 확정
모델링
요건 정의에 따라 상세분석기법을 적용해 모델을 개발하는 과정
모델링 세부 절차
두음 : 마탐모성
모델링 마트 설계 및 구축, 탐색적 분석과 유의 변수 도출, 모델링, 모델링 성능 평가
검증 및 테스트
분석용 데이터를 학습용과 테스트용으로 분리한 다음 분석용 데이터를 자체 검증 후 실제 테스트에
서는 신규 데이터 모델을 적용해 결과를 도출하는 단계
검증 및 테스트 절차
운영 상황에서 실제 테스트, 비즈니스 영향도 평가
적용
분석결과를 업무 프로세스에 완전히 통합해 실제 일, 주, 월 단위로 운영하는 단계
적용 단계 세부 절차
운영 시스템에 적용과 자동화, 주기적 리모델링