탐색적 데이터 분석의 4가지 주제
두음 : 저잔재현
저항성, 잔차 해석, 자료 재표현, 현시성
개별 변수 탐색 방법
두음 : 범명순 수등비
범주형 데이터(질적 데이터) : 명목 척도, 순위 척도
수치형 데이터(양적 데이터) : 등간 척도, 비율 척도
상관관계 분석의 개념
두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를
측정하여 분석하는 방법
변수 사이의 상관관계의 종류
양의 상관관계, 음의 상관관계, 상관관계 없음
산점도, 공분산, 상관계수
공분산의 개념
공분산은 2개의 변수 사이의 상관 정도를 나타내는 값
분산 : 평균부터 얼만큼 떨어져 있는가
변수의 개수에 따른 분류
단순 상관 분석 : 두 개의 변수 사이의 상관성 분석
다중 상관 분석 : 세 개 이상의 변수 사이의 상관성 분석
변수의 속성에 따른 분류
두음 : 수피순스명카
수치적데이터-피어슨상관계수, 순서적데이터-스피어만 순위 상관 분석,
명목적 데이터-카이제곱 검정
상관계수
-수학적 관계, 속성의 관계
-선형관계의 측도
-자료 초기
중심경향성통계량
평균(Mean), 중위수(Median), 최빈값(Mode)
산포도통계량
범위, 분산, 표준편차, 변동계수(표준편차/평균), 사분위 수 범위
데이터분포를 나타내는 통계량
왜도, 첨도
(중) 데이터 탐색 시각화 도구
두음 : 히막박산
히스토그램, 막대형그래프, 박스플롯, 산점도
히스토그램
자료 분포의 형태를 직사각형 형태로 시각화하여 보여주는 그래프
자료를 일정한구간으로 나누고 그 구간 안에서 나타나는 데이터의 빈도수를 나타내는 그래프
막대형 그래프
여러 가지 항목들에 대한 많고 적음을 비교하기 쉽도록 수량을 막대의 길이로 표현하는 그래프
(중) 박스 플롯 개념
많은 데이터의 그림을 이용하여 집합의 범위와 중앙값을 빠르게 확인할 수 있으며, 또한 통계적으로
이상값이 있는지 빠르게 확인이 가능한 시각화 기법
(중) 박스 플롯의 구성 요소
하위 경계, 최솟값, 제1 사분위(Q1), 제2 사분위(Q2:중위수), 제3 사분위(Q3), 최댓값,
상위 경계, 수염(Whiskers), 이상값(Qutlier)
(중) 산점도 개념
가로축과 세로축의 좌표평면상에서 각각의 관찰점들을 표시하는 시각화 방법
2개의 연속형 변수 간의 관계를 보기 위하여 사용