기술 통계 개념
데이터 분석의 목적으로 수집된 데이터를 확률 통계적으로 정리 요약하는 기초적인 통계
기초 통계량
중위수 : 모든 데이터 값을 크기 순서로 중앙에 위치한 데이터 값
최빈수 : 데이터 값 중 빈도수가 가장 높은 데이터 값
범위 : 최대 데이터값과 최소데이터값 차이
평균의 표준 오차 : 표본평균의 표본 추출 분포에 대한 표준 편차
첨도
데이터 분포의 뾰족한 정도를 설명하는 통계량
첨도값이 0이면 표준 정규 분포와 같음
첨도 = 0(정상분포), 첨도>0(첨용), 첨도<0(평용)
왜도
데이터 분포의 '기울어진 정도'를 설명하는 통계량
비대칭성을 나타내는 통계량
왜도 =0(좌우대칭), 왜도>0(우측긴꼬리), 왜도<0(좌측긴꼬리)
상관 분석개념
두 개 이상의 변수 간 연관성의 정도 측정하여 분석하는 방법
단순상관분석 : 두 변수 사이의 연관 정보를 알아내는 분석
다중 상관 분석 : 셋 또는 그 이상의 변수들 사이의 연관 정도를 분석
상관분석 방법 종류
수치적 데이터 변수 상관 분석->피어슨 상관 계수
명목적 데이터 변수 상관 분석->x2 검정량(카이제곱 검정량)
순서적 데이터 변수 상관 분석->스피어만 상관 계수
(중)회귀 분석 개념
하나 이상의 독립변수(X)들이 종속변수(Y)에 미치는 영향을 추정할 수 있는 통계기법
독립변수와 종속변수의 개수 및 형태에 따라서 다양한 세부 모델들로 분류
회귀분석 모형 종류
단순 회귀 모형 : 독립 변수 종속변수 1개씩
다중 회귀 모형 : 2개 이상의 독립 변수, 1개의 수치형 종속 변수
(중)회귀분석 결과 적합성 평가 전제조건
두음 : 선등독비정
선형성, 등분산성, 독립성, 비상관성, 정규성
(중) 독립변수 선택 방법
두음 : 후전단
후진 제거법, 전진 선택법, 단계적 방법
분산 분석 개념
두 개 이상의 집단 간 비교, 집단 내의 분산, F-분포를 이용하여 가설검정을 수행하는 방법(=ANOVA)
(중)주성분 분석 개념
많은 변수의 분산방식을 간결하게 표현하는 주성분 변수를 원래 변수의 선형 결합으로
추출하는 통계기법(=PCA)
표본 추출 기법
두음 : 단계층군
단순 무작위 추출, 계통 추출, 층화 추출, 군집 추출(집락 추출)
자료 측정 척도
두음 : 명순구비
질적 속성 - 명목 척도, 순서 척도
양적 속성 - 구간 척도, 비율 척도
확률 분포 개념
확률 변수가 특정한 값을 가질 확률을 나타내는 분포
확률분포 종류
이산 확률 분포 : 이산확률변수가 가지는 확률분포
연속 확률 분포 : 연속확률변수가 가지는 확률분포
이산확률분포 종류
두음 : 포베이
포아송 분포, 베르누이 분포, 이항분포
(중)연속확률분포 종류
두음 : 연정제 티카에
정규분포, Z-분포, T-분포, x2 분포(자이제곱 분포), F분포
표본 분포 개념
모집단에서 추출한 크기가 일정한(n개) 표본이 가지는 추정량의 확률 분포
표본 분포 용어
모집단, 모수, 통계량, 추정량, 표준 편차, 표준 오차
표본 조사 용어
표본오차, 비표본오차, 표본편의
표본 본푸와 관련된 법칙
큰 수의 법칙, 중심 극한 정리
표본 분표 유형
Z-분포, T-분포, 카이제곱 분포, F-분포