변수(Feature) 개념
데이터 모델에서 사용하는 예측을 수행하는데 사용되는 입력변수
변수 유형
인과관계-독립변수/종속변수
두음 : 범명순 수이연
범주형 : 범주형, 명목형, 순서형,
수치형 : 이산형, 연속형
(중) 변수 선택 기법
두음 : 필래임
필터기법, 래퍼기법, 임베디드기법
필터기법
특정 변수의 전체집합 -> 가장 적합한 하위 집합 선택 -> 알고리즘 학습 -> 성능 평가
변수 선택 기법(래퍼 기법)
특정 변수의 전체집합 -> (하위 집합 생성 -> 알고리즘 학습)여러번 후 가장 적합한 하위 집한 선택
-> 성능 평가
변수 선택 기법(래퍼 기법 유형)
두음 : 전후단
전진선택법, 후진제거법, 단계적 방법
변수 선택 기법(임베디드 기법)
특정 변수의 전체집합 -> (하위 집합 생성 -> 알고리즘 학습 -> 성능 평가)여러번 후 가장 적합한 하위 집한 선택
차원 축소 개념
차원 축소는 분석대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석기법
차원 축소 기법
두음 : PS요IM
PCA(주성분분석), SVD(특이값분해), 요인분석, ICA(독립성분분석), MDS(다차원척도법)
파생변수 개념
기존 변수에 특정 조건 혹은 함수 등을 사용하여 새롭게 재정의한 변수
파생변수 생성 방법
단위 변환, 표현형식 변환, 요약 통계량 변환, 변수 결합
변수 변환 개념
분석을 위해 불필요한 변수를 제거하고, 변수를 반환하며, 새로운 변수를 생성시키는 작업
변수 변환 유형
두음 : 기비정표
단순기능변환, 비닝, 정규화, 표준화
불균형 데이터 처리
탐색하는 타깃 데이터의 수가 매우 극소수인 경우 불균형 데이터 처리를 한다.
불균형 데이터 처리 기법
두음 : 언오임앙
언더샘플링, 오버샘플링, 임계값이동, 앙상블기법