내 마음대로 공간

 

시공간 데이터의 개념
공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터

시공간 데이터의 특징
이산적 변화, 연속적 변화

(중)시공간 데이터의 타입
두음 : 포라폴폴
포인트 타입, 라인 타입, 폴리곤 타입, 폴리라인 타입

시공간 데이터 탐색 절차
주소를 행정구역으로 변환->주소를 좌표계로 변환->행정구역 및 좌표계를 지도에 표시

위도 경도 변환
시공간 데이터의 주소를 이용하여 위도와 경도로 변환
지오 코딩 서비스를 이용하여 좌표계로 변환

행정구역 및 좌표계 표시 지도 유형
코로플레스 지도(범주형:다른색, 연속형:명도), 카토그램(데이터왜곡), 버블 플롯 맵

변량의 개념
조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 값

다변량 데이터 탐색 도구
두음 : 산별
산점도 행렬, 별그림

산점도 행렬
두 변수 간의 산점도를 행렬로 나타내 변수 간의 연관성을 표현한 그래프

변량 데이터의 탐색
일변량 데이터 탐색-기술 통계량, 그래프 통계량
이변량 데이터 탐색-상관분석, 회귀분석, 산점도 등
다변량 데이터 탐색-주성분 분석, 판별 분석, 산점도 행렬, 별 그림

비정형 데이터 개념
일정한 규격이나 형태를 지닌 숫자 데이터와 달리 이미지나 영상, 텍스트처럼 형태와 구조가
다른 구조화 되지 않은 데이터

(중) 비정형 데이터의 유형
텍스트, 이미지, XML, JSON, HTML

(중) 텍스트 탐색 방법
분석 목적 설정 및 데이터 수집->데이터 전처리 및 변환->텍스트 분류->텍스트 군집
->텍스트 요약->분석 결과 시각화 및 활용

텍스트 전처리
텍스트 전처리 과정은 텍스트 분석을 위해 문장 분리, 불필요한 문장 성분 제거하는 과정

데이터 전처리
비정형 데이터를 정형 데이터로 변환하는 작업
Text 레벨 전처리, Sentence 레벨 전처리, Token 레벨 전처리

데이터 변환
문서를 연속형의 실수 벡터로 표현할 수 있도록 변환하는 작업
Bag of Words 방식, TF-IDF 방식, 
차원 축소 작업-Feature Extraction, FetureSelection

(중)TF-IDF 기법
TF-IDF(Term Frequency-Inverse Document Frequency)는 정보 검색과 텍스트 마이닝에서
이용하는 가중치로, 여러 문서로 이루어진 문서 군이 있을 때 어떤 단어가 특정 문서 내에서
얼마나 중요한 것인지를 추출하는 기법

TF-IDF = TF*(1/DF)
TF: 문서 내 특정 단어 빈도수
DF: 여러 문서 내 특정 단어 빈도수
IDF: DF의 역수

텍스트 분류 
텍스트 분류는 임의의 텍스트(혹은 문서)를 미리 정의된 카테고리 혹은 클래스로 분류하는 기술
주제분류, 감성분석, 언어인지, 의도분석

텍스트 군집
텍스트의 특성을 분석하여 그 내용 혹은 형태가 유사한 텍스트들을 군집하는 기술
미리 정의된 카테고리 정보가 없으므로 비지도 학습에 해당

텍스트 요약
대상 텍스트가 가진 주요 의미를 유지하면서 텍스트 길이를 효과적으로 줄여 사용자들에게
짧고 간결하게 주요 정보를 제공하기 위한 기술

(중) 비정형 데이터 탐색 플랫폼 구성 예시
HDFS, 맵리듀스, 주키퍼, Avro, Hive, Pig, HCatalog

728x90

공유하기

facebook twitter kakaoTalk kakaostory naver band
loading