인공신경망의 개념 인공신경망은 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델 퍼셉트론 개념 퍼셉트론은 인간의 신경망에 있는 뉴런의 모델을 모방하여 입력층, 출력층으로 구성한 인공신경망 모델 퍼셉트론의 구성 요소 Input->가중치->전송함수,결합함수->활성화함수->Output ->->-> 퍼셉트론의 학습 과정 순 입력함수 값을 활성 함수의 임계값과 비교하여 예측값 1 또는 -1을 출력 활성 함수의 예측값이 실제 결과와 다를 경우 가중치를 업데이트하며, 위 과정을 반복하여 학습 역전파 알고리즘 역방향으로 가중치 갱신을 통해 오차를 최소화 시키도록 학습시키는 알고리즘 퍼셉트론의 구성요소 입력값, 가중치, 순 입력함수, 활성 함수, 예측값(출력값) 다층 퍼셉트론의 문제점 과대 ..
로지스틱 회귀분석 개념 - 로지스틱 회귀 분석(Logistic Regression Analysis)은 반응변수가 범주형인 경우 적용되는 회귀 분석 모형 - 새로운 설명변수의 값이 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 기준치에 따라 분류하는 목적 - 모형의 적합을 통해 추정된 확률을 사후 확률(Posterior Probability)로도 부른다. 로지스틱 회귀 분석 R 함수 glm(), cdplot(), step(), anova() 의사결정나무 개념 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고, 분할 기준 속성에 따라 트리 형태로 모델링 하는 분류 예측 모델 의사결정나무의 분석 과정 두음 : 성가타해 1. 의사결정 나무 성장 2. 가지치기 3. 타당성평가 4. 해석 및..
회귀 분석 개념 - 하나 이상의 독립 변수들이 종속 변수에 미치는 영향을 추정할 수 있는 통계기법 - 변수들 사이의 인과관계를 밝히고 모형을 적합(Fit)하여 관심 있는 변수를 예측하거나 추론하기 위한 분석 방법 회귀 분석 변수 영향을 주는 변수(x): 독립 변수, 설명 변수, 예측 변수 영향을 받는 변수(y): 종속 변수, 반응 변수, 결과 변수 회귀 모형 가정 두음 : 선독등비정 선형성, 독립성, 등분산성, 비상관성, 정상성 회귀 모형 가정 검증 단순선형 회귀분석 : 독립변수와 종속변수 간의 선형성 검증 다중선형 회귀분석 : 회귀 모형 가정인 선형성, 독립성, 등분산성, 비상관성, 정상성 모두 만족 하는지 검증 회귀 모형 검증 체크리스트 - 모형이 통계적으로 유의미한가? - 회귀계수들이 유의미한가? ..
분석모형 선정 분석 목적에 부합하고 수집된 데이터의 변수들을 고려하여 적합한 빅데이터 분석 모형을 선정 통계/데이터 마이닝/머신러닝 기반 분석 모델 기법 통계 기반 분석 모형 선정 두음 : 기상회 분주판 기술 통계, 상관 분석, 회귀 분석, 분산 분석(ANOVA), 주성분 분석, 판별 분석 (중)데이터마이닝 기반 분석 모형 선정 두음 : 분예군연 분류 모델, 예측 모델, 군집화 모델, 연관 규칙 모델 분류 모델의 개념 분류(Classification)는 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 것으로, 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 범주 중의 하나로 분류하는 모델 분류 모델의 개념 통계적 기법, 트리 기반 기법, 최적화 기법, 기계학습 예측 모델의 개념 범주형..
추론 통계의 개념 모집단의 표본을 가지고 모집단의 특성(모수)을 추론(추정)하고 그 결과의 신뢰성을 검정하는 것이다. 점 추정 개념 표본의 정보로부터 모집단의 모수를 하나의 값으로 추정하는 기법 표본 평균, 표본 분산, 중위수, 최빈값 등의 통계량 사용 점 추정 조건 두음 : 불효일충 불편성, 효율성, 일치성, 충족성 추정량과 추정치 추정량 : 모수의 추정을 위해서 구해진 통계량 추정치 : 추정량의 실제값 구간 추정 개념 추정값에 대한 신뢰도를 제시하면서 범위로 모수를 추정하는 기법 추정량의 분포에 대한 전제와 신뢰수준이 주어져야 함 구간 추정 용어 신뢰수준:추정값이 존재하는 구간에 모수가 포함될 확률 신뢰구간:신뢰수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위 가설 개념 모집단의 특성, 특히 모..
기술 통계 개념 데이터 분석의 목적으로 수집된 데이터를 확률 통계적으로 정리 요약하는 기초적인 통계 기초 통계량 중위수 : 모든 데이터 값을 크기 순서로 중앙에 위치한 데이터 값 최빈수 : 데이터 값 중 빈도수가 가장 높은 데이터 값 범위 : 최대 데이터값과 최소데이터값 차이 평균의 표준 오차 : 표본평균의 표본 추출 분포에 대한 표준 편차 첨도 데이터 분포의 뾰족한 정도를 설명하는 통계량 첨도값이 0이면 표준 정규 분포와 같음 첨도 = 0(정상분포), 첨도>0(첨용), 첨도0(우측긴꼬리), 왜도피어슨 상관 계수 명목적 데이터 변수 상관 분석->x2 검정량(카이제곱 검정량) 순서적 데이터 변수 상관 분석->스피어만 상관 계수 (중)회귀 분석 개념 하나 이상의 독립변수(X)들이 종속변수(Y)에 미치는 영향..
시공간 데이터의 개념 공간적 객체에 시간의 개념이 추가되어 시간에 따라 위치나 형상이 변하는 데이터 시공간 데이터의 특징 이산적 변화, 연속적 변화 (중)시공간 데이터의 타입 두음 : 포라폴폴 포인트 타입, 라인 타입, 폴리곤 타입, 폴리라인 타입 시공간 데이터 탐색 절차 주소를 행정구역으로 변환->주소를 좌표계로 변환->행정구역 및 좌표계를 지도에 표시 위도 경도 변환 시공간 데이터의 주소를 이용하여 위도와 경도로 변환 지오 코딩 서비스를 이용하여 좌표계로 변환 행정구역 및 좌표계 표시 지도 유형 코로플레스 지도(범주형:다른색, 연속형:명도), 카토그램(데이터왜곡), 버블 플롯 맵 변량의 개념 조사 대상의 특징, 성질을 숫자 또는 문자로 나타낸 값 다변량 데이터 탐색 도구 두음 : 산별 산점도 행렬, ..
탐색적 데이터 분석의 4가지 주제 두음 : 저잔재현 저항성, 잔차 해석, 자료 재표현, 현시성 개별 변수 탐색 방법 두음 : 범명순 수등비 범주형 데이터(질적 데이터) : 명목 척도, 순위 척도 수치형 데이터(양적 데이터) : 등간 척도, 비율 척도 상관관계 분석의 개념 두 개 이상의 변수 사이에 존재하는 상호 연관성의 존재 여부와 연관성의 강도를 측정하여 분석하는 방법 변수 사이의 상관관계의 종류 양의 상관관계, 음의 상관관계, 상관관계 없음 산점도, 공분산, 상관계수 공분산의 개념 공분산은 2개의 변수 사이의 상관 정도를 나타내는 값 분산 : 평균부터 얼만큼 떨어져 있는가 변수의 개수에 따른 분류 단순 상관 분석 : 두 개의 변수 사이의 상관성 분석 다중 상관 분석 : 세 개 이상의 변수 사이의 상관..
변수(Feature) 개념 데이터 모델에서 사용하는 예측을 수행하는데 사용되는 입력변수 변수 유형 인과관계-독립변수/종속변수 두음 : 범명순 수이연 범주형 : 범주형, 명목형, 순서형, 수치형 : 이산형, 연속형 (중) 변수 선택 기법 두음 : 필래임 필터기법, 래퍼기법, 임베디드기법 필터기법 특정 변수의 전체집합 -> 가장 적합한 하위 집합 선택 -> 알고리즘 학습 -> 성능 평가 변수 선택 기법(래퍼 기법) 특정 변수의 전체집합 -> (하위 집합 생성 -> 알고리즘 학습)여러번 후 가장 적합한 하위 집한 선택 -> 성능 평가 변수 선택 기법(래퍼 기법 유형) 두음 : 전후단 전진선택법, 후진제거법, 단계적 방법 변수 선택 기법(임베디드 기법) 특정 변수의 전체집합 -> (하위 집합 생성 -> 알고리즘..
데이터 전처리 데이터 분석 과정에서 데이터 전처리는 반드시 거쳐야 하는 과정 데이터 정제->결측값 처리-> 이상값 처리-> 분석 변수 처리 순서로 진행 데이터 정제 개념 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업 데이터 정제 절차 1. 데이터 오류 원인 분석 2. 데이터 정제 대상 선정 3. 데이터 정제 방법 결정 데이터 오류 원인 두음 : 결노이 결측값, 노이즈, 이상값 데이터 정제 방법 삭제, 대체, 예측값 삽입 데이터 정제 기법 두음 : 변파보 변환, 파싱, 보강 데이터 세분화 개념 데이터를 기준에 따라 나누고 선택한 매개변수를 기반으로 유사한 데이터를 그룹화 하여 효율적으로 사용할 수 있는 프로세스 데이터 세분화 방법 두음 : 계응분 비인케 계층적 방법 : 응집..
데이터 적재 및 저장 아키텍처 RDB저장소, NoSQL저장소, Object 저장소 데이터 적재 도구 플루언티드, 플럼, 스크라이브, 로그스태시 빅데이터 기반 소프트웨어 정의 두음 : 하인분시 하둡 도입 검토, 인 메모리 데이터베이스 도입 검토, 데이터 분석 플랫폼 적용 검토, 데이터 시각화 적용 검토 NoSQL의 유형 두음 : 키컬도그 Key-Value Store, Column Family Data Store, Document Store, Graph Store 분산 파일 시스템 컴퓨터 네트워크를 통해 공유하는 여러 호스트 컴퓨터의 파일에 접근할 수 있게 하는 파일 시스템 구글파일시스템(GFS), 하둡분산파일시스템(HDFS), 러스터 데이터베이스 클러스터 관계형 데이터베이스 관리 시스템으로 하나의ㅐ 데이터..
데이터 처리 기술 두음 : 필변정통축 데이터 필터링, 데이터 변환, 데이터 정제, 데이터 통합, 데이터 축소 데이터 수집 절차 두음 : 도목소유기계결실 수집 데이터 도출, 목록 작성, 데이터 소유기관파악/협의, 데이터 유형 분류/확인 수집 기술 선정, 수집 계획서 작성, 수집 주기 결정, 데이터 수집 실행 주요 용어 정리 SCM(Supply Chain Management) 공급망 부품 제공업자로부터 생산자, 배포자, 고객에 이르는 물류의 흐름을 하나의 가치사슬 관점에서 파악하고 필요한 정보가 원할히 흐르도록 지원하는 시스템 ERP(Enterprise Resource Planning) 회사의 모든 정보뿐만 아니라, 공급사슬관리, 고객의 주문정보까지 포함하여 통합적으로 관리하는 시스템 CRM(Customer..
빅데이터 분석 방법론 개념 빅데이터를 분석하기 위해 문제를 정의하고 답을 도출하기 위한 체계적인 절차와 처리방법 빅데이터 분석 방법론 계층 두음 : 단태스 단계, 태스크, 스텝 빅데이터 분석 방법론의 분석 절차 두음 : 기준 분시평 분석기획, 데이터 준비, 데이터 분석, 시스템 구현, 평가 및 전개 프로젝트 위험 대응 방법 두음 : 회전완수 회피, 전가, 완화, 수용 KDD 분석 방법론 개념 1996년 Fayyad가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론 (중)KDD 분석 방법론 절차 두음 : 선전변마평 데이터 세트 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 데이터 마이닝 결과 평가 (중) CRISP-DM 분석 방법론 개념 비즈니스의 이해를 바탕으..
분석 로드맵 개념 단개별로 추진하고자 하는 목표 선후행 단계를 고려해 단계별 추진내용을 정렬한 청사진 분석 문제 의미 분석-과제와 관련된 현상, 원인, 해결 방안에 대한 자료를 수집 및 분석하여 의사 결정에 활용하는 활동 문제-기대 상태와 현재 상태를 동일한 수준으로 맞추는 과제 과제-처리해야 할 문제 분석 과제 발굴 두음 : 하분상문 하루분량의 음식이 상해서 문제가 됨 하향식 접근 방식->분석과제가 정해져 있는 경우 상향식 접근 방식->문제 정의 자체가 어려운 경우 하향식 분석 과제 발굴 절차 두음 : 탐정해타선 탐정이 밝힌 해외 타살은 선장이 범인 문제 탐색, 문제 정의, 해결방안 탐색, 타당성 검토, 선택 상향식 접근 방식 특징 비지도 학습 방법 사용, 프로토타이핑 접근법 사용 대상별 분석 기획 유..
빅데이터 플랫폼 개념도 두음 : 수저분활 수집, 저장, 분석, 활용 빅데이터 플랫폼 데이터 형식 두음 : HXCJ HTML, XML, CSV, JSON 빅데이터 플랫폼 구축 소프트웨어 두음 : ROFHS R, Oozie, Flume, HBase, Sqoop 분산 컴퓨팅 환경 소프트웨어 두음 : 맵얀스파하 맵리듀스, 얀, 스파크, 하둡분산 파일 시스템, 하둡 인공지능 개념 : 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어 개인정보 관련 법령 두음 : 개망신위완 개인정보보호법, 정보통신망법, 신용정보법, 위치정보법, 안정성 확보조치 기준, 개인정보 비식별화 절차 두음 : 사비적사 사전검토, 비식별 조치, 적정성 평가, 사후 관리 데이터 3법 개..
1. 빅데이터 개요 및 활용 DIKW 피라미드 두음 : 데정식혜 : 데이터, 정보, 지식, 지혜 빅데이터 특징 두음 : 규다속신 가정휘 :규모, 다양성, 속도, 3V 가치, 4V 신뢰성, 5V 정확성, 휘발성 7V 빅데이터 유형 두음 : 정반비 정형데이터, 반 정형데이터, 비정형데이터 데이터 지식경영 상호작용 두음 : 암내공 형표연 암묵지 = 내면화, 공통화 형식지 = 표출화, 연결화 빅데이터 조직 구조 유형 두음 : 집기분 집중구조, 기능구조, 분산구조 조직 구조 설계 특성 두음 : 공분직통의 공식화, 분업화, 직무전문화, 통제범위, 의사소통 및 조정 BSC의 네가지 관점 두음 : 재고내학 재무,고객,내부프로세스,학습과성장 빅데이터 위기 요인 사생활 침해, 책임 원칙의 훼손, 데이터 오용 빅데이터 위기..
1. 분석 로드맵 설정 (1) 분석 로드맵 개념 - 단계별로 추진하고자 하는 목표를 명확히 정의하고, 선, 후행 단꼐를 고려해 단계별 추진내용을 정렬 (2) 분석 로드맵 단계 - 분석 로드맵 단계는 데이터 분석 체계 도입, 데이터 분석 유효성 검증, 데이터 분석 확산 및 고도화로 이루어짐 2. 분석 문제 정의 (1) 분석 문제의 의미 - 제약 조건을 파악하고, 잠재 원인을 진단하고 관련된 데이터를 수집, 가공, 분석하는 활동을 수행 (2) 하향식 접근 방식 ① 하향식 접근 방식(Top Down Approach) 개념 - 하향식 접근 방식은 분석 과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법 ② 하향식 접근 방식을 이용한 과제 발굴 절차 - 문제 탐색, 문제 정의, 해결방안 탐색..
1. 빅데이터 플랫폼 (1) 빅데이터 플랫폼(Bigdata Platform)의 개념 - 빅데이터에서 가치를 추출하기 위해 일련의 과정(수집->저장->처리->분석->시각화)을 규격화한 기술 (2) 빅데이터 플랫폼 구성요소 - 빅데이터 플랫폼은 크게 수집, 저장, 분석, 활용 단계로 구성 (3) 빅데이터 플랫폼 데이터 형식 - 빅데이터 플랫폼 데이터 형식은 대표적으로 HTML, XML, JSON, CSV가 있다. (4) 빅데이터 플랫폼 구축 소프트웨어 - 빅데이터 플랫폼 구축을 위한 주요 소프트웨어로는 R, 우지, 플럼, HBase, 스쿱이 있다. (5) 하둡 에코시스템(Hadoop Ecosystem) - 하둡 프레임워크를 이루고 있는 다양한 서브 프로젝트들의 모임 - 하둡 에코시스템은 수집, 저장, 처리 ..
빅데이터 개요 및 활용 빅데이터 특징 (1) 빅데이터(Big Data) 개념 - 빅데이터는 막대한 양(수십 테라바이트 이상)의 정형 및 비정형 데이터이다. DIKW 피라미드 피라미드 요소 설명 데이터(Data) - 객관적 사실로서 다른 데이터와의 상관관게가 없는 가공하기 전의 순수한 수치나 기호 정보(Information) - 가공 처리하여 데이터 간의 연관 관계와 함께 의미가 도출된 데이터 지식(Knowledge) - 획득된 다양한 정보를 구조화화여 유의미한 정보로 분류하고일반화시킨 결과물 - 정보에 기반해 찾아진 규칙 지혜(Wisdom) - 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 - 상황이나 맥락에 맞게 규칙을 적용하는 요소 (2) 빅데이터 특징 빅데이터는 전통적으로 3V(V..
빅데이터 분석기사 합격 기준 필기시험 합격 기준 과목당 100점 만점으로 1. 전과목 40점 이상 2. 전과목 평균 60점 이상 실기시험 합격 기준 100점 만점으로 60점 이상 (시험의 일부 과정을 응시하지 않은 경우 득점에 관계없이 불합격) 빅데이터 분석기사 출제 문항 과목별 주요 항목(필기) 필기과목명 문제수 주요항목 빅데이터 분석기획 20 빅데이터의 이해 데이터 분석 계획 데이터 수집 및 저장 계획 빅데이터 탐색 20 데이터 전처리 데이터 탐색 통계기법 이해 빅데이터 모델링 20 분석모형 설계 분석기법 적용 빅데이터 결과 해석 20 분석 모형 평가 및 개선 분석 결과 해석 및 활용 과목별 주요 항목(실기) 실기과목명 주요항목 빅데이터 분석실무 데이터 수집 작업 데이터 전처리 작업 데이터 모형 구축..
2020 정보처리기사 필기 3회를 원쿨에 그것도 꽤 넉넉하게 합격하여 2020 이전 정보처리기사 실기 시험은 쉬웠다는 소문도 있고 해서 합격률 5%? 15% 이런거에 별로 주눅들지 않고 건성 건성 공부 하였음.. 실기시험공부는 필기 시험과 마찬가지로 두목넷(www.dumok.net/) 으로 공부하였음 교재는 인터넷 강의에서 사용하는 교재인 수제비 2020 정보처리기사 실기 를 보고 공부하였음 개인적으로 필기는 두목넷을 추천하지만 실기는 두목넷을 그렇게 추천하지 않음.. 인터넷 강의로 공부하려면 개인적으로는 다른거를 더 추천함 그나마 장점이 있다면 실기 대비 모의고사 12회분을 제공해줘서 문제를 거의 외우는 수준으로 12회분 문제 싹다 풀고 틀린거는 다시 풀고를 계속 반복 하면서 외웠음 이 문제로는 조금 ..
2020 정보처리기사 필기 합격 후기 작성합니다.. 2016 대학교 졸업하고 학부 때는 각종 공모전 참가하고.. 취직 후에는 귀차니즘으로 따지 않고 있었음.. 그러다가 2020 초.. 정보처리기사 시험이 개편되면서 엄청 어려워 졌다는 소식을 듣고 급히 공부를 시작하게 됨.. 2020년 1회 실기 시험 결과를 보면 고시 수준으로 5%대 합격률을 볼수가 있음.. 필기 시험 준비는 두목넷(www.dumok.net) 두목넷 컴퓨터, 회계, 재경 자격증 합격의 모든것 두목넷 www.dumok.net 에서 인터넷 강의를 들으며 진행하였슴.. 필기 시험 같은 경우에는 2020년 이전 시험과 다르게 문제만 외우기 보다는 문제 기출 문제가 많이 없는 관계로 이론부터 인터넷 강의 들으면서 3주? 정도 하루에 1~2시간 많..
1. 모듈화 자스제외공내 자료-스탬프-제어-외부-공통-내용 2. 캡슐화 우논시절통순 우연적-논리적-시간적-절차적-통신적-순차적 트랜잭션 원자성, 일관성, 독립성, 지속성 3. 정규화 암기 두부이걸다줘 도부이결다조 도메인이 원자값 부분 함수 종속 제거 이행 함수 종속 제거 결정자이면서 후보키가 아닌것 제거 다치 종속 제거 조인 종속성 이용 트랜잭션 원자성, 일관성, 독립성, 지속성 4. 블랙박스테스트 소프트웨어의 내부구조나 작동 원리를 모르는 상태에서 동작을 검사하는 방식 동등분할 경계값분석 오류예측 원인결과그래프 의사결정테이블테스팅 상태전이테스팅 5. 화이트박스테스트 소프트웨어 내부 소스코드를 테스트하는 기법 제어흐름테스트 데이터흐름테스트 분기테스트 경로테스트 6. 프레임워크 특징 모듈화 재사용성 확장성..