ADsP-데이타분석 요약 정리

 

4과목 데이터 분석

 

1. R기초와 데이터 마트

 

1.1 R 기초

1.2 데이터 마트(패키지 4) - reshape, sqldf, plyr, data.table

1.3 결측값 처리와 이상값 검색 NA(Not Avariable), NaN(Not a Number), Outlier

 

2. 통계 분석

 

2.1 통계학 개론

모집단/표본(sample), 표본 추출방법(4): 단순랜던/계통추출/집락추출/층화추출법

- 자료의 종류(4): 질적자료(명목척도, 순서척도), 양적자료(구간척도, 비율척도)

 

2.2 기초 통계 분석

- 확률 변수(2): 이산형/연속형 확률변수

- 점추정/구간측정

- 가설검정(2): 귀무가설(H0), 대립가설(H1), 기각역, p-value

- 모집단의 모수 검정(2): 모수검정/비모수검정(순위, 부호검정)

- 기술 통계/추측통계(추정, 가설검정, 예측)

- 기술 통계: 표본평균, 중앙값, 표준편차, 중위수, 최빈값, 사분위값, 그래프(막대그래프, 원그래프, 꺽은선 그래프, 챠트)

- 회귀 분석: 단순회귀분석/중회귀분석

 

2.3 다변량 분석

- 상관 분석: 상관계수(피어슨의 상관계수/스피어만 상관계수)

- 다차원 척도법

- 주성분 분석

 

2.4 시계열 예측

- 정상성

- 시계열 모형: AR, MA, ARIMA모형, 분해시계열(추세요인/계절요인/순환요인/불규칙요인)

 

 

3. 정형 데이터 마이닝

 

3.1 데이터 마이닝 개요

- 추정/예측/연관분석/군집/기술

- 지도학습(Supervise Learning): 목적변수가 존재, 로지스틱회귀모형/의사결정나무/인공신경망/사례기반분석

- 비지도학습Unspervise Learning): 목적변수가 존재하지 않음, 군집분석/연관분석

 

3.2 분류 분석(4) 지도학습

- 로지스틱 회귀모형, 신경망모형(ANN), 의사결정나무모형(카이제곱,지니지수,엔트로피지수),

앙상블모형(배깅/부스팅/랜덤포레스트)

- 모형 평가

-- 훈련용/검증용 자료 추출 방법(3): 홀드아웃방법/교차검증/붓스트랩방법

-- 평가지표: 오분류표(민감도, 특이도, 정확도, 재현율, F1), ROC 그래프, 이익도표와 향상도 곡선

 

3.3 군집 분석 비지도학습

- 계층적 군집(병합방법: 최단/최장/중심/평균/와드연결법, 거리측정방법: 유클리드거리/맨하튼거리 등)

- k-평균 군집

- 혼합 분포 군집

- SOM(Sef-Organizing Maps): 비지도 신경망

 

3.4 연관 분석(장바구니 분석) 비지도학습

- 연관 분석 측정 지표: 지지도, 신뢰도, 향상도(1)

posted by swgooddream
: