ADsP-데이타분석 요약 정리
제4과목 데이터 분석
1. R기초와 데이터 마트
1.1 R 기초
1.2 데이터 마트(패키지 4개) - reshape, sqldf, plyr, data.table
1.3 결측값 처리와 이상값 검색 – NA(Not Avariable), NaN(Not a Number), Outlier
2. 통계 분석
2.1 통계학 개론
– 모집단/표본(sample), 표본 추출방법(4): 단순랜던/계통추출/집락추출/층화추출법
- 자료의 종류(4): 질적자료(명목척도, 순서척도), 양적자료(구간척도, 비율척도)
2.2 기초 통계 분석
- 확률 변수(2): 이산형/연속형 확률변수
- 점추정/구간측정
- 가설검정(2): 귀무가설(H0), 대립가설(H1), 기각역, p-value
- 모집단의 모수 검정(2): 모수검정/비모수검정(순위, 부호검정)
- 기술 통계/추측통계(추정, 가설검정, 예측)
- 기술 통계: 표본평균, 중앙값, 표준편차, 중위수, 최빈값, 사분위값, 그래프(막대그래프, 원그래프, 꺽은선 그래프, 챠트)
- 회귀 분석: 단순회귀분석/중회귀분석
2.3 다변량 분석
- 상관 분석: 상관계수(피어슨의 상관계수/스피어만 상관계수)
- 다차원 척도법
- 주성분 분석
2.4 시계열 예측
- 정상성
- 시계열 모형: AR, MA, ARIMA모형, 분해시계열(추세요인/계절요인/순환요인/불규칙요인)
3. 정형 데이터 마이닝
3.1 데이터 마이닝 개요
- 추정/예측/연관분석/군집/기술
- 지도학습(Supervise Learning): 목적변수가 존재, 로지스틱회귀모형/의사결정나무/인공신경망/사례기반분석
- 비지도학습Unspervise Learning): 목적변수가 존재하지 않음, 군집분석/연관분석
3.2 분류 분석(4) ⇒ 지도학습
- 로지스틱 회귀모형, 신경망모형(ANN), 의사결정나무모형(카이제곱,지니지수,엔트로피지수),
앙상블모형(배깅/부스팅/랜덤포레스트)
- 모형 평가
-- 훈련용/검증용 자료 추출 방법(3): 홀드아웃방법/교차검증/붓스트랩방법
-- 평가지표: 오분류표(민감도, 특이도, 정확도, 재현율, F1), ROC 그래프, 이익도표와 향상도 곡선
3.3 군집 분석 ⇒ 비지도학습
- 계층적 군집(병합방법: 최단/최장/중심/평균/와드연결법, 거리측정방법: 유클리드거리/맨하튼거리 등)
- k-평균 군집
- 혼합 분포 군집
- SOM(Sef-Organizing Maps): 비지도 신경망
3.4 연관 분석(장바구니 분석) ⇒ 비지도학습
- 연관 분석 측정 지표: 지지도, 신뢰도, 향상도(≥1)