'ADP'에 해당되는 글 6건
- 2018.12.04 :: python study
- 2018.12.04 :: konlpy 설치과정과 konlpy를 이용한 워드클라우드 그리기
- 2018.11.17 :: 분석기법과 R 패키지
- 2018.11.16 :: ADsP-데이타분석 요약 정리
- 2018.11.10 :: 파이썬 한글 시각화 konlpy 패키지 환경설정
- 2018.08.12 :: 스크래치X 사용하기(환결설정)
python study
<파이썬>
https://www.youtube.com/playlist?list=PLGPF8gvWLYyrkF85itdBHaOLSVbtdzBww
konlpy 설치과정과 konlpy를 이용한 워드클라우드 그리기
* konlpy 설치 과정
참고사이트 – https://konlpy-ko.readthedocs.io/ko/v0.4.3/install/
1. 패키지 설치하기
(1) wordcloud 모듈 사용 시 설치
pip install konlpy pip install wordcloud pip install PIL
pip matplotlib
(2) pytagcloud 모듈 사용 시 추가 설치
pip install re pip install simplejson pip install numpy
pip install Twitter pip install Counter pip install pandas
2. 자바 설치하기
(1) Java 1.7+이상 설치
- https://www.oracle.com/technetwork/java/javase/downloads/index.html
(2) 시스템 환경변수 PATH에 JAVA_HOME 설정하기
- JDK가 정상적으로 동작하기 위하여 JAVA_HOME 경로(Path)를 설정한다.
- 탐색기의 “내 컴퓨터”를 선택한 후 오른쪽 마우스를 눌러 “속성”을 선택한다.
- [고급 시스템 설정]-> [고급]-> [환경변수]를 선택한다.
- [시스템 변수]영역의 [새로 만들기]를 선택한 후 변수 이름이 “JAVA_HOME”을 기입하고,
변수값 부분에 JDK가 설치되어있는 경로를 입력한다.
3. Jype1 설치하기
(1) 시스템에 맞는 whl 다운받기
- https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype
- cmd 창에서 python 명령으로 파이썬을 실행하여 컴퓨터 정보를 확인하여 현재 컴퓨터에 맞는 whl 선택 가능
(2) JPype1-0.6.3-cp36-cp36m-win_amd64.whl
- 주의사항 : 다운로드는 인터넷 익스플로어를 이용한다.
- 다운 받은 파일은 반드시 파이썬(python.exe)이 설치된 디렉토리에 붙여넣어야 한다.
(예) C: \ProgramData \Anaconda3
(3) whl 설치
- pip install JPype1-0.6.3-cp36-cp36m-win_amd64.whl
- 반드시 파이썬(python.exe)이 설치된 디렉토리로 이동하여 설치하여야 한다.
(4) Jype1 설치
- pip install JPype1
- 반드시 파이썬(python.exe)이 설치된 디렉토리로 이동하여 설치하여야 한다.
4. Microsoft visual c++ 2015 redistributable update 3 설치하기 – 64bit
https://www.microsoft.com/ko-kr/download/confirmation.aspx?id=53587
컴퓨터 재부팅 필요
5. konlpy 설치 : pip install konlpy
* nltk, konlpy를 이용한 워드 클라우드
[분석기법과 R 패키지]
(1) reshape – melt(), cast()
- aqm= melt(airquality, id=c(“month”, “day”), na.rm=TRUE)
- a <- cast(aqm, day ~ month ~ variable)
(2) sqldf 패키지
- sqldf(“select * from iris where Species like ‘se%’ ”)
(3) plyr 패키지
- ddply(d, “year”, summarise, mean.count=mean(count))
(4) data.talble 패키지
- DF= data.table(x=c(‘b’, ‘b’, ‘b’, ‘a’, ‘a’), v=rnorm(5))
(5) 결측값(NA) 처리
– is.na(y), Amlia 패키지, complete.cases() 함수로 결측값 삭제
(6) 이상값 검색
– boxplot(x), outwidth = boxplot(x), outlier 패키지의 outlier(y)
(7) 확률 분포별 난수 발생 함수
- 정규분포 – rnorm()
- t분포 – rt()
- F분포 – rf()
- 연속 균등 분포 – runif()
(8) 회귀 분석 – lm()
- 전진선택법 – step(lm(종속변수 ~ ., ..., direction=“forward”)
- 후진선택법 – step(lm(종속변수 ~ ., ..., direction=“backward”)
- 단계적방법 – step(lm(종속변수 ~ ., ..., direction=“both”)
(9) 상관 계수 – corr(), 공분산 – cov()
- 피어슨 상관계수 – rcorr(as.matrix(mtcars), type=“pearson”)
- 스피어만 상관계수 – rcorr(as.matrix(test), type=“spearman”)
(10) 다차원 척도법(MDS) - cmdscale()
(11) 주성분 분석(PCA) - princomp(USArrests, cor=TRUE)
(12) 시계열 예측
- ARIMA 모형 – arima(Nile, order=c(1,1,1))
- 분해시계열 – decompose(ldeaths)
(13) 로지스틱 회귀모형
– a <- glm(Species~Sepal.Length, data=a, family=binomial)
(14) 새로운 자료 예측
- predict()
(15) 신경망 모형
- {nnet} 패키지
nn.iris <- nnet(Species~., data=iris, size=2, rang=0.1, ...)
- {neuralnet} 패키지
infert <- neuralnet(case~., data=infert, hidden=2,
err.fct=“ce”, linear.output=FALSE, likelihooe=TRUE)
(16) 의사결정 나무
- {rpart} 패키지의 rpart() 함수
c <- rpart(Species~., data=iris)
- 예측
predict(c, newdata=iris, type=“class”)
- {party}의 ctree() 함수
tree <- ctree(ploidy~., data=trainData)
- 예측
predict(tree, newdata=testData)
(17) 앙상블 모형
① 배깅(bagging) : {adabag} 패키지의 bagging() 함수
- iris.bagging <- bagging(Species~., data=iris, mfinal=10)
② 부스팅(boosting) : {adabag} 패키지의 boosting() 함수
- boo.adabag <- boosting(Species~., data=iris, boos=TRUE, mfinal=10)
③ 랜덤 포레스트
- rf <- randomForest(ploidy~., data=trainData, ntree=100, proximity=TRUE)
(18) 오분류표 : {caret} 패키지의 confusionMatrix() 함수
- nn_con <- confusionMatrix(nn_pred, testData$Species)
(19) ROC 그래프 : {Epi} 패키지의 ROC() 함수
- nn_ROC <- ROC(form=case~net_pred, data=testData, plot=“ROC”)
(20) 이익도표
- n_lift <- performance(n_r, “lift”, “rpp”)
(21) 군집 분석
- 병합적 방법 : hclust(), {cluster} 패키지의 agnes(), mclust()
-- 거리 지정 : dist() 함수, method=“옵션”
-- 병합 방법 지정 : hclust() 함수, method=“옵션”
d <- dist(USArrests, method=“euclidean”)
fit <- hclust(d, method=“ave”)
- 분할적 방법 : {cluster} 패키지의 diana(), mona()
(22) k-평균 군집 : kmeans() 함수
- 군집분석 하기 전에 scale() 함수로 표준화 수행
- 적절한 군집 수 정하기 위해 wssplot() 함수 수행
- fit.km <- kmeans(df, 3, nstart=25)
(25) SOM : {kohonen} 패키지 som() 함수
(26) 연관 분석 : {arules} 패키지의 apriori() 함수
- adult.rules <- apriori(Adult,
parameter=list(support=0.1, confidence=0.6),
appearance = list(rhs=c(‘income==small’, ‘income=large’),
default=’lhs’),
control=list(verbose=F))
- adult.rules.sorted <- sort(adult_rules, by=’lift’)
'ADsP(데이타분석준분석가) > ADsP 자격증(국가공인)' 카테고리의 다른 글
| ADsP(데이타분석준전문가)자격증(국가공인) 취득 노하우 (0) | 2018.07.25 |
|---|
ADsP-데이타분석 요약 정리
제4과목 데이터 분석
1. R기초와 데이터 마트
1.1 R 기초
1.2 데이터 마트(패키지 4개) - reshape, sqldf, plyr, data.table
1.3 결측값 처리와 이상값 검색 – NA(Not Avariable), NaN(Not a Number), Outlier
2. 통계 분석
2.1 통계학 개론
– 모집단/표본(sample), 표본 추출방법(4): 단순랜던/계통추출/집락추출/층화추출법
- 자료의 종류(4): 질적자료(명목척도, 순서척도), 양적자료(구간척도, 비율척도)
2.2 기초 통계 분석
- 확률 변수(2): 이산형/연속형 확률변수
- 점추정/구간측정
- 가설검정(2): 귀무가설(H0), 대립가설(H1), 기각역, p-value
- 모집단의 모수 검정(2): 모수검정/비모수검정(순위, 부호검정)
- 기술 통계/추측통계(추정, 가설검정, 예측)
- 기술 통계: 표본평균, 중앙값, 표준편차, 중위수, 최빈값, 사분위값, 그래프(막대그래프, 원그래프, 꺽은선 그래프, 챠트)
- 회귀 분석: 단순회귀분석/중회귀분석
2.3 다변량 분석
- 상관 분석: 상관계수(피어슨의 상관계수/스피어만 상관계수)
- 다차원 척도법
- 주성분 분석
2.4 시계열 예측
- 정상성
- 시계열 모형: AR, MA, ARIMA모형, 분해시계열(추세요인/계절요인/순환요인/불규칙요인)
3. 정형 데이터 마이닝
3.1 데이터 마이닝 개요
- 추정/예측/연관분석/군집/기술
- 지도학습(Supervise Learning): 목적변수가 존재, 로지스틱회귀모형/의사결정나무/인공신경망/사례기반분석
- 비지도학습Unspervise Learning): 목적변수가 존재하지 않음, 군집분석/연관분석
3.2 분류 분석(4) ⇒ 지도학습
- 로지스틱 회귀모형, 신경망모형(ANN), 의사결정나무모형(카이제곱,지니지수,엔트로피지수),
앙상블모형(배깅/부스팅/랜덤포레스트)
- 모형 평가
-- 훈련용/검증용 자료 추출 방법(3): 홀드아웃방법/교차검증/붓스트랩방법
-- 평가지표: 오분류표(민감도, 특이도, 정확도, 재현율, F1), ROC 그래프, 이익도표와 향상도 곡선
3.3 군집 분석 ⇒ 비지도학습
- 계층적 군집(병합방법: 최단/최장/중심/평균/와드연결법, 거리측정방법: 유클리드거리/맨하튼거리 등)
- k-평균 군집
- 혼합 분포 군집
- SOM(Sef-Organizing Maps): 비지도 신경망
3.4 연관 분석(장바구니 분석) ⇒ 비지도학습
- 연관 분석 측정 지표: 지지도, 신뢰도, 향상도(≥1)
<파이썬 한글 시각화 konlpy 패키지 환경설정>
참고사이트 – https://konlpy-ko.readthedocs.io/ko/v0.4.3/install/
1. 패키지 설치하기
pip install pytagcloud pip install re pip install simplejson pip install numpy
pip install konlpy pip install Twitter pip install Counter pip install pandas
2. 자바 설치하기
(1) Java 1.7+이상 설치
- https://www.oracle.com/technetwork/java/javase/downloads/index.html
(2) 시스템 환경변수 PATH에 JAVA_HOME 설정하기
- JDK가 정상적으로 동작하기 위하여 JAVA_HOME 경로(Path)를 설정한다.
- 탐색기의 “내 컴퓨터”를 선택한 후 오른쪽 마우스를 눌러 “속성”을 선택한다.
- [고급 시스템 설정]-> [고급]-> [환경변수]를 선택한다.
- [시스템 변수]영역의 [새로 만들기]를 선택한 후 변수 이름이 “JAVA_HOME”을 기입하고,
변수값 부분에 JDK가 설치되어있는 경로를 입력한다.
3. Jype1 설치하기
(1) 시스템에 맞는 whl 다운받기
- https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype
- cmd 창에서 python 명령으로 파이썬을 실행하여 컴퓨터 정보를 확인하여 현재 컴퓨터에 맞는 whl
(2) JPype1-0.6.3-cp36-cp36m-win_amd64.whl
- 다운로드는 인터넷 익스플로어를 이용한다.
- 다운받은 파일은 반드시 파이썬(python.exe)이 설치된 디렉토리에 붙여 넣어야 한다.
(예) C: \ProgramData \Anaconda3
(3) whl 설치 : pip install JPype1-0.6.3-cp36-cp36m-win_amd64.whl
- 설치도 파이썬(python.exe)이 설치된 디렉토리에서 설치하여야 한다.
(4) Jype1 설치 : pip install JPype1
4. Microsoft visual c++ 2015 redistributable update 3 설치하기 – 64bit
https://www.microsoft.com/ko-kr/download/confirmation.aspx?id=53587
컴퓨터 재부팅 필요
5. 한글 폰트 pytagcloud에 설치
(1) C:/Windows/fonts/ 디렉토리에서 “malgun.ttf”을 복사
(2) C: \Users \컴퓨터이름\AppData\Local \Programs \Python \Python36 \Lib \site-packages \pytagcloud\fonts 디렉터리로 복사한 “malgun.ttf”을 붙여넣기
(또는 C: \ProgramData \Anaconda3 \envs \가상환경명\Lib \site-packages \pytagcloud \fonts)
(3) C: \Users \컴퓨터이름\AppData\Local \Programs \Python \Python36 \Lib \site-packages \pytagcloud\fonts에 ‘font.json’ 파일을 열어서 font를 추가한다.
(또는 C: \ProgramData \Anaconda3 \envs \venv \Lib \site-packages \pytagcloud \fonts)
ScratchDevicePlugin.zip