CART(Classification and Regression Tree) 가장 많이 쓰는 기법 C4.5 & C5.0 CART와 다르게 node에서 다지분리(Multiple Split)이 가능 CHADID(Chi-squared Automatic Interaction Detection) 범주형 변수에 적용 가능 4.1 의사결정 트리(Decision Tree) 의사결정트리 방식은 나무(Tree)구조 형태로 분류 결과를 도출 (1) party 패키지 이용 분류분석 조건부 추론 나무 CART기법으로 구현한 의사결정나무의 문제점 1) 통계적 유의성에 대한 판단없이 노드를 분할하는데 대한 과적합(Overfitting) 발생 문제. 2) 다양한 값으로 분할 가능한 변수가 다른 변수에 비해 선호..
여러 대상의 특징 사이 관계에 대한 수치적 자료를 이용하여 유사성에 대한 측정치를 상대적 거리로 구조화하는 방법 2차원 또는 3차원에서의 특정 위치에 관측치를 배치해서 보기 쉽게 척도화 즉, 항목 사이 거리를 기준으로 하는 자료를 이용하여 항목들의 상대적인 위치를 찾고 거리가 가까운 개체들끼리 Group 화 하여 분류할 수 있다. 다차원 척도법 적용 절차 1) 자료 수집: 특성을 측정 2) 유사성, 비유사성 측정: 개체 사이의 거리 측정 3) 공간에서 개체 사이 거리 표현 4) 개체의 상호 위치에 따른 관계가 개체들 사이 비유사성에 적합여부 결정 다차원 척도법의 종류 1) 계량적(전통적) 다차원 척도법(Classical MDS) 숫자 데이터로만 구성. stats패키지의 cmdscale()..
1. 주성분 분석 2. 0에 가까운 분산을 가지는 변수 제거 분산이 0에 가까운 변수는 제거해도 큰 영향이 없음. nearZeroVar()함수 https://www.rdocumentation.org/packages/caret/versions/6.0-86/topics/nearZeroVar where 'saveMetrics=FALSE'속성: 예측변수의 컬럼위치에 해당하는 정수 벡터 'saveMetrics=TRUE'속성: 컬럼을 가지는 데이터프레임 freqRatio: 가장 큰 공통값 대비 두번째 큰 공통값의 빈도의 비율 percentUnique: 데이터 전체로 부터 고유 데이터의 비율 zeroVar: 예측변수가 오직 한개의 특이값을 갖는지 여부에 대한 논리 벡터 nzv: 예측변수가 0에 가까운 분산..
베이지안 확률 모델은 주관적인 추론을 바탕으로 만들어진 ‘사전확률’을 추가적인 관찰을 통한 ‘사후확률’로 업데이트하여 불확실성을 제거할 수 있다고 믿는 방법. 베이즈 정리는 posteriori확률을 찾는 과정이고 베이즈 추론을 MAP(Maximum a Posteriori)문제라고 부르기도 한다. 실습. install.packages("e1071") install.packages("caret") library(e1071) data
시계열 그래프 그리기 http://wolfpack.hannam.ac.kr/Stat_Notes/softwares/about_R/GGPLOT_%EC%8B%9C%EA%B3%84%EC%97%B4%EA%B7%B8%EB%9E%98%ED%94%84.pdf 시계열 자료: 시간의 변화에 따라 관측치 또는 통계량의 변화를 기록해 놓은 자료 시계열 분석은 현재의 현상 이해를 기초로 미래를 예측하는 분석 방법 경기예측, 판매예측, 주식시장분석, 예산 및 투자 분석 등의 분야에서 활용 1. 시계열 분석 (Time Series Analysis) 시계열 분석: 어떤 현상에 대해서 시간의 변화량을 기록한 시계열 자료를 대상으로 미래의 변화에 대한 추세를 분석하는 방법 1.1 시계열분석의 특징 시계열분석..
판별 분석: 두개 이상의 모집단으로부터 표본이 섞였을 경우, 개별 경우에 대하여 그것이 어떤 모집단에 속하는지를 판별하기 위한 함수를 만들어서 데이터를 분류하는 방법 판별함수는 그룹 안 분산(Variance within group)에 비하여 그룹 간 분산(Variance between group)의 최대화로 얻어짐. 로직스틱 회귀분석과 많이 비교됨. 종류: 1) 선형(Linear)판별 분석: 정규 분포의 분산-공분산 행렬이 범주에 관계없이 동일한 경우 적용 2) 이차(Quadratic)판별 분석: 정규 분포의 분산-공분산 행렬이 범주별로 다른 경우 적용 1. 선형 판별 분석(Linear Discriminant Analysis) 선형 판별 분석: 데이터를 특정 축에 투영하여 데이터를 잘 구분..
많은 변수로 구성된 데이터에 대해 주성분이라는 새로운 변수를 만들어 기존 변수보다 차원을 축소하여 분석을 수행 주성분 P1은 데이터 분산을 가장 많이 설명할 수 있는 것을 선택하고 P2는 P1과 수직인 주성분을 만들어 다중 공선성 문제를 해결 다중 공선성(MultiCollinearity): 독립변수 사이에 강한 상관관계가 나타나서 종속변수에 영향을 미치는 경우 완전 공선성: 독립 변수들 사이에 정확한 선형 관계가 존재하는 경우 다중 공선성 문제는 분석과 예측의 정확성을 위해서 피하거나 해결해야 한다. 실습. ### PCA data("iris") head(iris) # 변수간 상관관계 확인 cor(iris[1:4]) # 변수간 S.L와P.L, S.L와 P.W간의 상관관계 높음 # 다중공선성 문제 ..