DataScience
article thumbnail
군집분석(Cluster Analysis)

데이터 간의 유사도를 정의하고, 그 유사도에 가까운 것부터 순서대로 합쳐 가는 방법으로 그룹(군집)을 형성한 후 각 그룹의 성격을 파악하거나 그룹 간의 비교분석을 통해서 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적인 분석 방법 ​ 유사도: 거리(distance)를 이용하는데 거리의 종류는 다양하지만, 가장 일반적으로 사용하는 것이 유클리디안(Euclidean)거리로 측정한 거리정보를 이용해서 분석대상을 몇 개의 집단으로 분류 ​ 군집 분석의 목적: 데이터 셋 전체를 대상으로 서로 유사항 개체 들을 몇 개의 군집으로 세분화하여 대상 집단을 정확하게 이해하고, 효율적으로 활용하기 위함. ​ 군집 분석으로 그룹화된 군집은 변수의 특성이 그룹 내적으로는 동일하고, 외적으로는 이질적인 특성을 갖는다. ​..

article thumbnail
서포트벡터머신(Support Vector Machine)

서포트벡터머신(Support Vector Machine)는 Corres와 Vapnik에 의해서 1995년에 제안되었다. 서포트벡터머신은 서포트벡터 분류기를 확장하여 비선형 클래스 경계를 수용할 수 있도록 개발한 분류 방법. ​ 초평면(Hyperplane) 최대마진분류기(Maximum Margin Classifier): 데이터가 있을 때, 이것을 곡선이 아닌 직선이나 평면으로 구별하는 방법 초평면(Hyperplane): 최대 마진 분류기가 경계로 사용하는 선이나 면 ​ 분리 초평면(Separating Hyperplane): 데이터를 완벽하게 분리하는 초평면 ​ 마진(Margin): 데이터와 초평면의 수직 거리(가장 짧은 거리) 최대마진 초평면(Maximal Margin Hyperplane): 마진이 가장 ..

article thumbnail
앙상블(Ensemble)

의사결정나무의 문제점을 ctree와 다른 방식으로 보완하기 위하여 개발된 방법 주어진 자료로부터 예측 모형을 여러 개 만들고, 이것을 결합하여 최종적인 예측 모형을 만드는 방법​ 배깅(Breiman, 1996) -> 부스팅 개발 -> 랜덤포레스트(Random Forest)​ 앙상블에서 사용되는 기법: 배깅, 부스팅, 랜덤포레스트 ​ 1. 배깅(Bagging) ​ 불안정한 예측모형에서 불안전성을 제거함으로써 예측력을 향상  Where 불안정한 예측모형: 데이터의 작은 변화에도 예측 모형이 크게 바뀌는 경우  Bootstrap AGGregatING의 준말  주어진 자료에 대하여 여러 개의 부트스트랩(bootstrap)자료를 만들고, 각 부트스트랩 자료에 예측 모형을 만든 다음, 이것을 결합하여 최종 ..

article thumbnail
의사결정 나무(Decision Tree)

​ CART(Classification and Regression Tree) 가장 많이 쓰는 기법 ​ C4.5 & C5.0 CART와 다르게 node에서 다지분리(Multiple Split)이 가능 ​ CHADID(Chi-squared Automatic Interaction Detection) 범주형 변수에 적용 가능 ​ 4.1 의사결정 트리(Decision Tree)​ 의사결정트리 방식은 나무(Tree)구조 형태로 분류 결과를 도출 ​ (1) party 패키지 이용 분류분석​ 조건부 추론 나무 ​ CART기법으로 구현한 의사결정나무의 문제점 1) 통계적 유의성에 대한 판단없이 노드를 분할하는데 대한 과적합(Overfitting) 발생 문제. 2) 다양한 값으로 분할 가능한 변수가 다른 변수에 비해 선호..

article thumbnail
다차원 척도법(Multi-Dimensional Scaling)

여러 대상의 특징 사이 관계에 대한 수치적 자료를 이용하여 유사성에 대한 측정치를 상대적 거리로 구조화하는 방법 2차원 또는 3차원에서의 특정 위치에 관측치를 배치해서 보기 쉽게 척도화 즉, 항목 사이 거리를 기준으로 하는 자료를 이용하여 항목들의 상대적인 위치를 찾고 거리가 가까운 개체들끼리 Group 화 하여 분류할 수 있다. ​ 다차원 척도법 적용 절차 1) 자료 수집: 특성을 측정 2) 유사성, 비유사성 측정: 개체 사이의 거리 측정 3) 공간에서 개체 사이 거리 표현 4) 개체의 상호 위치에 따른 관계가 개체들 사이 비유사성에 적합여부 결정 ​ ​ 다차원 척도법의 종류​ 1) 계량적(전통적) 다차원 척도법(Classical MDS) ​ 숫자 데이터로만 구성. stats패키지의 cmdscale()..

article thumbnail
변수 제거

1. 주성분 분석 ​2. 0에 가까운 분산을 가지는 변수 제거 ​​ 분산이 0에 가까운 변수는 제거해도 큰 영향이 없음. nearZeroVar()함수 https://www.rdocumentation.org/packages/caret/versions/6.0-86/topics/nearZeroVar ​ where 'saveMetrics=FALSE'속성: 예측변수의 컬럼위치에 해당하는 정수 벡터 'saveMetrics=TRUE'속성: 컬럼을 가지는 데이터프레임 freqRatio: 가장 큰 공통값 대비 두번째 큰 공통값의 빈도의 비율 percentUnique: 데이터 전체로 부터 고유 데이터의 비율 zeroVar: 예측변수가 오직 한개의 특이값을 갖는지 여부에 대한 논리 벡터 nzv: 예측변수가 0에 가까운 분산..

article thumbnail
베이지안(Baysian)

​ ​ 베이지안 확률 모델은 주관적인 추론을 바탕으로 만들어진 ‘사전확률’을 추가적인 관찰을 통한 ‘사후확률’로 업데이트하여 불확실성을 제거할 수 있다고 믿는 방법. ​ 베이즈 정리는 posteriori확률을 찾는 과정이고 베이즈 추론을 MAP(Maximum a Posteriori)문제라고 부르기도 한다. ​ ​ 실습. install.packages("e1071") install.packages("caret") library(e1071) data