DataScience
article thumbnail
인공신경망(Artificial Neural Network)

인간의 두뇌 신경(뉴런)들이 상호작용하여 경험과 학습을 통해서 패턴을 발견하고 이를 통해서 특정 사건을 일반화하거나 데이터를 분류하는데 이용되는 기계학습방법. ​ 인간의 개입 없이 컴퓨터가 스스로 인지하고 추론하고, 판단하여 사물을 구분하거나 특정 상황의 미래를 예측하는데 이용될 수 있는 기계학습 방법 ​ 문자, 음성, 이미지 인식, 증권시장 예측, 날씨 예보 등 다양한 분야에서 활용. ​ ​ (1) 생물학적 신경망 구조 ​ 인간의 생물학적 신경망의 구조 수상돌기로부터 외부 신호를 입력받고 시냅스에 의해서 신호의 세기를 결정한 후 이를 세포핵으로 전달하면 입력신호와 세기를 토대로 신경자극을 판정하여 축색돌기를 통해서 다른 신경으로 전달 ​ (2) 인공신경망과 생물학적 신경망의 비교 ​ [그림 15.7] ..

article thumbnail
XGBoost

​ Distributed(Deep) Machine Learning Community(DMLC) group 내 Tianqi Chen에 의한 연구 프로젝트로 시작. the Higgs Machine Learning Challenge 라는 Kaggle challenge에서 우승 solution으로 선정되어 알려졌고, 이후 xgboost를 이용하여 다른 Kaggle 경쟁에서도 다수 우승 (2015년동안 29개 Kaggle challenge 에서 17개의 solution 이 XGBoost를 사용) ​ ​ ​ xgboost: 앙상블 학습기법으로 모델을 생성하는 분류모델 ​ [표 15.6] 배깅과 부스팅 알고리즘 비교 분류 배깅(Bagging) 부스팅(Boosting) 공통점 전체 데이터 셋으로부터 복원추출방식. n개..

article thumbnail
오류분류표(Confusion matrix)

​ 1) 오류분류표 분류 분석 모형의 평가에 일반적으로 사용 목표 변수의 실제 범주와 모형에 의해 예측된 분류 범주 사이의 관계를 나타내는 표 ​ ​ 예측치 합계 True False 실제값 True TP FN P False FP TN N 합계 P' N' P+N • TP(True Positives): 실제값과 예측치 모두 True인 빈도 • TN(True Negatives): 실제값과 예측치 모두 False인 빈도 • FP(False Positives): 실제값은 False이나 True로 예측한 빈도 • FN(False Negatives): 실제값은 True이나 False로 예측한 빈도 ​ ​ 2) 오류분류표 활용 모형 평가 지표 ​ (1) 정분류율(accuracy, recognition rate) $$A..

article thumbnail
연관분석(Association Analysis)

하나의 거래나 사건에 포함된 항목 간의 관련성을 파악하여 둘 이상의 항목들로 구성된 연관성 규칙을 도출하는 탐색적인 분석 방법 ​ “장바구니 분석” ​ 연관성규칙은 지지도(support), 신뢰도(confidence), 향상도(lift)를 평가척도로 사용 ​ 연관분석은 구매패턴을 분석하여 고객을 대상으로 상품을 추천하거나 프로모션 및 마케팅 전략을 수립하는데 활용 ​ 연관분석 특징  사건의 연관규칙을 찾는 데이터마이닝 기법  y변수가 없으며, 비지도학습에 의한 패턴 분석 방법  거래 사실이 기록된 트랜잭션(Transaction)형식의 데이터 셋을 이용  사건과 사건 간의 연관성을 찾는 방법  예) 기저귀와 맥주(Diapers vs. Beer) 이야기: Karen Heath는 1992년 맥주와 기..

article thumbnail
군집분석(Cluster Analysis)

데이터 간의 유사도를 정의하고, 그 유사도에 가까운 것부터 순서대로 합쳐 가는 방법으로 그룹(군집)을 형성한 후 각 그룹의 성격을 파악하거나 그룹 간의 비교분석을 통해서 데이터 전체의 구조에 대한 이해를 돕고자 하는 탐색적인 분석 방법 ​ 유사도: 거리(distance)를 이용하는데 거리의 종류는 다양하지만, 가장 일반적으로 사용하는 것이 유클리디안(Euclidean)거리로 측정한 거리정보를 이용해서 분석대상을 몇 개의 집단으로 분류 ​ 군집 분석의 목적: 데이터 셋 전체를 대상으로 서로 유사항 개체 들을 몇 개의 군집으로 세분화하여 대상 집단을 정확하게 이해하고, 효율적으로 활용하기 위함. ​ 군집 분석으로 그룹화된 군집은 변수의 특성이 그룹 내적으로는 동일하고, 외적으로는 이질적인 특성을 갖는다. ​..

article thumbnail
서포트벡터머신(Support Vector Machine)

서포트벡터머신(Support Vector Machine)는 Corres와 Vapnik에 의해서 1995년에 제안되었다. 서포트벡터머신은 서포트벡터 분류기를 확장하여 비선형 클래스 경계를 수용할 수 있도록 개발한 분류 방법. ​ 초평면(Hyperplane) 최대마진분류기(Maximum Margin Classifier): 데이터가 있을 때, 이것을 곡선이 아닌 직선이나 평면으로 구별하는 방법 초평면(Hyperplane): 최대 마진 분류기가 경계로 사용하는 선이나 면 ​ 분리 초평면(Separating Hyperplane): 데이터를 완벽하게 분리하는 초평면 ​ 마진(Margin): 데이터와 초평면의 수직 거리(가장 짧은 거리) 최대마진 초평면(Maximal Margin Hyperplane): 마진이 가장 ..

article thumbnail
앙상블(Ensemble)

의사결정나무의 문제점을 ctree와 다른 방식으로 보완하기 위하여 개발된 방법 주어진 자료로부터 예측 모형을 여러 개 만들고, 이것을 결합하여 최종적인 예측 모형을 만드는 방법​ 배깅(Breiman, 1996) -> 부스팅 개발 -> 랜덤포레스트(Random Forest)​ 앙상블에서 사용되는 기법: 배깅, 부스팅, 랜덤포레스트 ​ 1. 배깅(Bagging) ​ 불안정한 예측모형에서 불안전성을 제거함으로써 예측력을 향상  Where 불안정한 예측모형: 데이터의 작은 변화에도 예측 모형이 크게 바뀌는 경우  Bootstrap AGGregatING의 준말  주어진 자료에 대하여 여러 개의 부트스트랩(bootstrap)자료를 만들고, 각 부트스트랩 자료에 예측 모형을 만든 다음, 이것을 결합하여 최종 ..