DataScience
article thumbnail
시계열분석(Time Series Analysis)
데이터분석/통계기반 2022. 12. 12. 15:59

시계열 그래프 그리기 http://wolfpack.hannam.ac.kr/Stat_Notes/softwares/about_R/GGPLOT_%EC%8B%9C%EA%B3%84%EC%97%B4%EA%B7%B8%EB%9E%98%ED%94%84.pdf ​ ​ 시계열 자료: 시간의 변화에 따라 관측치 또는 통계량의 변화를 기록해 놓은 자료 ​ 시계열 분석은 현재의 현상 이해를 기초로 미래를 예측하는 분석 방법 경기예측, 판매예측, 주식시장분석, 예산 및 투자 분석 등의 분야에서 활용 ​ ​ 1. 시계열 분석 (Time Series Analysis) ​ 시계열 분석: 어떤 현상에 대해서 시간의 변화량을 기록한 시계열 자료를 대상으로 미래의 변화에 대한 추세를 분석하는 방법 ​ ​ 1.1 시계열분석의 특징 ​시계열분석..

article thumbnail
판별분석(Discriminant Analysis)
데이터분석/통계기반 2022. 12. 12. 15:33

판별 분석: 두개 이상의 모집단으로부터 표본이 섞였을 경우, 개별 경우에 대하여 그것이 어떤 모집단에 속하는지를 판별하기 위한 함수를 만들어서 데이터를 분류하는 방법 판별함수는 그룹 안 분산(Variance within group)에 비하여 그룹 간 분산(Variance between group)의 최대화로 얻어짐. ​ 로직스틱 회귀분석과 많이 비교됨. ​ 종류: 1) 선형(Linear)판별 분석: 정규 분포의 분산-공분산 행렬이 범주에 관계없이 동일한 경우 적용 2) 이차(Quadratic)판별 분석: 정규 분포의 분산-공분산 행렬이 범주별로 다른 경우 적용 ​​ 1. 선형 판별 분석(Linear Discriminant Analysis) ​선형 판별 분석: 데이터를 특정 축에 투영하여 데이터를 잘 구분..

article thumbnail
주성분 분석(Principal Component Analysis)
데이터분석/통계기반 2022. 12. 12. 15:17

많은 변수로 구성된 데이터에 대해 주성분이라는 새로운 변수를 만들어 기존 변수보다 차원을 축소하여 분석을 수행 ​주성분 P1은 데이터 분산을 가장 많이 설명할 수 있는 것을 선택하고 P2는 P1과 수직인 주성분을 만들어 다중 공선성 문제를 해결 ​ 다중 공선성(MultiCollinearity): 독립변수 사이에 강한 상관관계가 나타나서 종속변수에 영향을 미치는 경우 완전 공선성: 독립 변수들 사이에 정확한 선형 관계가 존재하는 경우 다중 공선성 문제는 분석과 예측의 정확성을 위해서 피하거나 해결해야 한다. ​ 실습. ### PCA data("iris") head(iris) # 변수간 상관관계 확인 cor(iris[1:4]) # 변수간 S.L와P.L, S.L와 P.W간의 상관관계 높음 # 다중공선성 문제 ..

article thumbnail
요인분석 (Factor Analysis)
데이터분석/통계기반 2022. 12. 12. 15:04

요인분석: 변수들의 상관성을 바탕으로 변수를 정제하여 상관관계 분석이나 회귀분석에서 설명변수(독립변수)로 사용된다. ​ ​ ​ 1. 요인분석 ​ 요인분석(Factor Analysis): 다수의 변수를 대상으로 변수 간의 관계를 분석하여 공통 차원으로 축약하는 통계기법 ​ 요인분석 1) 탐색적 요인분석: 요인 분석을 할 때 사전에 어떤 변수들끼리 묶어야 한다는 전제를 두지 않고 분석하는 방법 2) 확인적 요인 분석: 사전에 묶일 것으로 기대되는 항목끼리 묶였는지를 조사하는 방법 ​ 타당성: 측정 도구가 측정하고자 하는 것을 정확히 측정할 수 있는 정도 논문 작성을 위한 통계분석 방법에서 인구통계학적 분석(빈도분석, 교차분석 등)을 시행한 이후 통계량 검정 이전에 구성 타당성(Construct validit..

article thumbnail
상관관계 분석
데이터분석/통계기반 2022. 12. 12. 14:52

상관관계분석(Correlation Analysis): 변수들 간의 관련성을 분석하기 위해 사용하는 분석 방법 하나의 변수가 다른 변수와 관련성이 있는지, 있다면 어느 정도의 관련성이 있는지를 개관할 수 있는 분석기법 ​ 상관관계 분석 수행 시, 회귀분석에서 변수 간의 인과관계를 분석하기 전에 변수 간의 관련성을 분석하는 선행자료 (가설검정 전 수행) 로 이용 변수 간의 관련성을 위해 상관계수인 피어슨(Pearson) r 계수를 이용하여 관련성 유무와 정도를 파악 상관관계 분석의 척도인 피어슨 상관계수(Pearson correlation coefficient: r)와 상관관계의 정도는 [표 14.3] ​ [표 14.3] 피어슨 상관계수와 상관관계 정도 피어슨 상관계수 R 상관관계 정도 ± 0.9 이상 매우..

article thumbnail
변수 선택
데이터분석/통계기반 2022. 12. 12. 14:48

회귀모델에서 독립변수의 증가는 모델의 결정계수를 증가시켜 설명력을 높이는 장점이 있지만 다중 공선성 문제를 일으킬 수 있어서 추정의 신뢰도를 저하시킬 수 있고, 독립변수가 많을 경우 예측성능이 좋지 않을 가능성이 많고 독립성, 등분산성 등의 가정을 만족시키기 어렵기 때문에 독립변수를 줄일 필요가 있다. ​ ​ 전진 선택법(Forward Selection): 절편만 있는 모델에서 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가 ​ 후진 제거법(Backward elimination): 모든 변수가 포함된 모델에서 기준 통계치에 가장 도움이 되지 않는 변수를 하나씩 제거하는 방법 ​ 단계선택법(Stepwise selction): 모든 변수가 포함된 모델에서 출발하여 기준 통계치에 가장 도움이 되지 않는..

article thumbnail
로지스틱 회귀분석(Logistic Regression Analysis)
데이터분석/통계기반 2022. 12. 12. 14:45

종속변수와 독립변수 간의 관계를 나타내어 예측 모델을 생성한다는 점에서 선형 회귀분석 방법과 유사 ​ 로지스틱 회귀분석의 특징 - 분석 목적: 종속변수와 독립변수 간의 관계를 통해서 예측 모델 생성 - 회귀분석과 차이점: 종속변수는 반드시 범주형 변수(예, Yes/No, iris데이터의 species) - 정규성: 정규분포 대신에 이항분포를 따른다. - 로짓 변환: 종속변수의 출력범위를 0과 1로 조정하는 과정(예, 혈액형 A  [1, 0, 0, 0] - 활용분야: 의료, 통신, 날씨 등 다양한 분야 ​ ​ 실습 (날씨 관련 요인 변수로 비(rain) 유무 예측) install.packages("ROCR") library(car) library(lmtest) library(ROCR) #1단계: 데이터 ..