DataScience
article thumbnail
회귀분석(Regression Analysis)
데이터분석/통계기반 2022. 12. 12. 14:43

회귀분석: 특정 변수(독립변수)가 다른 변수(종속변수)에 어떠한 영향을 미치는 가를 분석하는 방법 인과관계가 있는지를 분석하는 방법 where ​ 인과관계: 변수 A가 변수 B의 값을 변하게 하는 원인이 되는 관계. 이때 변수 A를 독립변수, 변수 B를 종속변수로 지칭 한 변수의 값을 가지고 다른 변수의 값을 예측해 주는 분석방법 상관관계 분석 vs. 회귀분석 차이점 1) 상관관계 분석: 변수 간의 관련성 분석 2) 회귀분석: 변수 간의 인과관계 분석 회귀분석의 특징 1) 가장 강력하고 사용범위가 넓은 분석 방법 2) 독립변수가 종속변수에 영향을 미치는 변수를 규명하고, 이들 변수에 의해서 회귀방정식(Y=a+bX where a: 상수, b: 회귀계수, X: 독립변수, Y: 종속변수)을 도출하여 회귀선을 ..

article thumbnail
분산분석(ANOVA Analysis) (F-검정)
데이터분석/통계기반 2022. 12. 12. 14:37

T-검정과 동일하게 평균에 의한 차이 검정 방법 두 집단 이상의 평균 차이를 검정 ​ ​분석분석을 시행할 때 주의점: • 1개의 범주형 독립변수와 종속변수 간의 관계를 분석하는 일원 분산분석과 두 개 이상의 독립변수가 종속변수에 미치는 효과를 분석하는 이원 분산분석으로 분류. • 독립변수는 명목척도(성별), 종속변수는 등간척도나 비율척도로 구성되어야 한다. • 마케팅전략의 효과, 소비자 집단의 반응 차이 등과 같이 기업의 의사결정에 도움을 주는 비계량적인 독립변수와 계량적인 종속변수 간의 관계를 파악할 때 이용한다 ​ ​ 만일 ANOVA 가 아닌 여러 번 t 검정을 하면 안되나? -> 1종 오류가능성이 증대됨 ​ 예) 세 집단을 비교하기 위해서는 세 번의 독립표본 t 검정을 수행하여야 함. 각 t 검정에..

article thumbnail
왜도, 첨도, 히스토그램, 기술통계랑
데이터분석/통계기반 2022. 12. 12. 12:42

왜도 ​ 평균을 중심으로 하는 확률분포의 비대칭 정도를 나타내는 지표. 분포의 기울어진 방향과 정도를 나타내는 양 >0 : 분포의 오른쪽 방향으로 비대칭 꼬리가 치우침 0 : 정규분포보다 뾰족한 형태

article thumbnail
집단간 차이분석
데이터분석/통계기반 2022. 12. 12. 12:27

1. 추정과 검정 1.1 점 추정과 구간 추정 [표13.1] 점추정과 신뢰구간 추정 ​ 1.2 모평균의 구간 추정 표본 평균이 따르는 분포 ~N(μ, σ^2/n) 모표준편차 σ의 값이 알려지지 않는 경우 표본의 크기 n이 충분히 클 때 (n>= 30)는 표본표준편차 S 사용 [표 13.2] 신뢰도와 모평균 신뢰구간 #실습 (우리나라 중학교 2학년 남학생의 평균 신장 표본조사) #우리나라 중학교 2학년 남학생의 평균 신장 표본 조사를 위한 검정 통계량은 다음과 같다. #전체 표본 크기(N): 10,000명 #표본 평균(X): 165.1cm #표본 표준편차(S): 2cm N = 10000 X = 165.1 S = 2 low

article thumbnail
교차분석과 카이제곱 검정
데이터분석/통계기반 2022. 12. 12. 12:22

교차분석: 두 개 이상의 범주형 변수를 대상으로 교차 분할표를 작성하고, 이를 통해서 변수 상호 간의 관련성 여부를 분석 특히 빈도분석 결과에 대한 보충자료를 제시하는데 효과적 ​ 카이제곱 검정: 교차분석으로 얻어진 교차 분할표를 대상으로 유의확률을 적용하여 변수 간의 독립성 및 관련성 여부 등을 검정하는 분석 방법 ​1. 교차분석 교차검정(Cross Table Analyze): 범주형 자료(명목/서열 척도)를 대상으로 두 개 이상의 변수들에 대한 관련성을 알아보기 위해서 결합분포를 나타내는 교차 분할표를 작성하고 이를 통해서 변수 상호간의 관련성 여부를 분석하는 방법 교차분석은 빈도분석의 특성별 차이를 분석하기 위해 수행하는 분석방법으로 빈도분석 결과에 대한 보충자료를 제시하는데 효과적 ​ 연구 환경에..

빅분기 실기 R,Python 베이스라인, 기본코드
데이터분석/통계기반 2022. 12. 12. 12:03

전처리,튜닝 하나도 없이 train셋으로 학습, test셋 예측후 제출만 하셔도 기본점수는 받으실 수 있습니다. ​ 아래 코드가 베이스라인 코드이며 여기에 전처리과정, 다양한모델 생성, 하이퍼파라미터 튜닝등 살을 붙이면 훌륭한 예측모델이 될 것입니다. ​ R # 라이브러리 추가 library(randomForest) # 데이터 불러오기 X_train

article thumbnail
기술통계분석
데이터분석/통계기반 2022. 12. 12. 11:50

1. 기술통계분석 1.1 빈도분석 빈도분석(Frequency Analysis) 명목척도 또는 서열척도 같은 범주형 데이터를 대상으로 비율을 측정하는데 주로 이용 명목척도: 명목상 의미 없는 수치로 표현. 예) 거주지역, 성별 서열척도: 계급 순위를 수치로 표현. 예) 직급, 학력 수준 빈도수, 비율 등으로 나타냄 ​ 1.2 기술통계분석 등간척도나 비율척도와 같은 연속적 데이터를 분석할 때 이용 등간척도: 속성의 간격이 일정한 값을 갖는 변수. 예) 만족도 조사의 보기 절대 특성에 원점이 척도. 0을 기준으로 한 수치. 비율척도: 등간척도의존재하는 사칙연산이 가능. 예) 성적, 나이, 수량, 길이, 금액2 ​ 2. 척도별 기술통계량 구하기 실습 (전체 데이터 셋의 특성 보기) #1단계: 데이터 셋 가져오기..