DataScience
article thumbnail
회귀분석(Regression Analysis)
데이터분석/통계기반 2022. 12. 12. 14:43

회귀분석: 특정 변수(독립변수)가 다른 변수(종속변수)에 어떠한 영향을 미치는 가를 분석하는 방법 인과관계가 있는지를 분석하는 방법 where ​ 인과관계: 변수 A가 변수 B의 값을 변하게 하는 원인이 되는 관계. 이때 변수 A를 독립변수, 변수 B를 종속변수로 지칭 한 변수의 값을 가지고 다른 변수의 값을 예측해 주는 분석방법 상관관계 분석 vs. 회귀분석 차이점 1) 상관관계 분석: 변수 간의 관련성 분석 2) 회귀분석: 변수 간의 인과관계 분석 회귀분석의 특징 1) 가장 강력하고 사용범위가 넓은 분석 방법 2) 독립변수가 종속변수에 영향을 미치는 변수를 규명하고, 이들 변수에 의해서 회귀방정식(Y=a+bX where a: 상수, b: 회귀계수, X: 독립변수, Y: 종속변수)을 도출하여 회귀선을 ..

article thumbnail
분산분석(ANOVA Analysis) (F-검정)
데이터분석/통계기반 2022. 12. 12. 14:37

T-검정과 동일하게 평균에 의한 차이 검정 방법 두 집단 이상의 평균 차이를 검정 ​ ​분석분석을 시행할 때 주의점: • 1개의 범주형 독립변수와 종속변수 간의 관계를 분석하는 일원 분산분석과 두 개 이상의 독립변수가 종속변수에 미치는 효과를 분석하는 이원 분산분석으로 분류. • 독립변수는 명목척도(성별), 종속변수는 등간척도나 비율척도로 구성되어야 한다. • 마케팅전략의 효과, 소비자 집단의 반응 차이 등과 같이 기업의 의사결정에 도움을 주는 비계량적인 독립변수와 계량적인 종속변수 간의 관계를 파악할 때 이용한다 ​ ​ 만일 ANOVA 가 아닌 여러 번 t 검정을 하면 안되나? -> 1종 오류가능성이 증대됨 ​ 예) 세 집단을 비교하기 위해서는 세 번의 독립표본 t 검정을 수행하여야 함. 각 t 검정에..

article thumbnail
왜도, 첨도, 히스토그램, 기술통계랑
데이터분석/통계기반 2022. 12. 12. 12:42

왜도 ​ 평균을 중심으로 하는 확률분포의 비대칭 정도를 나타내는 지표. 분포의 기울어진 방향과 정도를 나타내는 양 >0 : 분포의 오른쪽 방향으로 비대칭 꼬리가 치우침 0 : 정규분포보다 뾰족한 형태

article thumbnail
집단간 차이분석
데이터분석/통계기반 2022. 12. 12. 12:27

1. 추정과 검정 1.1 점 추정과 구간 추정 [표13.1] 점추정과 신뢰구간 추정 ​ 1.2 모평균의 구간 추정 표본 평균이 따르는 분포 ~N(μ, σ^2/n) 모표준편차 σ의 값이 알려지지 않는 경우 표본의 크기 n이 충분히 클 때 (n>= 30)는 표본표준편차 S 사용 [표 13.2] 신뢰도와 모평균 신뢰구간 #실습 (우리나라 중학교 2학년 남학생의 평균 신장 표본조사) #우리나라 중학교 2학년 남학생의 평균 신장 표본 조사를 위한 검정 통계량은 다음과 같다. #전체 표본 크기(N): 10,000명 #표본 평균(X): 165.1cm #표본 표준편차(S): 2cm N = 10000 X = 165.1 S = 2 low

article thumbnail
교차분석과 카이제곱 검정
데이터분석/통계기반 2022. 12. 12. 12:22

교차분석: 두 개 이상의 범주형 변수를 대상으로 교차 분할표를 작성하고, 이를 통해서 변수 상호 간의 관련성 여부를 분석 특히 빈도분석 결과에 대한 보충자료를 제시하는데 효과적 ​ 카이제곱 검정: 교차분석으로 얻어진 교차 분할표를 대상으로 유의확률을 적용하여 변수 간의 독립성 및 관련성 여부 등을 검정하는 분석 방법 ​1. 교차분석 교차검정(Cross Table Analyze): 범주형 자료(명목/서열 척도)를 대상으로 두 개 이상의 변수들에 대한 관련성을 알아보기 위해서 결합분포를 나타내는 교차 분할표를 작성하고 이를 통해서 변수 상호간의 관련성 여부를 분석하는 방법 교차분석은 빈도분석의 특성별 차이를 분석하기 위해 수행하는 분석방법으로 빈도분석 결과에 대한 보충자료를 제시하는데 효과적 ​ 연구 환경에..

article thumbnail
빅데이터분석기사, ADsP 독학으로 2개월만에 고득점 합격
자격증/빅분기 실기 2022. 12. 12. 12:07

9월초부터 11월말까지 매일 공부했습니다. 시험순서(빅분기필기-ADsP-빅분기실기) 시험이 한달 간격으로 있어서 준비하기 좋았습니다. 전공은 로봇공학으로 통계쪽 지식은 전혀 없는 상태였고 프로그래밍 언어는 C,C++만 주로 했었습니다. ​ 10월 1일 빅분기 필기 9월 초부터 빅분기 필기를 공부하며 파이썬과 R 기초를 공부했습니다. 파이썬과 R은 C언어를 알고있으니 쉬운편이였는데 빅분기 내용은 대부분이 처음보는 내용이여서 외우는데 꽤 고생좀 했습니다. 시험 전날까지 파이썬, R은 하루에 3시간 정도씩 해서 끝냈고, 빅분기는 1~2시간 정도씩 공부했습니다. 필기 내용을 100% 이해(이해하려고 유툽영상, 정리된 내용 찾아 따로 공부 했으나 50%정도 밖에 이해를 못했습니다)는 하지 못한채 단순히 외우기만 ..

빅분기 실기 R,Python 베이스라인, 기본코드
데이터분석/통계기반 2022. 12. 12. 12:03

전처리,튜닝 하나도 없이 train셋으로 학습, test셋 예측후 제출만 하셔도 기본점수는 받으실 수 있습니다. ​ 아래 코드가 베이스라인 코드이며 여기에 전처리과정, 다양한모델 생성, 하이퍼파라미터 튜닝등 살을 붙이면 훌륭한 예측모델이 될 것입니다. ​ R # 라이브러리 추가 library(randomForest) # 데이터 불러오기 X_train