DataScience
article thumbnail
집단간 차이분석
데이터분석/통계기반 2022. 12. 12. 12:27

1. 추정과 검정 1.1 점 추정과 구간 추정 [표13.1] 점추정과 신뢰구간 추정 ​ 1.2 모평균의 구간 추정 표본 평균이 따르는 분포 ~N(μ, σ^2/n) 모표준편차 σ의 값이 알려지지 않는 경우 표본의 크기 n이 충분히 클 때 (n>= 30)는 표본표준편차 S 사용 [표 13.2] 신뢰도와 모평균 신뢰구간 #실습 (우리나라 중학교 2학년 남학생의 평균 신장 표본조사) #우리나라 중학교 2학년 남학생의 평균 신장 표본 조사를 위한 검정 통계량은 다음과 같다. #전체 표본 크기(N): 10,000명 #표본 평균(X): 165.1cm #표본 표준편차(S): 2cm N = 10000 X = 165.1 S = 2 low

article thumbnail
교차분석과 카이제곱 검정
데이터분석/통계기반 2022. 12. 12. 12:22

교차분석: 두 개 이상의 범주형 변수를 대상으로 교차 분할표를 작성하고, 이를 통해서 변수 상호 간의 관련성 여부를 분석 특히 빈도분석 결과에 대한 보충자료를 제시하는데 효과적 ​ 카이제곱 검정: 교차분석으로 얻어진 교차 분할표를 대상으로 유의확률을 적용하여 변수 간의 독립성 및 관련성 여부 등을 검정하는 분석 방법 ​1. 교차분석 교차검정(Cross Table Analyze): 범주형 자료(명목/서열 척도)를 대상으로 두 개 이상의 변수들에 대한 관련성을 알아보기 위해서 결합분포를 나타내는 교차 분할표를 작성하고 이를 통해서 변수 상호간의 관련성 여부를 분석하는 방법 교차분석은 빈도분석의 특성별 차이를 분석하기 위해 수행하는 분석방법으로 빈도분석 결과에 대한 보충자료를 제시하는데 효과적 ​ 연구 환경에..

빅분기 실기 R,Python 베이스라인, 기본코드
데이터분석/통계기반 2022. 12. 12. 12:03

전처리,튜닝 하나도 없이 train셋으로 학습, test셋 예측후 제출만 하셔도 기본점수는 받으실 수 있습니다. ​ 아래 코드가 베이스라인 코드이며 여기에 전처리과정, 다양한모델 생성, 하이퍼파라미터 튜닝등 살을 붙이면 훌륭한 예측모델이 될 것입니다. ​ R # 라이브러리 추가 library(randomForest) # 데이터 불러오기 X_train

article thumbnail
기술통계분석
데이터분석/통계기반 2022. 12. 12. 11:50

1. 기술통계분석 1.1 빈도분석 빈도분석(Frequency Analysis) 명목척도 또는 서열척도 같은 범주형 데이터를 대상으로 비율을 측정하는데 주로 이용 명목척도: 명목상 의미 없는 수치로 표현. 예) 거주지역, 성별 서열척도: 계급 순위를 수치로 표현. 예) 직급, 학력 수준 빈도수, 비율 등으로 나타냄 ​ 1.2 기술통계분석 등간척도나 비율척도와 같은 연속적 데이터를 분석할 때 이용 등간척도: 속성의 간격이 일정한 값을 갖는 변수. 예) 만족도 조사의 보기 절대 특성에 원점이 척도. 0을 기준으로 한 수치. 비율척도: 등간척도의존재하는 사칙연산이 가능. 예) 성적, 나이, 수량, 길이, 금액2 ​ 2. 척도별 기술통계량 구하기 실습 (전체 데이터 셋의 특성 보기) #1단계: 데이터 셋 가져오기..