반응형

분류 전체보기 268

집단간 차이분석

1. 추정과 검정 1.1 점 추정과 구간 추정 [표13.1] 점추정과 신뢰구간 추정 ​ 1.2 모평균의 구간 추정 표본 평균이 따르는 분포 ~N(μ, σ^2/n) 모표준편차 σ의 값이 알려지지 않는 경우 표본의 크기 n이 충분히 클 때 (n>= 30)는 표본표준편차 S 사용 [표 13.2] 신뢰도와 모평균 신뢰구간 #실습 (우리나라 중학교 2학년 남학생의 평균 신장 표본조사) #우리나라 중학교 2학년 남학생의 평균 신장 표본 조사를 위한 검정 통계량은 다음과 같다. #전체 표본 크기(N): 10,000명 #표본 평균(X): 165.1cm #표본 표준편차(S): 2cm N = 10000 X = 165.1 S = 2 low

교차분석과 카이제곱 검정

교차분석: 두 개 이상의 범주형 변수를 대상으로 교차 분할표를 작성하고, 이를 통해서 변수 상호 간의 관련성 여부를 분석 특히 빈도분석 결과에 대한 보충자료를 제시하는데 효과적 ​ 카이제곱 검정: 교차분석으로 얻어진 교차 분할표를 대상으로 유의확률을 적용하여 변수 간의 독립성 및 관련성 여부 등을 검정하는 분석 방법 ​1. 교차분석 교차검정(Cross Table Analyze): 범주형 자료(명목/서열 척도)를 대상으로 두 개 이상의 변수들에 대한 관련성을 알아보기 위해서 결합분포를 나타내는 교차 분할표를 작성하고 이를 통해서 변수 상호간의 관련성 여부를 분석하는 방법 교차분석은 빈도분석의 특성별 차이를 분석하기 위해 수행하는 분석방법으로 빈도분석 결과에 대한 보충자료를 제시하는데 효과적 ​ 연구 환경에..

빅데이터분석기사, ADsP 독학으로 2개월만에 고득점 합격

9월초부터 11월말까지 매일 공부했습니다. 시험순서(빅분기필기-ADsP-빅분기실기) 시험이 한달 간격으로 있어서 준비하기 좋았습니다. 전공은 로봇공학으로 통계쪽 지식은 전혀 없는 상태였고 프로그래밍 언어는 C,C++만 주로 했었습니다. ​ 10월 1일 빅분기 필기 9월 초부터 빅분기 필기를 공부하며 파이썬과 R 기초를 공부했습니다. 파이썬과 R은 C언어를 알고있으니 쉬운편이였는데 빅분기 내용은 대부분이 처음보는 내용이여서 외우는데 꽤 고생좀 했습니다. 시험 전날까지 파이썬, R은 하루에 3시간 정도씩 해서 끝냈고, 빅분기는 1~2시간 정도씩 공부했습니다. 필기 내용을 100% 이해(이해하려고 유툽영상, 정리된 내용 찾아 따로 공부 했으나 50%정도 밖에 이해를 못했습니다)는 하지 못한채 단순히 외우기만 ..

빅분기 실기 R,Python 베이스라인, 기본코드

전처리,튜닝 하나도 없이 train셋으로 학습, test셋 예측후 제출만 하셔도 기본점수는 받으실 수 있습니다. ​ 아래 코드가 베이스라인 코드이며 여기에 전처리과정, 다양한모델 생성, 하이퍼파라미터 튜닝등 살을 붙이면 훌륭한 예측모델이 될 것입니다. ​ R # 라이브러리 추가 library(randomForest) # 데이터 불러오기 X_train

kaggle로 공부법(독학)

퇴근후딴짓님 유튜브 주소 https://www.youtube.com/@ai-study Kaggle주소 https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr ​ 유투버(퇴근후딴짓)님의 kaggle입니다. 혼자 공부하기에 너무 정리가 잘되어 있어서 추천드립니다. 여기서 진행했던 스터디 그룹도 도움이 매우 많이 됐습니다. ​ kaggle 회원가입후 로그인을 하세요 > View more을 누르고 스크롤 조금 아래로 내리면 ​ > 본인이 선택한 언어를 클릭해줍니다. ​ > 본인이 이 문제 코드를 작성한적이 있으면 Edit My Copy이라고 뜨고 없으면 Copy&Edit가 뜹니다. 클릭해줍니다. ​ > 기존 작성되어있는 코드는 주석처리하시고 새로 작성..

빅분기 실기 5회 후기 및 복원문제,가답안

단답형 구글에서 개발 하였으며, 방대한 양의 데이터를 신속하게 처리하는 분산 병렬 데이터 처리 기술은? 맵리듀스 ​ 데이터 내부에 데이터 구조에 대한 메타정보를 갖고 있기 때문에 어떤 형태를 가진 데이터인지 파악하는 것이 중요한 데이터 형식은 무엇인가 반정형데이터 ​ 소수 클래스의 데이터를 복제 또는 생성하여 데이터의 비율을 맞추는 방법으로 정보가 손실되지 않는다는 장점이 있으나, 과적합을 초래 할 수 있다. 과대표집 ​ 데이터의 전부 또는 일부분을 대체값(공백, 노이즈 등)으로 변환하는 비식별화 방법 / 개인의 사생활 침해를 방지하고 통계 응답자의 비밀사항은 보호하면서 통계자료의 유용성을 최대한 확보할 수 있는 데이터변환 방법은? 데이터마스킹 ​ 예측 10 20 30 40 실제 9 18 32 44 rm..

기술통계분석

1. 기술통계분석 1.1 빈도분석 빈도분석(Frequency Analysis) 명목척도 또는 서열척도 같은 범주형 데이터를 대상으로 비율을 측정하는데 주로 이용 명목척도: 명목상 의미 없는 수치로 표현. 예) 거주지역, 성별 서열척도: 계급 순위를 수치로 표현. 예) 직급, 학력 수준 빈도수, 비율 등으로 나타냄 ​ 1.2 기술통계분석 등간척도나 비율척도와 같은 연속적 데이터를 분석할 때 이용 등간척도: 속성의 간격이 일정한 값을 갖는 변수. 예) 만족도 조사의 보기 절대 특성에 원점이 척도. 0을 기준으로 한 수치. 비율척도: 등간척도의존재하는 사칙연산이 가능. 예) 성적, 나이, 수량, 길이, 금액2 ​ 2. 척도별 기술통계량 구하기 실습 (전체 데이터 셋의 특성 보기) #1단계: 데이터 셋 가져오기..