DataScience
article thumbnail
kaggle로 공부법(독학)
자격증/빅분기 실기 2022. 12. 12. 12:02

퇴근후딴짓님 유튜브 주소 https://www.youtube.com/@ai-study Kaggle주소 https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr ​ 유투버(퇴근후딴짓)님의 kaggle입니다. 혼자 공부하기에 너무 정리가 잘되어 있어서 추천드립니다. 여기서 진행했던 스터디 그룹도 도움이 매우 많이 됐습니다. ​ kaggle 회원가입후 로그인을 하세요 > View more을 누르고 스크롤 조금 아래로 내리면 ​ > 본인이 선택한 언어를 클릭해줍니다. ​ > 본인이 이 문제 코드를 작성한적이 있으면 Edit My Copy이라고 뜨고 없으면 Copy&Edit가 뜹니다. 클릭해줍니다. ​ > 기존 작성되어있는 코드는 주석처리하시고 새로 작성..

빅분기 실기 5회 후기 및 복원문제,가답안
자격증/빅분기 실기 2022. 12. 12. 12:00

단답형 구글에서 개발 하였으며, 방대한 양의 데이터를 신속하게 처리하는 분산 병렬 데이터 처리 기술은? 맵리듀스 ​ 데이터 내부에 데이터 구조에 대한 메타정보를 갖고 있기 때문에 어떤 형태를 가진 데이터인지 파악하는 것이 중요한 데이터 형식은 무엇인가 반정형데이터 ​ 소수 클래스의 데이터를 복제 또는 생성하여 데이터의 비율을 맞추는 방법으로 정보가 손실되지 않는다는 장점이 있으나, 과적합을 초래 할 수 있다. 과대표집 ​ 데이터의 전부 또는 일부분을 대체값(공백, 노이즈 등)으로 변환하는 비식별화 방법 / 개인의 사생활 침해를 방지하고 통계 응답자의 비밀사항은 보호하면서 통계자료의 유용성을 최대한 확보할 수 있는 데이터변환 방법은? 데이터마스킹 ​ 예측 10 20 30 40 실제 9 18 32 44 rm..

article thumbnail
기술통계분석
데이터분석/통계기반 2022. 12. 12. 11:50

1. 기술통계분석 1.1 빈도분석 빈도분석(Frequency Analysis) 명목척도 또는 서열척도 같은 범주형 데이터를 대상으로 비율을 측정하는데 주로 이용 명목척도: 명목상 의미 없는 수치로 표현. 예) 거주지역, 성별 서열척도: 계급 순위를 수치로 표현. 예) 직급, 학력 수준 빈도수, 비율 등으로 나타냄 ​ 1.2 기술통계분석 등간척도나 비율척도와 같은 연속적 데이터를 분석할 때 이용 등간척도: 속성의 간격이 일정한 값을 갖는 변수. 예) 만족도 조사의 보기 절대 특성에 원점이 척도. 0을 기준으로 한 수치. 비율척도: 등간척도의존재하는 사칙연산이 가능. 예) 성적, 나이, 수량, 길이, 금액2 ​ 2. 척도별 기술통계량 구하기 실습 (전체 데이터 셋의 특성 보기) #1단계: 데이터 셋 가져오기..