퇴근후딴짓님 유튜브 주소 https://www.youtube.com/@ai-study Kaggle주소 https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr 유투버(퇴근후딴짓)님의 kaggle입니다. 혼자 공부하기에 너무 정리가 잘되어 있어서 추천드립니다. 여기서 진행했던 스터디 그룹도 도움이 매우 많이 됐습니다. kaggle 회원가입후 로그인을 하세요 > View more을 누르고 스크롤 조금 아래로 내리면 > 본인이 선택한 언어를 클릭해줍니다. > 본인이 이 문제 코드를 작성한적이 있으면 Edit My Copy이라고 뜨고 없으면 Copy&Edit가 뜹니다. 클릭해줍니다. > 기존 작성되어있는 코드는 주석처리하시고 새로 작성..
단답형 구글에서 개발 하였으며, 방대한 양의 데이터를 신속하게 처리하는 분산 병렬 데이터 처리 기술은? 맵리듀스 데이터 내부에 데이터 구조에 대한 메타정보를 갖고 있기 때문에 어떤 형태를 가진 데이터인지 파악하는 것이 중요한 데이터 형식은 무엇인가 반정형데이터 소수 클래스의 데이터를 복제 또는 생성하여 데이터의 비율을 맞추는 방법으로 정보가 손실되지 않는다는 장점이 있으나, 과적합을 초래 할 수 있다. 과대표집 데이터의 전부 또는 일부분을 대체값(공백, 노이즈 등)으로 변환하는 비식별화 방법 / 개인의 사생활 침해를 방지하고 통계 응답자의 비밀사항은 보호하면서 통계자료의 유용성을 최대한 확보할 수 있는 데이터변환 방법은? 데이터마스킹 예측 10 20 30 40 실제 9 18 32 44 rm..
1. 기술통계분석 1.1 빈도분석 빈도분석(Frequency Analysis) 명목척도 또는 서열척도 같은 범주형 데이터를 대상으로 비율을 측정하는데 주로 이용 명목척도: 명목상 의미 없는 수치로 표현. 예) 거주지역, 성별 서열척도: 계급 순위를 수치로 표현. 예) 직급, 학력 수준 빈도수, 비율 등으로 나타냄 1.2 기술통계분석 등간척도나 비율척도와 같은 연속적 데이터를 분석할 때 이용 등간척도: 속성의 간격이 일정한 값을 갖는 변수. 예) 만족도 조사의 보기 절대 특성에 원점이 척도. 0을 기준으로 한 수치. 비율척도: 등간척도의존재하는 사칙연산이 가능. 예) 성적, 나이, 수량, 길이, 금액2 2. 척도별 기술통계량 구하기 실습 (전체 데이터 셋의 특성 보기) #1단계: 데이터 셋 가져오기..