728x90
단답형
구글에서 개발 하였으며, 방대한 양의 데이터를 신속하게 처리하는 분산 병렬 데이터 처리 기술은?
맵리듀스
데이터 내부에 데이터 구조에 대한 메타정보를 갖고 있기 때문에 어떤 형태를 가진 데이터인지 파악하는 것이 중요한 데이터 형식은 무엇인가
반정형데이터
소수 클래스의 데이터를 복제 또는 생성하여 데이터의 비율을 맞추는 방법으로 정보가 손실되지 않는다는 장점이 있으나, 과적합을 초래 할 수 있다.
과대표집
데이터의 전부 또는 일부분을 대체값(공백, 노이즈 등)으로 변환하는 비식별화 방법 / 개인의 사생활 침해를 방지하고 통계 응답자의 비밀사항은 보호하면서 통계자료의 유용성을 최대한 확보할 수 있는 데이터변환 방법은?
데이터마스킹
예측 10 20 30 40 실제 9 18 32 44 rmse 구하기
2.5
( ))는 dying ReLU 현상을 해결하기 위해 제시된 함수 ReLU는 x<0에서 모든 값이 0이지만,( )는 작은 기울기를 부여함
Leaky ReLU
얼핏보기엔 차분 설명하는것 처럼 보임
평활화
개체들의 밀도(Density) 계산을 기반으로 밀접하게 분포된 개체들끼리 그룹핑하는 알고리즘이다.
DBSCAN
Z-score 몇 부터 이상치인가?
3
실제 예 20 80 측 40 60 F1score구하기
0.25
작업형 1
Q1. 범주형조건2개 + 2L용량 봉투 평균내기 (쓰레기봉투 용량이 원핫인코딩되어 있어서 0인건 제외하고 평균내야함)
122
Q2. 몸무게,키(cm)주어지고 BMI = 몸무게/(키(m)의 제곱) 정상범주,과체중 범주 인원차이 (데이터는 키가 cm로 되어있어서 m로 변환후 계산해야함)
2423
Q3.순전입학생수=총전입학생-총전출학생 순전입학생 가장많은 학교의 전체학생수를 구하라 (각학년별(전입,전출)학생,총전입학생,총전출학생,전체학생수 데이터 주어짐)
230
작업형2
Q4. 엔진사이즈 int형에서 범주형으로 바꾸고 기존 범수형변수 2개 제외(랜덤포레스트 변수 중요도 가장 낮았음)하고 다른 전처리 없이 테스트셋 예측결과 제출
rmse : 1250
난이도는 무난했던것 같다
주관식 2개 틀린것 같구 작업2형 만점만 나로면 90점대로 합격할듯
'자격증 > 빅분기 실기' 카테고리의 다른 글
빅데이터분석기사 5회 실기 합격 후기 빅분기 (19) | 2022.12.16 |
---|---|
빅데이터분석기사, ADsP 독학으로 2개월만에 고득점 합격 (0) | 2022.12.12 |
kaggle로 공부법(독학) (1) | 2022.12.12 |