언어 선택 (R vs Python)
둘다 기본적으로 할 수 있는 상황에서 선택 고민만 3일은 했습니다. 데이터포럼 카페에서도 저와 같은 사람이 많았고 대부분의 댓글들이 시험용은 R 업무,범용성은 파이썬이라고 했습니다. 저는 둘다 기초는 있었기 때문에 공식 예제문제를 두 언어로 풀어봤습니다. 여러 사람들이 말했듯이 시험용으론 R이 편하다 느껴졌고 dplyr 덕분에 난이도도 조금 더 쉽다고 느껴졌습니다. 시험환경(구름IDE)에서 R은 에러가 어디서 발생했는지 메시지가 안뜬다는 치명적인 단점이 있지만 '준비한대로 실수만 안하면 되지' 하며 제 자신을 믿고 쭉 R로 연습했습니다.
공식 예제 문제 : https://dataq.goorm.io/exam/116674/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/2
단답형 10문제(30점)
R에서 ??키워드와 help(함수)를 실행시키면 설명이 나옵니다. 단답형 문제중 F1score 구하는 공식을 갑자기 헷갈려서 작업형으로 넘어가 help(confusionMatrix)를 쳐서 공식을 확인했습니다.
단답형 공부는 필기 공부한지 얼마 안지났기 때문에 시험 일주전에 시작했습니다. 각 과목별로 나올만한 것들을 뽑아서(약 450문제 정도) 엑셀로 정리하고 외웠습니다. 스터디원들이 좋은 문제 뽑아주신 덕분입니다!
작업형1 3문제(30점)
처음에는 캐글을 할줄 몰라서 구글 코랩으로 공부했습니다. 패키지도 매번 깔아주었고 데이터도 매번 업로드해줬습니다. 나중에 캐글 쓰는법을 알아서 캐글로 공부했는데 라이브러리, 데이터 따로 작업할 것 없이 바로 코딩 할 수 있어서 좋았습니다. 캐글로 공부하시는걸 추천드려요.
스터디 시작하기전에 퇴근후딴짓님 캐글에 있는 T1 문제 1회독 하였고 스터디하면서 2회독, 시험전날 3회독 했습니다. 그리고 문제를 풀면서 구글링을 조금이라도 했던 내용은 엑셀에 정리(다음에 또 구글링 안하고 엑셀만 봐도 알 수 있을 정도로)했습니다. 2회독 할때쯤엔 자연스럽게 다 외워지더라구요.
제출형식은 전부 cat( ) 으로 했습니다.
작업형2 1문제(40점)
데이터호출->EDA->전처리->모델 생성 및 평가->최종모델 선택후 test데이터 예측->csv제출
이 흐름만 잘 기억하시면 합격하시는데 무리 없으실 겁니다.
R사용자는 전부 생략하고 데이터호출 -> 랜덤포레스트 모델로 test데이터예측 -> csv제출 이렇게만 하셔도 40점 만점에 30점이상 받으실거에요. 공부할때 느꼈지만 R은 전처리(스케일링)하면 할수록 오히려 예측 성능이 떨어지는 느낌이였어요.
캐글에 작업2형 파이썬, R 베이스라인 코드 우선 외우시고 살을 점점 붙이는식으로 공부하시면 만점 나오실 겁니다.
5회는 rmse 1240으로 제출해서 40점 나온것 같습니다.(R랜덤포레스트는 어떤 전처리없이 바로 모델평가해도 rmse 1250나왔었습니다.)
단답형에서 데이터 마스킹->마스킹이라 답해서 틀렸고
작업2형 csv제출형식을 result.csv인데 수험번호.csv로 제출해서 3점 깎였네요.
오징어게임 스터디 및 퇴근후딴짓님 캐글이 너무 도움이 많이 됐습니다. 덕분에 무난하게 합격했습니다. 감사합니다.
빅분기 독학 내용
'자격증 > 빅분기 실기' 카테고리의 다른 글
빅데이터분석기사, ADsP 독학으로 2개월만에 고득점 합격 (0) | 2022.12.12 |
---|---|
kaggle로 공부법(독학) (1) | 2022.12.12 |
빅분기 실기 5회 후기 및 복원문제,가답안 (0) | 2022.12.12 |