DataScience
article thumbnail
패키지 MASS, dplyr select함수 충돌 Error in select(., Kor) : unused argument (Kor)
R 2022. 12. 22. 13:51

Error in select(., Kor) : unused argument (Kor) 원인 : select함수가 MASS패키지와 dplyr패키지 둘다 있기 때문 ​ 해결방법 1. select함수 사용할때 마다 dplyr::select() 로 정확히 호출 2. select

article thumbnail
R 빅데이터분석기사 실기 작업형2(보험료 예측) 소스 코드 26일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 20. 11:12

의료보험 데이터(train)를 활용해 한 사람이 보험료(charges)를 얼마나 낼지를 예측하시오. 이 문제는 보험료 예측이니 회귀 문제이다. 1. 데이터호출 #데이터호출 train

article thumbnail
R 빅데이터분석기사 실기 작업형2(타이타닉 생존여부) 소스 코드 25일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 18. 20:53

학습용 데이터(train)을 이용하여 생존 예측 모형을 만든 후, 이를 평가용 데이터(x_test)에 적용하여 얻은 예측값을 다음과 같은 형식의 CSV파일로 생성하시오(제출한 모델의 성능은 accuracy 평가지표에 따라 채점) train 데이터를 7:3비율로 train set, validation set 으로 나눠서 하이퍼파라미터를 튜닝하고 좋은모델을 만든다. 그 모델을 x_test셋에 적용해서 예측결과와 y_test(정답, 실제 시험에서는 없음)와 비교한다. 예측결과.csv 출력형태 모델은 성능도좋고 분류,회귀 모델 둘다 가능한 랜덤포레스트로 연습을 한다. 이 문제는 생존여부니까 분류 문제이다. 데이터호출 library(dplyr) library(randomForest) library(ModelMet..

article thumbnail
R 빅데이터분석기사 실기 작업형1(시차 데이터 생성) 24일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 18. 19:54

주어진 데이터(basic2.csv)에서 새로운 컬럼(1일 이전 시차 컬럼)을 만들고, Events가 1이면서 Sales가 1000000이하인 조건에 맞는 새로운 컬럼 합을 구하시오 library(dplyr) library(data.table) df=read.csv('../input/bigdatacertificationkr/basic2.csv') df %>% mutate(lag=shift(PV,1)) %>% filter(Events==1 & Sales% summarise(value=sum(lag)) #정답 : 1894876 암기 library(data.table) shift(PV,1) #pv값을 다음으로 한칸 이동

article thumbnail
R 빅데이터분석기사 실기 작업형1(중복 데이터 제거) 23일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 18. 19:50

f1의 결측치를 채운 후 age 컬럼의 중복 제거 전과 후의 중앙값의 차이를 구하시오. 결측치는 f1의 데이터 중 10번째 큰 값으로 채움. 중복 데이터 발생시 뒤에 나오는 데이터를 삭제함. library(dplyr) df%summarise(v=median(pre_f1)-median(duplicated_age,na.rm=T)) print(ans) #정답 : 0.5 암기 중복 데이터 발생시 뒤에 나오는 데이터를 삭제 ifelse(duplicated(age),NA,pre_f1)

article thumbnail
R 빅데이터분석기사 실기 작업형1(시계열 주간) 22일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 18. 19:47

주어진 데이터(basic2.csv)에서 주 단위 Sales의 합계를 구하고, 가장 큰 값을 가진 주와 작은 값을 가진 주의 차이를 구하시오(절대값) library(dplyr) df%group_by(week) %>%summarise(v=sum(Sales)) %>%summarise(ans=(max(v)-min(v))) cat(ans$ans) #정답 : 91639050 암기 lubridate패키지의 week와 readr패키지의 breaks='week'와 다르다 주 단위로, 주별, 주간이 나오면 cut(as.Date(Date),breaks='week')를 쓰자

article thumbnail
R 빅데이터분석기사 실기 작업형1(구간 분할) 21일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 18. 19:39

나이 구간 나누기 basic1 데이터 중 'age'컬럼 이상치를 제거하고, 동일한 개수로 나이 순으로 3그룹으로 나눈 뒤 각 그룹의 중앙값을 더하시오(이상치는 음수(0포함), 소수점 값) library(dplyr) library(ggplot2) df0) %>%mutate(pre_age=cut_number(age,3)) %>%group_by(pre_age) %>%summarise(m=median(age)) %>%summarise(ans=sum(m)) cat(ans$ans) # 정답 : 165 암기 library(ggplot2) cut_number(x, n = NULL, ...) ​ Arguments x : numeric vector n : number of intervals to create ​ Examp..