학습용 데이터(train)을 이용하여 생존 예측 모형을 만든 후, 이를 평가용 데이터(x_test)에 적용하여 얻은 예측값을 다음과 같은 형식의 CSV파일로 생성하시오(제출한 모델의 성능은 accuracy 평가지표에 따라 채점) train 데이터를 7:3비율로 train set, validation set 으로 나눠서 하이퍼파라미터를 튜닝하고 좋은모델을 만든다. 그 모델을 x_test셋에 적용해서 예측결과와 y_test(정답, 실제 시험에서는 없음)와 비교한다. 예측결과.csv 출력형태 모델은 성능도좋고 분류,회귀 모델 둘다 가능한 랜덤포레스트로 연습을 한다. 이 문제는 생존여부니까 분류 문제이다. 데이터호출 library(dplyr) library(randomForest) library(ModelMet..
주어진 데이터(basic2.csv)에서 새로운 컬럼(1일 이전 시차 컬럼)을 만들고, Events가 1이면서 Sales가 1000000이하인 조건에 맞는 새로운 컬럼 합을 구하시오 library(dplyr) library(data.table) df=read.csv('../input/bigdatacertificationkr/basic2.csv') df %>% mutate(lag=shift(PV,1)) %>% filter(Events==1 & Sales% summarise(value=sum(lag)) #정답 : 1894876 암기 library(data.table) shift(PV,1) #pv값을 다음으로 한칸 이동
f1의 결측치를 채운 후 age 컬럼의 중복 제거 전과 후의 중앙값의 차이를 구하시오. 결측치는 f1의 데이터 중 10번째 큰 값으로 채움. 중복 데이터 발생시 뒤에 나오는 데이터를 삭제함. library(dplyr) df%summarise(v=median(pre_f1)-median(duplicated_age,na.rm=T)) print(ans) #정답 : 0.5 암기 중복 데이터 발생시 뒤에 나오는 데이터를 삭제 ifelse(duplicated(age),NA,pre_f1)
주어진 데이터(basic2.csv)에서 주 단위 Sales의 합계를 구하고, 가장 큰 값을 가진 주와 작은 값을 가진 주의 차이를 구하시오(절대값) library(dplyr) df%group_by(week) %>%summarise(v=sum(Sales)) %>%summarise(ans=(max(v)-min(v))) cat(ans$ans) #정답 : 91639050 암기 lubridate패키지의 week와 readr패키지의 breaks='week'와 다르다 주 단위로, 주별, 주간이 나오면 cut(as.Date(Date),breaks='week')를 쓰자
나이 구간 나누기 basic1 데이터 중 'age'컬럼 이상치를 제거하고, 동일한 개수로 나이 순으로 3그룹으로 나눈 뒤 각 그룹의 중앙값을 더하시오(이상치는 음수(0포함), 소수점 값) library(dplyr) library(ggplot2) df0) %>%mutate(pre_age=cut_number(age,3)) %>%group_by(pre_age) %>%summarise(m=median(age)) %>%summarise(ans=sum(m)) cat(ans$ans) # 정답 : 165 암기 library(ggplot2) cut_number(x, n = NULL, ...) Arguments x : numeric vector n : number of intervals to create Examp..
basic1 데이터 중 'f4'를 기준으로 basic3 데이터 'f4'값을 기준으로 병합하고, 병합한 데이터에서 r2결측치를 제거한다음, 앞에서 부터 20개 데이터를 선택하고 'f2'컬럼 합을 구하시오 library(dplyr) df1=read.csv('../input/bigdatacertificationkr/basic1.csv') df2=read.csv('../input/bigdatacertificationkr/basic3.csv') ans%inner_join(df2,by='f4') %>%filter(r2!='') %>%slice(1:20) %>%summarise(sum=sum(f2)) print(ans) #정답 : 15 암기 inner_join(DF,DF1,by='컬럼명')
주어진 데이터에서 2022년 월별 Sales 합계 중 가장 큰 금액과 2023년 월별 Sales 합계 중 가장 큰 금액의 차이를 절대값으로 구하시오. 단 Events컬럼이 '1'인경우 80%의 Sales값만 반영함 (소수점 반올림 후 정수 출력) library(dplyr) library(lubridate) df%group_by(year,month) %>%summarise(sum=sum(pre_sale)) max_2022%filter(year==2022) %>%summarise(max=max(sum)) %>%select(max) max_2023%filter(year==2023) %>%summarise(max=max(sum)) %>%select(max) ans