R/빅분기 실기(독학)
R 빅데이터분석기사 실기 작업형1(중복 데이터 제거) 23일차 빅분기 독학
yimstar9
2022. 12. 18. 19:50
반응형
f1의 결측치를 채운 후 age 컬럼의 중복 제거 전과 후의 중앙값의 차이를 구하시오. 결측치는 f1의 데이터 중 10번째 큰 값으로 채움. 중복 데이터 발생시 뒤에 나오는 데이터를 삭제함.
library(dplyr)
df<-read.csv('../input/bigdatacertificationkr/basic1.csv')
ans<-df%>%mutate(pre_f1=ifelse(is.na(f1),(sort(f1,decreasing=T))[10],f1),duplicated_age=ifelse(duplicated(age),NA,pre_f1))
%>%summarise(v=median(pre_f1)-median(duplicated_age,na.rm=T))
print(ans)
#정답 : 0.5
암기
중복 데이터 발생시 뒤에 나오는 데이터를 삭제
ifelse(duplicated(age),NA,pre_f1)
