DataScience
article thumbnail
728x90

basic2.csv
0.02MB

 

f1의 결측치를 채운 후 age 컬럼의 중복 제거 전과 후의 중앙값의 차이를 구하시오. 결측치는 f1의 데이터 중 10번째 큰 값으로 채움. 중복 데이터 발생시 뒤에 나오는 데이터를 삭제함.

library(dplyr)
df<-read.csv('../input/bigdatacertificationkr/basic1.csv')
ans<-df%>%mutate(pre_f1=ifelse(is.na(f1),(sort(f1,decreasing=T))[10],f1),duplicated_age=ifelse(duplicated(age),NA,pre_f1))
		%>%summarise(v=median(pre_f1)-median(duplicated_age,na.rm=T))
print(ans)

#정답 : 0.5

암기

중복 데이터 발생시 뒤에 나오는 데이터를 삭제

ifelse(duplicated(age),NA,pre_f1)

 

 

 

profile

DataScience

@Ninestar

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!