728x90
주어진 데이터에서 결측치가 80%이상 되는 컬럼은(변수는) 삭제하고, 80% 미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값
library(dplyr)
df=read.csv('../input/bigdatacertificationkr/basic1.csv')
apply(is.na(df),2,sum) # f1에 31개
df1=df %>% group_by(city)
%>% mutate(pre_f1=ifelse(is.na(f1),median(f1,na.rm=T),f1))
mean(df1$pre_f1)
#정답:65.52
'R > 빅분기 실기(독학)' 카테고리의 다른 글
R 빅데이터분석기사 실기 작업형1 독학(결측치제거,멀티그룹 합계) 6일차 빅분기 (0) | 2022.12.18 |
---|---|
R 빅데이터분석기사 실기 작업형1 독학(표준편차 차이) 5일차 빅분기 (0) | 2022.12.18 |
R 빅데이터분석기사 실기 작업형1 독학(왜도,첨도) 4일차 빅분기 (0) | 2022.12.18 |
R 빅데이터분석기사 실기 작업형1 독학(이상치) 2일차 빅분기 (0) | 2022.12.18 |
R 빅데이터분석기사 실기 작업형1 독학(IQR이상치) 1일차 빅분기 (0) | 2022.12.18 |