R 빅데이터분석기사 실기 작업형1(z-score 표준화) 9일차 빅분기 독학

Ninestar 2022. 12. 18. 06:23

주어진 데이터에서 'f5'컬럼을 표준화(Standardization (Z-score Normalization))하고 그 중앙값을 구하시오

library(dplyr)
df<-read.csv('../input/bigdatacertificationkr/basic1.csv')
df$scale_f5<-scale(df$f5)
ans<-median(df$scale_f5,na.rm=T)
cat(ans)

#정답 : 0.2593133

caret패키지 내 preProcess함수도 가능하다. preProcess함수를 이용하면 min-max scale도 가능함.

library(dplyr)
library(caret)
df=read.csv('../input/bigdatacertificationkr/basic1.csv')
a<-preProcess(df,c("center","scale"))
ans<-df%>%mutate(pre_f5=(predict(a,df))$f5)
median(ans$pre_f5)

# 0.2593133

암기

library(caret)

preProcess(전체데이터프레임, "range") # min-max scale

preProcess(전체데이터프레임, c("center","scale")) #z-score scale