주어진 데이터에서 'f5'컬럼을 min-max 스케일 변환한 후, 상위 5%와 하위 5% 값의 합을 구하시오 library(dplyr) library(caret) df=read.csv('../input/bigdatacertificationkr/basic1.csv') p=preProcess(df,"range") ans%mutate(pre_f5=predict(p,df)$f5)%>%summarise(sum=sum(quantile(pre_f5,0.95),quantile(pre_f5,0.05))) print(ans) #정답 : 1.024874 암기 quantile(컬럼,비율) quantile(컬럼,1/4) # 4분위수
주어진 데이터에서 20세 이상의 데이터 추출한 후, 'f1'컬럼을 결측치를 최빈값으로 채운 후, f1 컬럼의 여-존슨과 박스콕스 변환 값을 구하고, 두 값의 차이를 절대값으로 구한다음 모두 더해 소수점 둘째 자리까지 출력(반올림)하시오 library(dplyr) library(caret) df=read.csv('../input/bigdatacertificationkr/basic1.csv') df1%filter(age>=20) %>%mutate(pre_f1=ifelse(is.na(f1),as.numeric(names(which.max(table(f1)))),f1)) yeo
주어진 데이터에서 'f5'컬럼을 표준화(Standardization (Z-score Normalization))하고 그 중앙값을 구하시오 library(dplyr) df
주어진 데이터 셋에서 'f2' 컬럼이 1인 조건에 해당하는 데이터의 'f1'컬럼 누적합을 계산한다. 이때 발생하는 누적합 결측치는 바로 뒤의 값을 채우고, 누적합의 평균값을 출력한다. (단, 결측치 바로 뒤의 값이 없으면 다음에 나오는 값을 채워넣는다) library(dplyr) library(zoo) df=read.csv('../input/bigdatacertificationkr/basic1.csv') ans%filter(f2==1) %>%summarise(cumsum=cumsum(coalesce(f1, 0)) + f1*0) %>%mutate(pre_f1 = na.locf(cumsum,fromLast=T)) %>%select(pre_f1) %>%sapply(mean) print(ans) #정답 : 98..
f4'컬럼의 값이 'ESFJ'인 데이터를 'ISFJ'로 대체하고, 'city'가 '경기'이면서 'f4'가 'ISFJ'인 데이터 중 'age'컬럼의 최대값을 출력하시오 library(dplyr) df%filter(city=='경기'&f4=='ISFJ') %>%summarise(max(age)) print(ans) #정답 : 90
주어진 데이터 중 basic1.csv에서 'f1'컬럼 결측 데이터를 제거하고, 'city'와 'f2'을 기준으로 묶어 합계를 구하고, 'city가 경기이면서 f2가 0'인 조건에 만족하는 f1 값을 구하시오 library(dplyr) df=read.csv('../input/bigdatacertificationkr/basic1.csv') ans%filter(!is.na(f1)) %>%group_by(city,f2) %>%summarise(v=sum(f1)) %>%filter(city=='경기'&f2==0))$v print(ans) #정답 : 833 암기 library(dplyr) %>% group_by(컬럼1,컬럼2) #group_by()에서 지정한 열의 수준(level)별로 그룹화
주어진 데이터 중 basic1.csv에서 'f4'컬럼 값이 'ENFJ'와 'INFP'인 'f1'의 표준편차 차이를 절대값으로 구하시오 library(dplyr) df=read.csv('../input/bigdatacertificationkr/basic1.csv') ans%filter(f4=='ENFJ'|f4=='INFP') %>%group_by(f4) %>%summarise(v=sd(f1,na.rm=T)) %>%select(v)%>%apply(2,diff) %>%abs print(ans) #정답 : 5.859622 암기 library(dplyr) %>% group_by(f4) #group_by()에서 지정한 열의 수준(level)별로 그룹화 %>% select(value) #select 열 추출(-붙이면..