
주어진 데이터에서 상관관계를 구하고, quality와의 상관관계가 가장 큰 값과, 가장 작은 값을 구한 다음 더하시오! 단, quality와 quality 상관관계 제외, 소수점 둘째 자리까지 출력 library(dplyr) df%cor %>%data.frame %>%select(quality) %>%filter(quality%summarise(sum=sum(max(quality),min(quality))) %>%round(2) #정답 : 0.09 암기 cor() #상관관계

주어진 데이터에서 상위 10개 국가의 접종률 평균과 하위 10개 국가의 접종률 평균을 구하고, 그 차이를 구해보세요 (단, 100%가 넘는 접종률 제거, 소수 첫째자리까지 출력) library(dplyr) df%summarise(v=max(ratio))%>%filter(v%arrange(-v) round(mean(head(pre$v,10))-mean(tail(pre$v,10)),1) #정답 : 88.4 암기 head() #상위 taile() #하위

주어진 데이터에서 'f5'컬럼을 min-max 스케일 변환한 후, 상위 5%와 하위 5% 값의 합을 구하시오 library(dplyr) library(caret) df=read.csv('../input/bigdatacertificationkr/basic1.csv') p=preProcess(df,"range") ans%mutate(pre_f5=predict(p,df)$f5)%>%summarise(sum=sum(quantile(pre_f5,0.95),quantile(pre_f5,0.05))) print(ans) #정답 : 1.024874 암기 quantile(컬럼,비율) quantile(컬럼,1/4) # 4분위수

주어진 데이터에서 20세 이상의 데이터 추출한 후, 'f1'컬럼을 결측치를 최빈값으로 채운 후, f1 컬럼의 여-존슨과 박스콕스 변환 값을 구하고, 두 값의 차이를 절대값으로 구한다음 모두 더해 소수점 둘째 자리까지 출력(반올림)하시오 library(dplyr) library(caret) df=read.csv('../input/bigdatacertificationkr/basic1.csv') df1%filter(age>=20) %>%mutate(pre_f1=ifelse(is.na(f1),as.numeric(names(which.max(table(f1)))),f1)) yeo

주어진 데이터에서 'f5'컬럼을 표준화(Standardization (Z-score Normalization))하고 그 중앙값을 구하시오 library(dplyr) df

주어진 데이터 셋에서 'f2' 컬럼이 1인 조건에 해당하는 데이터의 'f1'컬럼 누적합을 계산한다. 이때 발생하는 누적합 결측치는 바로 뒤의 값을 채우고, 누적합의 평균값을 출력한다. (단, 결측치 바로 뒤의 값이 없으면 다음에 나오는 값을 채워넣는다) library(dplyr) library(zoo) df=read.csv('../input/bigdatacertificationkr/basic1.csv') ans%filter(f2==1) %>%summarise(cumsum=cumsum(coalesce(f1, 0)) + f1*0) %>%mutate(pre_f1 = na.locf(cumsum,fromLast=T)) %>%select(pre_f1) %>%sapply(mean) print(ans) #정답 : 98..

f4'컬럼의 값이 'ESFJ'인 데이터를 'ISFJ'로 대체하고, 'city'가 '경기'이면서 'f4'가 'ISFJ'인 데이터 중 'age'컬럼의 최대값을 출력하시오 library(dplyr) df%filter(city=='경기'&f4=='ISFJ') %>%summarise(max(age)) print(ans) #정답 : 90