DataScience
article thumbnail
R 빅데이터분석기사 실기 작업형1(시계열 주말,평일) 18일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 18. 19:22

주어진 데이터에서 2022년 5월 주말과 평일의 sales컬럼 평균값 차이를 구하시오 (소수점 둘째자리까지 출력, 반올림) library(dplyr) library(lubridate) df%filter(year==2022&month==5) weekend%filter(wday==1|wday==7) weekday%filter(!(wday==1|wday==7)) ans

article thumbnail
R 빅데이터분석기사 실기 작업형1(시계열데이터) 17일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 18. 18:16

2022년 5월 Sales의 중앙값을 구하시오 library(dplyr) library(lubridate) df%mutate(year=year(Date),month=month(Date)) %>%filter(year==2022&month==5) %>%summarise(med=median(Sales,na.rm=T)) #정답 : 1477685 암기 library(lubridate) 날짜 lubridate year() year(2022-01-01) return값:2022 날짜 lubridate month() month(2022-01-01) ​return값:1

article thumbnail
R 빅데이터분석기사 실기 작업형1(분산) 16일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 18. 18:09

주어진 데이터 셋에서 f2가 0값인 데이터를 age를 기준으로 오름차순 정렬하고 앞에서 부터 20개의 데이터를 추출한 후 f1 결측치(최소값)를 채우기 전과 후의 분산 차이를 계산하시오 (소수점 둘째 자리까지) library(dplyr) df=read.csv('../input/bigdatacertificationkr/basic1.csv') df%>%filter(f2==0) %>%arrange(age) %>%slice(1:20) %>%mutate(pre_f1=coalesce(f1,min(f1,na.rm=T))) %>%summarise(diff=var(f1,na.rm=T)-var(pre_f1)) %>%round(2) #정답 : 38.44 암기 var(컬럼,na.rm=T) #분산, 결측치 제거

article thumbnail
R 빅데이터분석기사 실기 작업형1(slice) 15일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 18. 18:04

주어진 데이터 셋에서 age컬럼 상위 20개의 데이터를 구한 다음 f1의 결측치를 중앙값으로 채운다. 그리고 f4가 ISFJ와 f5가 20 이상인 f1의 평균값을 출력하시오! library(dplyr) df=read.csv('../input/bigdatacertificationkr/basic1.csv') df %>% arrange(-age) %>% slice(1:20) %>% mutate(pre_f1=ifelse(is.na(f1),median(f1,na.rm=T),f1)) %>% filter(f4=='ISFJ' & f5>=20) %>% summarise(value=mean(pre_f1)) #정답 : 73.875 암기 slice(data, from, to) #데이터 프레임의 행(row) 선별 by posi..

article thumbnail
R 빅데이터분석기사 실기 작업형1(2개조건 상위값) 14일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 18. 17:59

city와 f4를 기준으로 f5의 평균값을 구한 다음, f5를 기준으로 상위 7개 값을 모두 더해 출력하시오 (소수점 둘째자리까지 출력) library(dplyr) df=read.csv("../input/bigdatacertificationkr/basic1.csv") ans%group_by(city,f4) %>%summarise(mean_f5 = mean(f5,na.rm=T)) %>%arrange(-mean_f5) %>%head(7) %>%ungroup() %>%summarise(sum=sum(mean_f5)) %>%round(2) print(ans) 정답 : 644

article thumbnail
R 빅데이터분석기사 실기 작업형1(상관관계) 13일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 18. 08:07

주어진 데이터에서 상관관계를 구하고, quality와의 상관관계가 가장 큰 값과, 가장 작은 값을 구한 다음 더하시오! 단, quality와 quality 상관관계 제외, 소수점 둘째 자리까지 출력 library(dplyr) df%cor %>%data.frame %>%select(quality) %>%filter(quality%summarise(sum=sum(max(quality),min(quality))) %>%round(2) #정답 : 0.09 암기 cor() #상관관계

article thumbnail
R 빅데이터분석기사 실기 작업형1(상위,하위 10개) 12일차 빅분기 독학
R/빅분기 실기(독학) 2022. 12. 18. 08:03

주어진 데이터에서 상위 10개 국가의 접종률 평균과 하위 10개 국가의 접종률 평균을 구하고, 그 차이를 구해보세요 (단, 100%가 넘는 접종률 제거, 소수 첫째자리까지 출력) library(dplyr) df%summarise(v=max(ratio))%>%filter(v%arrange(-v) round(mean(head(pre$v,10))-mean(tail(pre$v,10)),1) #정답 : 88.4 암기 head() #상위 taile() #하위