DataScience
article thumbnail
R 빅데이터분석기사 실기 작업형1 독학(표준편차 차이) 5일차 빅분기
R/빅분기 실기(독학) 2022. 12. 18. 05:54

주어진 데이터 중 basic1.csv에서 'f4'컬럼 값이 'ENFJ'와 'INFP'인 'f1'의 표준편차 차이를 절대값으로 구하시오 library(dplyr) df=read.csv('../input/bigdatacertificationkr/basic1.csv') ans%filter(f4=='ENFJ'|f4=='INFP') %>%group_by(f4) %>%summarise(v=sd(f1,na.rm=T)) %>%select(v)%>%apply(2,diff) %>%abs print(ans) #정답 : 5.859622 암기 library(dplyr) %>% group_by(f4) #group_by()에서 지정한 열의 수준(level)별로 그룹화 %>% select(value) #select 열 추출(-붙이면..

article thumbnail
R 빅데이터분석기사 실기 작업형1 독학(왜도,첨도) 4일차 빅분기
R/빅분기 실기(독학) 2022. 12. 18. 05:46

주어진 데이터 중 train.csv에서 'SalePrice'컬럼의 왜도와 첨도를 구한 값과, 'SalePrice'컬럼을 스케일링(log1p)로 변환한 이후 왜도와 첨도를 구해 모두 더한 다음 소수점 2째자리까지 출력하시오 library(e1071) library(dplyr) df%mutate(log_saleprice=log(SalePrice)) %>%summarise(bef_kur=kurtosis(SalePrice),bef_skew=skewness(SalePrice),after_kur=kurtosis(log_saleprice),after_skew=skewness(log_saleprice)) %>%sum%>%round(2) #정답 : 9.29 암기 library(e1071) kurtosis() #첨도 sk..

article thumbnail
R 빅데이터분석기사 실기 작업형1 독학(결측치) 3일차 빅분기
R/빅분기 실기(독학) 2022. 12. 18. 05:42

주어진 데이터에서 결측치가 80%이상 되는 컬럼은(변수는) 삭제하고, 80% 미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값 library(dplyr) df=read.csv('../input/bigdatacertificationkr/basic1.csv') apply(is.na(df),2,sum) # f1에 31개 df1=df %>% group_by(city) %>% mutate(pre_f1=ifelse(is.na(f1),median(f1,na.rm=T),f1)) mean(df1$pre_f1) #정답:65.52

article thumbnail
R 빅데이터분석기사 실기 작업형1 독학(이상치) 2일차 빅분기
R/빅분기 실기(독학) 2022. 12. 18. 05:37

주어진 데이터에서 이상치(소수점 나이)를 찾고 올림, 내림, 버림(절사)했을때 3가지 모두 이상치 'age' 평균을 구한 다음 모두 더하여 출력하시오 library(dplyr) df%filter((age*10)%%10!=0)%>%mutate(up=ceiling(age),low=floor(age),tr=trunc(age)) %>%summarise(mean1 = mean(up),mean2=mean(low), mean3=mean(tr)) %>%apply(1,sum) #정답:70

article thumbnail
R 빅데이터분석기사 실기 작업형1 독학(IQR이상치) 1일차 빅분기
R/빅분기 실기(독학) 2022. 12. 18. 05:34

데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오 df%summarise(n=n()) cat(ans$n) #정답:69.5