주어진 데이터 중 basic1.csv에서 'f1'컬럼 결측 데이터를 제거하고, 'city'와 'f2'을 기준으로 묶어 합계를 구하고, 'city가 경기이면서 f2가 0'인 조건에 만족하는 f1 값을 구하시오 library(dplyr) df=read.csv('../input/bigdatacertificationkr/basic1.csv') ans%filter(!is.na(f1)) %>%group_by(city,f2) %>%summarise(v=sum(f1)) %>%filter(city=='경기'&f2==0))$v print(ans) #정답 : 833 암기 library(dplyr) %>% group_by(컬럼1,컬럼2) #group_by()에서 지정한 열의 수준(level)별로 그룹화
주어진 데이터 중 basic1.csv에서 'f4'컬럼 값이 'ENFJ'와 'INFP'인 'f1'의 표준편차 차이를 절대값으로 구하시오 library(dplyr) df=read.csv('../input/bigdatacertificationkr/basic1.csv') ans%filter(f4=='ENFJ'|f4=='INFP') %>%group_by(f4) %>%summarise(v=sd(f1,na.rm=T)) %>%select(v)%>%apply(2,diff) %>%abs print(ans) #정답 : 5.859622 암기 library(dplyr) %>% group_by(f4) #group_by()에서 지정한 열의 수준(level)별로 그룹화 %>% select(value) #select 열 추출(-붙이면..
주어진 데이터 중 train.csv에서 'SalePrice'컬럼의 왜도와 첨도를 구한 값과, 'SalePrice'컬럼을 스케일링(log1p)로 변환한 이후 왜도와 첨도를 구해 모두 더한 다음 소수점 2째자리까지 출력하시오 library(e1071) library(dplyr) df%mutate(log_saleprice=log(SalePrice)) %>%summarise(bef_kur=kurtosis(SalePrice),bef_skew=skewness(SalePrice),after_kur=kurtosis(log_saleprice),after_skew=skewness(log_saleprice)) %>%sum%>%round(2) #정답 : 9.29 암기 library(e1071) kurtosis() #첨도 sk..
주어진 데이터에서 결측치가 80%이상 되는 컬럼은(변수는) 삭제하고, 80% 미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값 library(dplyr) df=read.csv('../input/bigdatacertificationkr/basic1.csv') apply(is.na(df),2,sum) # f1에 31개 df1=df %>% group_by(city) %>% mutate(pre_f1=ifelse(is.na(f1),median(f1,na.rm=T),f1)) mean(df1$pre_f1) #정답:65.52
주어진 데이터에서 이상치(소수점 나이)를 찾고 올림, 내림, 버림(절사)했을때 3가지 모두 이상치 'age' 평균을 구한 다음 모두 더하여 출력하시오 library(dplyr) df%filter((age*10)%%10!=0)%>%mutate(up=ceiling(age),low=floor(age),tr=trunc(age)) %>%summarise(mean1 = mean(up),mean2=mean(low), mean3=mean(tr)) %>%apply(1,sum) #정답:70
데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오 df%summarise(n=n()) cat(ans$n) #정답:69.5
read_csv 함수는 데이터를 tibble로 R에 가져오는 반면, read.csv는 대신 일반 이전 R 데이터 프레임을 가져옵니다. Tibbles는 다음과 같은 이유로 일반 데이터 프레임보다 낫습니다. 더 빠르게 로드 입력 유형을 변경하지 마십시오 열을 목록으로 가질 수 있습니다. 비표준 변수 이름 허용(예: 변수는 숫자로 시작하고 공백을 포함할 수 있음) 행 이름을 만들지 마십시오 티블이 기존 데이터 프레임보다 나은 다른 미묘한 이유가 있지만 지금은 다음 사항만 알아야 합니다. read_csv는 티블을 생성합니다. read.csv는 일반 데이터 프레임을 만듭니다. 데이터가 R에 로드될 때까지 기다리는 것 외에 할 일이 더 많은 데이터 과학자라면 데이터 프레임 대신 tibble을 로드해야 합니다..