주어진 데이터 중 train.csv에서 'SalePrice'컬럼의 왜도와 첨도를 구한 값과, 'SalePrice'컬럼을 스케일링(log1p)로 변환한 이후 왜도와 첨도를 구해 모두 더한 다음 소수점 2째자리까지 출력하시오 library(e1071) library(dplyr) df%mutate(log_saleprice=log(SalePrice)) %>%summarise(bef_kur=kurtosis(SalePrice),bef_skew=skewness(SalePrice),after_kur=kurtosis(log_saleprice),after_skew=skewness(log_saleprice)) %>%sum%>%round(2) #정답 : 9.29 암기 library(e1071) kurtosis() #첨도 sk..
주어진 데이터에서 결측치가 80%이상 되는 컬럼은(변수는) 삭제하고, 80% 미만인 결측치가 있는 컬럼은 'city'별 중앙값으로 값을 대체하고 'f1'컬럼의 평균값 library(dplyr) df=read.csv('../input/bigdatacertificationkr/basic1.csv') apply(is.na(df),2,sum) # f1에 31개 df1=df %>% group_by(city) %>% mutate(pre_f1=ifelse(is.na(f1),median(f1,na.rm=T),f1)) mean(df1$pre_f1) #정답:65.52
주어진 데이터에서 이상치(소수점 나이)를 찾고 올림, 내림, 버림(절사)했을때 3가지 모두 이상치 'age' 평균을 구한 다음 모두 더하여 출력하시오 library(dplyr) df%filter((age*10)%%10!=0)%>%mutate(up=ceiling(age),low=floor(age),tr=trunc(age)) %>%summarise(mean1 = mean(up),mean2=mean(low), mean3=mean(tr)) %>%apply(1,sum) #정답:70
데이터에서 IQR을 활용해 Fare컬럼의 이상치를 찾고, 이상치 데이터의 여성 수를 구하시오 df%summarise(n=n()) cat(ans$n) #정답:69.5
작업폴더내 torch.py 가 있어서 그렇다 다른이름으로 바꿔준뒤 다시 import해본다.
ImportError: cannot import name 'TabularDataset' from 'torchtext.data'= torchtext.data가 버전이 바뀌면서 torchtext.legacy로 바뀌었다고 한다. from torchtext.legacy.data import TabularDataset Error: No module named ‘torchtext.legacy’ 구글링해보니 torchtext.legacy.data로 바꿔주면 된다 하는데 아무리 해도 안되서 torchtext버전을 강제로 지정해줬다 !pip install torchtext==0.10.1 --user 0.10.1 버전으로 설치하니 torchtext.legacy.data가 잘 작동한다.
texts="""나라의 말이 중국과 달라 한자와는 서로 통하지 아니하여서 이런 까닭으로 어리석은 백성이 말하고자 하는 바가 있어도 마침내 제 뜻을 능히 펴지 못하는 사람이 많다 내가 이를 위하여 가엾게 여겨 새로 스물여덟 자를 만드니 사람마다 하여금 쉽게 익혀 날마다 씀에 편안케 하고자 할 따름이다""" texts=texts.split('\n') display(texts) ['나라의 말이 중국과 달라 ', '한자와는 서로 통하지 아니하여서 ', '이런 까닭으로 어리석은 백성이 ', '말하고자 하는 바가 있어도 ', '마침내 제 뜻을 능히 펴지', '못하는 사람이 많다', '내가 이를 위하여 가엾게 여겨 ', '새로 스물여덟 자를 만드니', '사람마다 하여금 쉽게 익혀 날마다 씀에 ', '편안케 하고자 할..