DataScience
article thumbnail
R 데이터프레임에서 데이터타입 조건으로 원하는 컬럼만 추출
R 2022. 12. 14. 13:35

sapply함수 사용해서 각 컬럼별 is.numeric조건을 적용한다. sapply(df,is.numeric) ID TRUE age TRUE job FALSE marital FALSE education FALSE default FALSE balance TRUE housing FALSE loan FALSE contact FALSE day TRUE month FALSE campaign TRUE pdays TRUE previous TRUE poutcome FALSE y FALSE sapply 리턴값을 df[ ]안에 넣어주면 원하는 조건의 컬럼만 추출된다. df[(sapply(df,is.numeric))] ]

article thumbnail
Error in sum(List) : invalid ‘type’ (list) of argument, sum()
R 2022. 12. 14. 13:34

리스트 만들어주고 List %에서도 데이터프레임 컬럼 내용인데 summarise(sum(컬럼명))을 해도 에러가 났다. ​ ​ unlist로 리스트를 벡터로 변환해주니 sum이 제대로 작동한다.

Error in parse_repo_spec(repo) : Invalid git repo specification: 'ggbiplot'
R 2022. 12. 14. 13:32

install.packages("devtools") library(devtools) install_github("ggbiplot","vqv") ​ > install_github("ggbiplot", "vqv") Error in parse_repo_spec(repo) : Invalid git repo specification: 'ggbiplot' ​ devtools 패키지 설치후 github로 ggbiplot 패키지 설치하려니 에러가 뜬다. ​ install_github("vqv/ggbiplot") 이렇게 수정하고 실행하니 설치가 잘됨 > install_github("vqv/ggbiplot") Downloading GitHub repo vqv/ggbiplot@HEAD v checking for file '..

article thumbnail
R 구간 범주화, 변수 리코딩
R 2022. 12. 14. 13:31

mutate(): 변수 리코딩(re-coding) ​ 범주형 변수의 수준 간소화​ ​ case_when():cut, ifelse와 비슷한 기능을 한다. %>% mutate( 새로운컬럼명 = case_when( 변수 %in% c("원하는 값1", "원하는 값2", "원하는 값3") ~ "참 리턴값", TRUE ~ "거짓 리턴값" ) ) ​ ​ 연속형 변수-> 범주형 변수 df%>%mutate(education2=case_when( education == 1 ~"대졸", education == 2 ~"고졸", education == 3 ~"중졸" )) df%>%mutate(새로운컬럼명=case_when( 변수 == 비교값 ~"리턴값", 변수 == 비교값 ~"리턴값", 변수 == 비교값 ~"리턴값", TRUE..

article thumbnail
tie가 있어 정확한 p값을 계산할 수 없습니다
R 2022. 12. 14. 13:28

wilcox.test를 하다보니 warning message가 거슬려서 찾아보니 ​ wilcoxon signed rank test는 샘플값을 정렬(sort)한 다음에 중앙값(median)을 가지고 검정통계량을 계산하는데요.동일한 정렬순서의 값이 있으면 통계량과 p-value가 정확하지않을수 있다는 뜻입니다. 샘플 수가 작으면 문제가 될수 있으며, 샘플 사이즈가 크면 무시하셔도 대세에 지장은 없습니다.