R
R 구간 범주화, 변수 리코딩
Ninestar
2022. 12. 14. 13:31
반응형
mutate(): 변수 리코딩(re-coding)
범주형 변수의 수준 간소화
case_when():cut, ifelse와 비슷한 기능을 한다.
%>%
mutate(
새로운컬럼명 = case_when(
변수 %in% c("원하는 값1", "원하는 값2", "원하는 값3") ~ "참 리턴값",
TRUE ~ "거짓 리턴값"
)
)
연속형 변수-> 범주형 변수
df%>%mutate(education2=case_when(
education == 1 ~"대졸",
education == 2 ~"고졸",
education == 3 ~"중졸"
))
df%>%mutate(새로운컬럼명=case_when(
변수 == 비교값 ~"리턴값",
변수 == 비교값 ~"리턴값",
변수 == 비교값 ~"리턴값",
TRUE~"리턴값"
))
등간격 범주화
cut_width(변수, width = 폭, boundary = 경계값, colosed = "left")
경계값과 폐구간을 지정하는 boundary와 closed 옵션
cut_interval(변수, n):n등분한 후 n개의 범주로 지정하는 함수
cut_number(변수, n):빈도수 기준으로 빈도수가 유사하게 n개의 범주로 지정해주는 함수