DataScience
article thumbnail
Published 2022. 12. 14. 13:31
R 구간 범주화, 변수 리코딩 R
728x90

mutate(): 변수 리코딩(re-coding)

범주형 변수의 수준 간소화

case_when():cut, ifelse와 비슷한 기능을 한다.

%>% 
  mutate(
    새로운컬럼명 = case_when(
      변수 %in% c("원하는 값1", "원하는 값2", "원하는 값3") ~ "참 리턴값",
      TRUE ~ "거짓 리턴값"
    )
  )

연속형 변수-> 범주형 변수

df%>%mutate(education2=case_when(
  education == 1 ~"대졸",
  education == 2 ~"고졸",
  education == 3 ~"중졸"
))

df%>%mutate(새로운컬럼명=case_when(
                    변수 == 비교값 ~"리턴값",
                    변수 == 비교값 ~"리턴값",
                    변수 == 비교값 ~"리턴값",
                    TRUE~"리턴값"
))

등간격 범주화

cut_width(변수, width = 폭, boundary = 경계값, colosed = "left")

경계값과 폐구간을 지정하는 boundary와 closed 옵션

cut_interval(변수, n):n등분한 후 n개의 범주로 지정하는 함수

cut_number(변수, n):빈도수 기준으로 빈도수가 유사하게 n개의 범주로 지정해주는 함수

profile

DataScience

@Ninestar

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!