DataScience
Published 2022. 12. 14. 13:36
readr ::read_csv와 read.csv 차이 R
728x90

read_csv 함수는 데이터를 tibble로 R에 가져오는 반면, read.csv는 대신 일반 이전 R 데이터 프레임을 가져옵니다.

Tibbles는 다음과 같은 이유로 일반 데이터 프레임보다 낫습니다.

  • 더 빠르게 로드
  • 입력 유형을 변경하지 마십시오
  • 열을 목록으로 가질 수 있습니다.
  • 비표준 변수 이름 허용(예: 변수는 숫자로 시작하고 공백을 포함할 수 있음)
  • 행 이름을 만들지 마십시오

티블이 기존 데이터 프레임보다 나은 다른 미묘한 이유가 있지만 지금은 다음 사항만 알아야 합니다.

  1. read_csv는 티블을 생성합니다.
  2. read.csv는 일반 데이터 프레임을 만듭니다.
  3. 데이터가 R에 로드될 때까지 기다리는 것 외에 할 일이 더 많은 데이터 과학자라면 데이터 프레임 대신 tibble을 로드해야 합니다.
library(readr)
readr_df<-read_csv('../input/bigdatacertificationkr/basic2.csv')
read_df<-read.csv('../input/bigdatacertificationkr/basic2.csv')
str(readr_df)
str(read_df)
readr::read_csv
spec_tbl_df [730 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ Date  : Date[1:730], format: "2022-01-01" "2022-01-02" ...
 $ Sales : num [1:730] 22711525 36779 13943875 8088593 2395374 ...
 $ PV    : num [1:730] 397349 3969 373890 142054 190684 ...
 $ UV    : num [1:730] 4421 2289 NA 2157 NA ...
 $ Events: num [1:730] 1 0 1 0 0 1 0 0 0 0 ...
 - attr(*, "spec")=
  .. cols(
  ..   Date = col_date(format = ""),
  ..   Sales = col_double(),
  ..   PV = col_double(),
  ..   UV = col_double(),
  ..   Events = col_double()
  .. )
 - attr(*, "problems")=<externalptr> 


read.csv
'data.frame':	730 obs. of  5 variables:
 $ Date  : chr  "2022-01-01" "2022-01-02" "2022-01-03" "2022-01-04" ...
 $ Sales : int  22711525 36779 13943875 8088593 2395374 1709350 5306457 1052325 877848 9112911 ...
 $ PV    : int  397349 3969 373890 142054 190684 177815 155749 53467 54805 94024 ...
 $ UV    : int  4421 2289 NA 2157 NA 5340 3789 1793 2110 2471 ...
 $ Events: int  1 0 1 0 0 1 0 0 0 0 ...

불러온 데이터들 형식보면 Date는 알아서 Date형식으로 변환이 되었다.

read_csv를 좀더 자주 써야겠다.

profile

DataScience

@Ninestar

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!