728x90
read_csv 함수는 데이터를 tibble로 R에 가져오는 반면, read.csv는 대신 일반 이전 R 데이터 프레임을 가져옵니다.
Tibbles는 다음과 같은 이유로 일반 데이터 프레임보다 낫습니다.
- 더 빠르게 로드
- 입력 유형을 변경하지 마십시오
- 열을 목록으로 가질 수 있습니다.
- 비표준 변수 이름 허용(예: 변수는 숫자로 시작하고 공백을 포함할 수 있음)
- 행 이름을 만들지 마십시오
티블이 기존 데이터 프레임보다 나은 다른 미묘한 이유가 있지만 지금은 다음 사항만 알아야 합니다.
- read_csv는 티블을 생성합니다.
- read.csv는 일반 데이터 프레임을 만듭니다.
- 데이터가 R에 로드될 때까지 기다리는 것 외에 할 일이 더 많은 데이터 과학자라면 데이터 프레임 대신 tibble을 로드해야 합니다.
library(readr)
readr_df<-read_csv('../input/bigdatacertificationkr/basic2.csv')
read_df<-read.csv('../input/bigdatacertificationkr/basic2.csv')
str(readr_df)
str(read_df)
readr::read_csv
spec_tbl_df [730 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
$ Date : Date[1:730], format: "2022-01-01" "2022-01-02" ...
$ Sales : num [1:730] 22711525 36779 13943875 8088593 2395374 ...
$ PV : num [1:730] 397349 3969 373890 142054 190684 ...
$ UV : num [1:730] 4421 2289 NA 2157 NA ...
$ Events: num [1:730] 1 0 1 0 0 1 0 0 0 0 ...
- attr(*, "spec")=
.. cols(
.. Date = col_date(format = ""),
.. Sales = col_double(),
.. PV = col_double(),
.. UV = col_double(),
.. Events = col_double()
.. )
- attr(*, "problems")=<externalptr>
read.csv
'data.frame': 730 obs. of 5 variables:
$ Date : chr "2022-01-01" "2022-01-02" "2022-01-03" "2022-01-04" ...
$ Sales : int 22711525 36779 13943875 8088593 2395374 1709350 5306457 1052325 877848 9112911 ...
$ PV : int 397349 3969 373890 142054 190684 177815 155749 53467 54805 94024 ...
$ UV : int 4421 2289 NA 2157 NA 5340 3789 1793 2110 2471 ...
$ Events: int 1 0 1 0 0 1 0 0 0 0 ...
불러온 데이터들 형식보면 Date는 알아서 Date형식으로 변환이 되었다.
read_csv를 좀더 자주 써야겠다.
'R' 카테고리의 다른 글
패키지 MASS, dplyr select함수 충돌 Error in select(., Kor) : unused argument (Kor) (14) | 2022.12.22 |
---|---|
R 데이터프레임에서 데이터타입 조건으로 원하는 컬럼만 추출 (0) | 2022.12.14 |
Error in sum(List) : invalid ‘type’ (list) of argument, sum() (0) | 2022.12.14 |
Error in type.convert.default:invalid multibyte string at '<ec><84><9c>?<b8>' (0) | 2022.12.14 |
Error in parse_repo_spec(repo) : Invalid git repo specification: 'ggbiplot' (0) | 2022.12.14 |