DataScience
article thumbnail
728x90

왜도

평균을 중심으로 하는 확률분포의 비대칭 정도를 나타내는 지표. 분포의 기울어진 방향과 정도를 나타내는 양

>0 : 분포의 오른쪽 방향으로 비대칭 꼬리가 치우침

<0 : 분포의 왼쪽 방향으로 비대칭 꼬리가 치우침

=0 : 평균을 중심으로 좌우대칭

첨도

표준정규분포와 비교하여 얼마나 뾰족한가를 측정하는 지표

=0 (또는 3) : 정규분포 곡선

>0 : 정규분포보다 뾰족한 형태

<0 : 정규분포보다 완만한 곡선 형태

※ 첨도식에서 -3을 적용하지 않으면 정규분포의 첨도는 3

 
#1단계: 왜도와 첨도 사용을 위한 패키지 설치
install.packages("moments")
library(moments)
cost <- data$cost

#2단계: 왜도 구하기
skewness(cost)

#3단계: 첨도 구하기
kurtosis(cost)
# kurtosis()함수에서 첨도 식에서 -3을 미 적용 -> 정규분포첨도는 3

#4단계: 히스토그램으로 왜도와 첨도 확인
hist(cost)
par(mfrow = c(1, 1))

히스토그램과 정규분포 곡선 그리기

 
hist(cost, freq = F)
lines(density(cost), col = 'blue')
x <- seq(0, 8, 0.1)
curve(dnorm(x, mean(cost), sd(cost)), col = 'red', add = T)
#line()함수: 분포선 추가
#curve()함수: 정규분포 확률밀도 구함

attach()함수 : database가 R search path에 추가됨. 데이터셋을 추가하면 이후부터는 ‘data$’ 생략 가능

detach()함수 : attach()함수 해제

attach(data)
length(cost)
summary(cost)
mean(cost)
sqrt(var(cost, na.rm = T))
sd(cost, na.rm = T)
detach(data)

 

결측치 제거 후 기술통계량

#1단계: NA가 있으면 error발생 함수
test <- c(1:5, NA, 10:20)
min(test)
max(test)
range(test)
mean(test)

#2단계: NA제거 후 통계량 구하기
min(test, na.rm = T)
max(test, na.rm = T)
range(test, na.rm = T)
mean(test, na.rm = T)
 
profile

DataScience

@Ninestar

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!