왜도, 첨도, 히스토그램, 기술통계랑

왜도

평균을 중심으로 하는 확률분포의 비대칭 정도를 나타내는 지표. 분포의 기울어진 방향과 정도를 나타내는 양

>0 : 분포의 오른쪽 방향으로 비대칭 꼬리가 치우침

<0 : 분포의 왼쪽 방향으로 비대칭 꼬리가 치우침

=0 : 평균을 중심으로 좌우대칭

첨도

표준정규분포와 비교하여 얼마나 뾰족한가를 측정하는 지표

=0 (또는 3) : 정규분포 곡선

>0 : 정규분포보다 뾰족한 형태

<0 : 정규분포보다 완만한 곡선 형태

※ 첨도식에서 -3을 적용하지 않으면 정규분포의 첨도는 3

#1단계: 왜도와 첨도 사용을 위한 패키지 설치
install.packages("moments")
library(moments)
cost <- data$cost

#2단계: 왜도 구하기
skewness(cost)

#3단계: 첨도 구하기
kurtosis(cost)
# kurtosis()함수에서 첨도 식에서 -3을 미 적용 -> 정규분포첨도는 3

#4단계: 히스토그램으로 왜도와 첨도 확인
hist(cost)
par(mfrow = c(1, 1))

히스토그램과 정규분포 곡선 그리기

hist(cost, freq = F)
lines(density(cost), col = 'blue')
x <- seq(0, 8, 0.1)
curve(dnorm(x, mean(cost), sd(cost)), col = 'red', add = T)
#line()함수: 분포선 추가
#curve()함수: 정규분포 확률밀도 구함

attach()함수 : database가 R search path에 추가됨. 데이터셋을 추가하면 이후부터는 ‘data$’ 생략 가능

detach()함수 : attach()함수 해제

attach(data)
length(cost)
summary(cost)
mean(cost)
sqrt(var(cost, na.rm = T))
sd(cost, na.rm = T)
detach(data)

결측치 제거 후 기술통계량

#1단계: NA가 있으면 error발생 함수
test <- c(1:5, NA, 10:20)
min(test)
max(test)
range(test)
mean(test)

#2단계: NA제거 후 통계량 구하기
min(test, na.rm = T)
max(test, na.rm = T)
range(test, na.rm = T)
mean(test, na.rm = T)

저작자표시 (새창열림)

'데이터분석 > 통계기반' 카테고리의 다른 글

회귀분석(Regression Analysis) (0)	2022.12.12
분산분석(ANOVA Analysis) (F-검정) (0)	2022.12.12
집단간 차이분석 (1)	2022.12.12
교차분석과 카이제곱 검정 (1)	2022.12.12
빅분기 실기 R,Python 베이스라인, 기본코드 (0)	2022.12.12

왜도

첨도

히스토그램과 정규분포 곡선 그리기

결측치 제거 후 기술통계량

'데이터분석 > 통계기반' 카테고리의 다른 글

티스토리툴바