728x90
왜도
평균을 중심으로 하는 확률분포의 비대칭 정도를 나타내는 지표. 분포의 기울어진 방향과 정도를 나타내는 양
>0 : 분포의 오른쪽 방향으로 비대칭 꼬리가 치우침
<0 : 분포의 왼쪽 방향으로 비대칭 꼬리가 치우침
=0 : 평균을 중심으로 좌우대칭
첨도
표준정규분포와 비교하여 얼마나 뾰족한가를 측정하는 지표
=0 (또는 3) : 정규분포 곡선
>0 : 정규분포보다 뾰족한 형태
<0 : 정규분포보다 완만한 곡선 형태
※ 첨도식에서 -3을 적용하지 않으면 정규분포의 첨도는 3
#1단계: 왜도와 첨도 사용을 위한 패키지 설치
install.packages("moments")
library(moments)
cost <- data$cost
#2단계: 왜도 구하기
skewness(cost)
#3단계: 첨도 구하기
kurtosis(cost)
# kurtosis()함수에서 첨도 식에서 -3을 미 적용 -> 정규분포첨도는 3
#4단계: 히스토그램으로 왜도와 첨도 확인
hist(cost)
par(mfrow = c(1, 1))
히스토그램과 정규분포 곡선 그리기
hist(cost, freq = F)
lines(density(cost), col = 'blue')
x <- seq(0, 8, 0.1)
curve(dnorm(x, mean(cost), sd(cost)), col = 'red', add = T)
#line()함수: 분포선 추가
#curve()함수: 정규분포 확률밀도 구함
attach()함수 : database가 R search path에 추가됨. 데이터셋을 추가하면 이후부터는 ‘data$’ 생략 가능
detach()함수 : attach()함수 해제
attach(data)
length(cost)
summary(cost)
mean(cost)
sqrt(var(cost, na.rm = T))
sd(cost, na.rm = T)
detach(data)
결측치 제거 후 기술통계량
#1단계: NA가 있으면 error발생 함수
test <- c(1:5, NA, 10:20)
min(test)
max(test)
range(test)
mean(test)
#2단계: NA제거 후 통계량 구하기
min(test, na.rm = T)
max(test, na.rm = T)
range(test, na.rm = T)
mean(test, na.rm = T)
'데이터분석 > 통계기반' 카테고리의 다른 글
회귀분석(Regression Analysis) (0) | 2022.12.12 |
---|---|
분산분석(ANOVA Analysis) (F-검정) (0) | 2022.12.12 |
집단간 차이분석 (1) | 2022.12.12 |
교차분석과 카이제곱 검정 (1) | 2022.12.12 |
빅분기 실기 R,Python 베이스라인, 기본코드 (0) | 2022.12.12 |