DataScience
article thumbnail
728x90

T-검정과 동일하게 평균에 의한 차이 검정 방법

두 집단 이상의 평균 차이를 검정

​분석분석을 시행할 때 주의점:

• 1개의 범주형 독립변수와 종속변수 간의 관계를 분석하는 일원 분산분석과 두 개 이상의 독립변수가 종속변수에 미치는 효과를 분석하는 이원 분산분석으로 분류.

• 독립변수는 명목척도(성별), 종속변수는 등간척도나 비율척도로 구성되어야 한다.

• 마케팅전략의 효과, 소비자 집단의 반응 차이 등과 같이 기업의 의사결정에 도움을 주는 비계량적인 독립변수와 계량적인 종속변수 간의 관계를 파악할 때 이용한다

만일 ANOVA 가 아닌 여러 번 t 검정을 하면 안되나? -> 1종 오류가능성이 증대됨

예) 세 집단을 비교하기 위해서는 세 번의 독립표본 t 검정을 수행하여야 함. 각 t 검정에서 유의수준을 0.05로 설정하였다면, 세 번 모두 귀무가설이 맞는데 귀무가설을 기각하지 않은 옳은 결정을 할 확률은 0.95 ✕ 0.95 ✕ 0.95 = 0.86, 1종 오류는 0.14

분산분석에서 집단 간의 동질성 여부를 검정하기 위해서 barlett.test()함수 사용

cf) 두 집단 간 동질성 검정 시 var.test()함수 사용, 분산분석은 barlett.test()함수 사용

집단 간의 분포가 동질한 경우 분산분석을 위해 aov()함수 사용

집단 간의 분포가 동질하지 않는 경우 kruskal.test()함수 사용

사후비교(post hoc comparisons)

• 귀무가설이 기각된 경우 어떤 집단간 차이가 있는지 2개씩 짝지어 차이를 분석함

• m개의 집단이면 mC2 번 비교

• 집단 i와 집단 j를 비교하는 경우

H0:μi ​= μj H1:μi ​ ≠ μj

​​

사후비교 방법

• Least Squate Difference method: 최소유의차, 검정력이 낮음

• Bonferroni’s method LSD: 방법을 보완

• Scheffe’s method: 사회과학에서 많이 사용

• Tukey’s method : 검정력이 높음

TukeyHSD()함수를 이용하여 사후검정 수행

연구가설

H0: 교육 방법에 따른 세 집단 간 실기시험의 평균에 차이가 없다.

H1: 교육 방법에 따른 세 집단 간 실기시험의 평균에 차이가 있다.

연구환경

세 가지 교육 방법을 적용하여 1개월 동안 교육받은 교육생 각 50명씩을 대상으로 실기시험을 시행하였다. 세 집단 간 실기시험의 평균에 차이가 있는지를 검정한다.

 
#1단계: 데이터호출
data <- read.csv("C:/Rwork/three_sample.csv", header=T)
head(data)

#2단계: 데이터 전처리 (NA, 이상치 제거)
data <- subset(data, !is.na(score), c(method, score))
head(data)

#3단계: 차트이용 outlier보기(데이터 분포 현황 분석)
par(mfrow = c(1, 2))
plot(data$score)
barplot(data$score)
mean(data$score)

#4단계: 데이터 정제(이상치 제거, 평균(14)이상 제거)
length(data$score)
data2 <- subset(data, score < 14)
length(data2$score)

#5단계: 정제된 데이터 확인
x <- data2$score
par(mfrow = c(1, 1))
boxplot(x)

세 집단 subset작성과 기술 통계량

 
#1단계: 세집단 subset 작성
data2$method2[data2$method == 1] <- "방법1"
data2$method2[data2$method == 2] <- "방법2"
data2$method2[data2$method == 3] <- "방법3"

#2단계: 교육 방법별 빈도수
table(data2$method2)

#3단계: 교육 방법을 x변수에 저장
x <- table(data2$method2)
x

#4단계: 교육 방법에 따른 시험성적 평균 구하기
y <- tapply(data2$score, data2$method2, mean)
y

#5단계: 교육방법과 시험성적으로 데이터프레임 생성
df <- data.frame(교육방법 = x, 시험성적 = y)
df

세 집단 간 동질성 검정

barlett.test()함수 사용

검정 결과가 유의수준 0.05보다 큰 경우 세 집단 간 분포의 모양이 동질하다고 할 수 있다.
형식: barlett.test(종속변수 ~ 독립변수, data=dataset)

bartlett.test(score ~ method, data = data2)
※틸드(~)를 이용하여 분석 식을 작성하면 집단별로 subset을 만들지 않고 사용할 수 있다.

분산분석 (세 집단 간 평균 차이 검정)

세 집단 간의 동질성 검정에서 분포 형태가 동질하다고 분석되었기 때문에 aov()함수를 이용하여 세 집단 간 평균 차이 검정

동질하지 않다면 kruskal.test()함수 이용하여 비모수 검정을 수행

 
help(aov)
result <- aov(score ~ method2, data = data2)
names(result)
summary(result)

사후검정

 

집단별로 평균의 차에 대한 비교를 통해 사후검정을 수행

#1단계: 분산분석 결과에 대한 사후검정 TukeyHSD(result) #2단계: 사후검정 시각화 plot(TukeyHSD(result))

lwr과 upr은 신뢰구간의 하한값과 상한값이다.

95% 신뢰수준에서 신뢰구간의 범위가 0을 포함하지 않으면 차이가 통계적으로 유의하다.

‘통계적으로 유의하다’는 의미는 t값이 채택역을 벗어나거나, p adj값이 0.05미만인 경우를 말한다.

만약 신뢰구간에 0이 포함되면 차이가 통계적으로 유의하지 않다.즉 집단 간의 평균 차이가 없다고 볼 수 있다. 따라서 유의미한 수준에서 세 집단 간 분산의 차이가 있다고 볼 수 있다 (세 집단 모두 p adj < 0.05)

​분산분석 검정 결과 정리 및 기술

가설검정
귀무가설(H0): 교육 방법에 따른 세 집단 간 실기시험의 평균에 차이가 없다.
연구가설(H1): 교육 방법에 따른 세 집단 간 실기시험의 평균에 차이가 있다.
연구환경
세 가지 교육 방법을 적용하여 1개월 동안 교육받은 교육생 각 50명씩을 대상으로 실기시험을 시행하였다. 세 집단 간 실기시험의 평균에 차이가 있는지를 검정한다.
유의수준
α = 0.05
분석방법
ANOVA검정
검정통계량
F=43.58, df=2, Sum Sq = 99.37, Mean Sq = 49.68
유의확률
P = 9.39e-14
결과해석
유의수준 0.05에서 귀무가설이 기각되었다. 따라서 교육 방법에 따른 세 집단 간 실기시험의 평균에 차이가 dlTsms 것으로 나타났다. 또한 사후검정을 위한 Tukey분석을 시행한 결과 ‘방법2- 방법1’의 평균 점수의 차이가 가장 높은 것으로 나타났다.

 

 

profile

DataScience

@Ninestar

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!