T-검정과 동일하게 평균에 의한 차이 검정 방법
두 집단 이상의 평균 차이를 검정
분석분석을 시행할 때 주의점:
• 1개의 범주형 독립변수와 종속변수 간의 관계를 분석하는 일원 분산분석과 두 개 이상의 독립변수가 종속변수에 미치는 효과를 분석하는 이원 분산분석으로 분류.
• 독립변수는 명목척도(성별), 종속변수는 등간척도나 비율척도로 구성되어야 한다.
• 마케팅전략의 효과, 소비자 집단의 반응 차이 등과 같이 기업의 의사결정에 도움을 주는 비계량적인 독립변수와 계량적인 종속변수 간의 관계를 파악할 때 이용한다
만일 ANOVA 가 아닌 여러 번 t 검정을 하면 안되나? -> 1종 오류가능성이 증대됨
예) 세 집단을 비교하기 위해서는 세 번의 독립표본 t 검정을 수행하여야 함. 각 t 검정에서 유의수준을 0.05로 설정하였다면, 세 번 모두 귀무가설이 맞는데 귀무가설을 기각하지 않은 옳은 결정을 할 확률은 0.95 ✕ 0.95 ✕ 0.95 = 0.86, 1종 오류는 0.14
분산분석에서 집단 간의 동질성 여부를 검정하기 위해서 barlett.test()함수 사용
cf) 두 집단 간 동질성 검정 시 var.test()함수 사용, 분산분석은 barlett.test()함수 사용
집단 간의 분포가 동질한 경우 분산분석을 위해 aov()함수 사용
집단 간의 분포가 동질하지 않는 경우 kruskal.test()함수 사용
사후비교(post hoc comparisons)
• 귀무가설이 기각된 경우 어떤 집단간 차이가 있는지 2개씩 짝지어 차이를 분석함
• m개의 집단이면 mC2 번 비교
• 집단 i와 집단 j를 비교하는 경우
H0:μi = μj H1:μi ≠ μj
사후비교 방법
• Least Squate Difference method: 최소유의차, 검정력이 낮음
• Bonferroni’s method LSD: 방법을 보완
• Scheffe’s method: 사회과학에서 많이 사용
• Tukey’s method : 검정력이 높음
TukeyHSD()함수를 이용하여 사후검정 수행
연구가설
H0: 교육 방법에 따른 세 집단 간 실기시험의 평균에 차이가 없다.
H1: 교육 방법에 따른 세 집단 간 실기시험의 평균에 차이가 있다.
연구환경
세 가지 교육 방법을 적용하여 1개월 동안 교육받은 교육생 각 50명씩을 대상으로 실기시험을 시행하였다. 세 집단 간 실기시험의 평균에 차이가 있는지를 검정한다.
#1단계: 데이터호출
data <- read.csv("C:/Rwork/three_sample.csv", header=T)
head(data)
#2단계: 데이터 전처리 (NA, 이상치 제거)
data <- subset(data, !is.na(score), c(method, score))
head(data)
#3단계: 차트이용 outlier보기(데이터 분포 현황 분석)
par(mfrow = c(1, 2))
plot(data$score)
barplot(data$score)
mean(data$score)
#4단계: 데이터 정제(이상치 제거, 평균(14)이상 제거)
length(data$score)
data2 <- subset(data, score < 14)
length(data2$score)
#5단계: 정제된 데이터 확인
x <- data2$score
par(mfrow = c(1, 1))
boxplot(x)
세 집단 subset작성과 기술 통계량
#1단계: 세집단 subset 작성
data2$method2[data2$method == 1] <- "방법1"
data2$method2[data2$method == 2] <- "방법2"
data2$method2[data2$method == 3] <- "방법3"
#2단계: 교육 방법별 빈도수
table(data2$method2)
#3단계: 교육 방법을 x변수에 저장
x <- table(data2$method2)
x
#4단계: 교육 방법에 따른 시험성적 평균 구하기
y <- tapply(data2$score, data2$method2, mean)
y
#5단계: 교육방법과 시험성적으로 데이터프레임 생성
df <- data.frame(교육방법 = x, 시험성적 = y)
df
세 집단 간 동질성 검정
barlett.test()함수 사용
검정 결과가 유의수준 0.05보다 큰 경우 세 집단 간 분포의 모양이 동질하다고 할 수 있다.
형식: barlett.test(종속변수 ~ 독립변수, data=dataset)
bartlett.test(score ~ method, data = data2)
※틸드(~)를 이용하여 분석 식을 작성하면 집단별로 subset을 만들지 않고 사용할 수 있다.
분산분석 (세 집단 간 평균 차이 검정)
세 집단 간의 동질성 검정에서 분포 형태가 동질하다고 분석되었기 때문에 aov()함수를 이용하여 세 집단 간 평균 차이 검정
동질하지 않다면 kruskal.test()함수 이용하여 비모수 검정을 수행
help(aov)
result <- aov(score ~ method2, data = data2)
names(result)
summary(result)
사후검정
집단별로 평균의 차에 대한 비교를 통해 사후검정을 수행
lwr과 upr은 신뢰구간의 하한값과 상한값이다.
95% 신뢰수준에서 신뢰구간의 범위가 0을 포함하지 않으면 차이가 통계적으로 유의하다.
‘통계적으로 유의하다’는 의미는 t값이 채택역을 벗어나거나, p adj값이 0.05미만인 경우를 말한다.
만약 신뢰구간에 0이 포함되면 차이가 통계적으로 유의하지 않다.즉 집단 간의 평균 차이가 없다고 볼 수 있다. 따라서 유의미한 수준에서 세 집단 간 분산의 차이가 있다고 볼 수 있다 (세 집단 모두 p adj < 0.05)
분산분석 검정 결과 정리 및 기술
가설검정
|
귀무가설(H0): 교육 방법에 따른 세 집단 간 실기시험의 평균에 차이가 없다.
|
|
연구가설(H1): 교육 방법에 따른 세 집단 간 실기시험의 평균에 차이가 있다.
|
||
연구환경
|
세 가지 교육 방법을 적용하여 1개월 동안 교육받은 교육생 각 50명씩을 대상으로 실기시험을 시행하였다. 세 집단 간 실기시험의 평균에 차이가 있는지를 검정한다.
|
|
유의수준
|
α = 0.05
|
|
분석방법
|
ANOVA검정
|
|
검정통계량
|
F=43.58, df=2, Sum Sq = 99.37, Mean Sq = 49.68
|
|
유의확률
|
P = 9.39e-14
|
|
결과해석
|
유의수준 0.05에서 귀무가설이 기각되었다. 따라서 교육 방법에 따른 세 집단 간 실기시험의 평균에 차이가 dlTsms 것으로 나타났다. 또한 사후검정을 위한 Tukey분석을 시행한 결과 ‘방법2- 방법1’의 평균 점수의 차이가 가장 높은 것으로 나타났다.
|
'데이터분석 > 통계기반' 카테고리의 다른 글
로지스틱 회귀분석(Logistic Regression Analysis) (0) | 2022.12.12 |
---|---|
회귀분석(Regression Analysis) (0) | 2022.12.12 |
왜도, 첨도, 히스토그램, 기술통계랑 (0) | 2022.12.12 |
집단간 차이분석 (1) | 2022.12.12 |
교차분석과 카이제곱 검정 (1) | 2022.12.12 |