오류분류표(Confusion matrix)

728x90

1) 오류분류표

분류 분석 모형의 평가에 일반적으로 사용

목표 변수의 실제 범주와 모형에 의해 예측된 분류 범주 사이의 관계를 나타내는 표

		예측치		합계
		True	False	합계
실제값	True	TP	FN	P
실제값	False	FP	TN	N
합계		P'	N'	P+N

• TP(True Positives): 실제값과 예측치 모두 True인 빈도

• TN(True Negatives): 실제값과 예측치 모두 False인 빈도

• FP(False Positives): 실제값은 False이나 True로 예측한 빈도

• FN(False Negatives): 실제값은 True이나 False로 예측한 빈도

2) 오류분류표 활용 모형 평가 지표

(1) 정분류율(accuracy, recognition rate)

$Accuracy\ =\ \frac{TP+TN}{P+N}$

• 전체 관측치중 실제값과 예측치가 일치한 정도

• 정분류율은 범주의 분포가 균형을 이룰 때 효과적인 평가지표

(2) 오분류율(error rate, misclassification rate)

$error\ rate=\ \frac{FP+FN}{P+N}$

• 모형이 제대로 예측하지 못한 관측치를 평가하는 지표

• 전체 관측치 중 실제값과 예측치가 다른 정도를 나타냄

• 1-accuracy 또는 다음 식으로 평가

(3) 범주 불균형 문제

• 대부분의 분류 분석 대상은 소수 집단에 대한 예측 실패의 비용이 다수 집단에 대한 예측 실패의 비용보다 큼

• 예) 암환자 분류 모형의 경우 암환자는 소수 집단인데 반해 이를 잘못 예측했을 경우의 비용이 다수 집단인 건강한 환자를 잘못 예측한 경우보다 훨씬 큼

• 범주 불균형 문제(class imbalance problem)를 가지고 있는 데이터에 대한 분류 분석 모형의 평가지표는 중요한 분류 범주만 다루어야 함

평가지표:

민감도(sensitivity), 특이도(specificity), 정확도(exactness), 재현율(recall)

• 민감도: 실제값이 True인 관측치 중 예측치가 적중한 정도

• 특이도: 실제값이 False인 관측치중 예측치가 적중한 정도

$sensitivity\ =\ \frac{TP}{P}$

$specificity\ =\ \frac{TN}{N}$

• 정확도: True로 예측한 관측치 중 실제값이 True인 정도를 나타냄

• 재현율: 실제값이 True인 관측치 중 예측치가 적중한 정도를 나타내는 민감도와 동일한 지표. 모형의 완전성(completeness)를 평가하는 지표

$Pecison\ =\ \frac{TP}{TP+FP}$

$Recall\ =\ \frac{TP}{TP+FN}=\frac{TP}{P}$

• 정확도와 재현율은 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계

• 이러한 효과를 보정하여 하나의 지표로 나타낸 것 --> F1지표(F1 score), Fbeta지표

$F1\ =\ \frac{2\times \Pr ecision\times Recall}{\Pr ecision+Recall}$

$F_{\beta }\ =\ \frac{\left(1+\beta ^2\right)\times \Pr ecision\times Recall}{\beta ^2\times \Pr ecision+Recall}$

• F1지표는 정확도와 재현율의 조화평균. 정확도와 재현율에 같은 가중치를 부여하여 평균

• Fbeta지표에서 beta는 양수로 beta값 만큼 재현율에 가중치를 주어 평균

저작자표시

'데이터분석 > 머신러닝기반' 카테고리의 다른 글

인공신경망(Artificial Neural Network) (4)	2022.12.12
XGBoost (1)	2022.12.12
연관분석(Association Analysis) (0)	2022.12.12
군집분석(Cluster Analysis) (3)	2022.12.12
서포트벡터머신(Support Vector Machine) (1)	2022.12.12

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

'데이터분석 > 머신러닝기반' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역