DataScience
728x90

전자공학회논문지 - CI Computer and Information

2011, vol.48, no.1, pp. 44-50

발행기관 : 대한전자공학회

연구분야 : 공학

저자 :김태현 /Tae-Hyun Kim   박동철 /PARK, DONG CHUL

명지대학교

출처 : https://scienceon.kisti.re.kr/commons/util/originalView.do?cn=JAKO201115537947331&dbt=JAKO&koi=KISTI1.1003%2FJNL.JAKO201115537947331

초록

본 논문은 다중 클래스 데이터의 효율적 분류를 위한 새로운 아다부스트 알고리즘을 제안한다. 기존의 아다부스트 알고리즘은 기본적으로 이진 분류기이므로 다중 클래스 데이터 분류의 적용에는 매우 제한적이었다. 이를 극복하기 위하여 제안된 알고리즘은 여러 개의 이진 분류기 대신 하나의 다중 분류기를 약 분류기로 사용함으로써 학습시간을 단축시키고 안정적인 정확도를 얻을 수 있는 장점이 있다. 제안하는 알고리즘의 성능을 평가하기 위하여 Caltech 영상 데이터베이스에서 4가지클래스의영상 데이터를 총 800개 수집하여 영상 분류 실험을 진행하였다. 실험의 결과 제안된 다중 클래스 아다부스트 알고리즘은Adaboost.M2 알고리즘에 비해 분류정확도는 대등한 결과를 얻었지만, 학습시간을 학습단계에 따라 83.1%까지 감소시킬 수 있었다.

키워드

Image Classification, Data retrieval, Adaboost.
 
 
제안 방법
  • M2 그리고 제안된 다중 분류기 기반아다부스트(MC) 알고리즘의 정확도를 비교하였다.
  • ~场과 약 분류기들을 이용하여 하나의 강 분류기를 생성하는 부스팅 (Boosting) 기벱'을 결합하여 효과적으로 영상을 분류하는 새로운 다중 분류기 기반 아다부스트(AdaBoost) 알고리즘을 제안한다.
  • 阶그중 Self eOrganization Map(SOM)® 과 Centroid Neural Network(CNN)m~m을 본 실험에 사용하여, 제안된 알고리즘의 성능을 검증하고자 한다.
  • 각 데이터의 특징추출 과정에서 색상, 주파수, 형태, 패턴의 영역을 각각 표현해 줄수 있는 다음 4가지의 특징추출방법을 사용하였다.
  • 기존의 알고리즘과 제안된 알고리즘의 학습시간을비교하기 위해 전체 분류기의 학습단계(T)의 증가에 따른 학습 시간(sec)을 비교하였다.
  • 본 논문의 II장에서는 대표적인 부스팅 알고리즘인아다부스트 알고리즘과 기존의 다중 클래스 (multi-class)아다부스트 알고리즘에 대해 살펴보고, IH 장에서는 기존의 다중 클래스 아다부스트 알고리즘의문제를 개선한 새로운 다중 클래스 아다부스트 알고 리즘을 제안한다.
  • 우리는 기존의 알고리즘들과 제안된 알고리즘의 성능비교를 위해 Airplane, Cars, Faces, Leopards의 4가지클래스의 영상 데이터를 분류하는 실험을 진행 하였다.
  • 이에 대처하기 위하여, 데이터의 차원을 줄이는방법으로, 우리는 3차원의 SOFM (Self-Organizing Feature Map)을 사용하였는데, 이를 통해 전체적인 데이터의 차원 수를 각 특징별로 3차원씩 총 12차원의 단일 특징 벡터로 생성하였다.
  • 즉, 각클래스에서 무작위로 추출된 敏)개의 학습데이터와 나머지 120개의 검증데이터 쌍을 만들어 실험을 진행하고, 다시 각 클래스에서 무작위로 680개의 학습데이터를 추출하고, 나머지 120개의 검증데이터 쌍에 대해 실험을 진행하는 방법으로 10번의 실험을 진행하였다.
대상 데이터
  • Caltech 데이터베이스를 사용하는 실험을 통해 CNN, SOM, Adaboost.
  • 실험에 사용된 데이터는 Caltech 데이터베이스에서 각클래스에 200개의 영상을 추출하여, 총 彌개의 데이터를 실험에 사용하였다.
  • 실험은 10개의 서로 다른 학습 데이터/검증데이터 쌍으로 진행되었다.
데이터처리
  • M2와 제안된 알고리즘에 다중 클래스의 영상 데이터를 사용하는 영상 분류 문제에 대한 실험을 통해 그 성능을 비교하였다.
이론/모형
  • 이러한 문제를 해결하기 위해서, 본논문에서는 대표적인 다중 분류기법인 무감독 군집화알고리즘을 아다부스트 알고리즘에 적용하였다.
 
성능/효과
  • M2나 제안된 알고리즘에 실험 결과는 다른어떤 특징 개별적인 것보다는 좋은 성능을 보여준다.
  • 데이터에 존재하는 클래스의 수와 학습단계의 수에 따라 상대적으로 더욱 빠른 속도를 보일 수 있는데, 이는 학습할 데이터의양이 증가하거나 전체 약 분류기의 수가 증가함에 따라 더욱 큰 차이를 보여주었다.
  • 실험에서는 학습단계(T)를 변화시켜, 그 정확도를 측정하였는데, 학습단계(T)가 10을 초과하면, 그 정확도가 포화상태가 되어 더 이상 학습단계 (T)가 성능에 영향을미치지 않게 됨을 알 수 있었다.
  • 제안된다중 클래스 아다부스트 알고리즘은 클래스의 수와 관계없이 각 학습단계(t)의 약 분류기를 단일의 군집화 알고리즘을 사용함으로써 학습시간을 줄이고 안정적인 결과를 가지는 강 분류기를 얻을 수 있다.
  • 학습시간이 30단계의 경우 제안된 다중분류기 기반의 아다부스트 알고리즘은 기존의 AdabBoostM2에 비해 약 16.9%의 정도의 학습시간만을 요구함을 알 수 있으며, 학습단계수의 증가에 따라 그 학습시간의 감소는 더욱커질 것임을 알 수 있다.
 
 
profile

DataScience

@Ninestar

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!