![article thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fod8hT%2FbtsdKk48JXF%2FSKcczb11oOtG15aGtfFUZ1%2Fimg.png)
모든 이미지는 픽셀로 이루어져있습니다. 픽셀이란 Picture+Element의 합성어 입니다. 코부분을 확대하면 사각형 여러개가 모여있는것을 볼수 있는데 이 사각형 하나하나를 픽셀 or 화소라고 부릅니다. 100x100 이미지면 10000픽셀로 640*480은 307200픽셀 이루어져있습니다.FHD는 200만, qhd는 370만, uhd는 830만 픽셀입니다. 픽셀 및 해상도 개념은 이미지뿐만 아니라 모니터, 카메라에서도 쓰고있습니다. 그리고 픽셀의 색을 숫자로 표현하고 범위는 0~255으로 이루어져있습니다. 한 픽셀에 숫자가 한개 있으면 1채널이라 부르고 gray scale이라고 해서 흔히말하는 흑백사진입니다. 0은 black, 255는 white입니다. 한 픽셀에 숫자가 3개씩 있으면 3채널이라 부르..
![article thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcPPqZN%2Fbtr0JO67z2f%2FrVqrkeRhIJ8csz5sElYjb0%2Fimg.jpg)
논문 https://www.mdpi.com/2220-9964/8/12/549 WeatherNet: Recognising Weather and Visual Conditions from Street-Level Images Using Deep Residual Learning Extracting information related to weather and visual conditions at a given time and space is indispensable for scene awareness, which strongly impacts our behaviours, from simply walking in a city to riding a bike, driving a car, or autonomous dri..
![article thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FIM2xk%2Fbtr0HtvnYRw%2F4xFg5dVggf81kbffIbLbgk%2Fimg.png)
Ultralytics YOLOv8은Ultralytics 에서 개발한 YOLO(You Only Look Once) 객체 감지 및 이미지 분할 모델의 최신 버전입니다. YOLOv8은 이전 YOLO 버전의 성공을 바탕으로 새로운 기능과 개선 사항을 도입하여 성능과 유연성을 더욱 향상시키는 최첨단 SOTA(최신 기술) 모델입니다. https://docs.ultralytics.com/ YOLOv8 Docs Home Welcome to the Ultralytics YOLOv8 documentation landing page! Ultralytics YOLOv8 is the latest version of the YOLO (You Only Look Once) object detection and image segmen..
22분 짜리 영상을 1분으로 요약하는 ViT모델 데이터 데이터 분야 - AI 데이터찾기 - AI-Hub (aihub.or.kr) AI-Hub 샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되 aihub.or.kr 학습모델 영상요약모델 - Google Drive 영상요약모델 - Google Drive 이 폴더에 파일이 없습니다.이 폴더에 파일을 추가하려면 로그인하세요. drive.google.com run import torch from training.summary.datamodule import SummaryDataset from transformers import..
![article thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbXpbmN%2Fbtr0JN7IaG3%2Fp2DHU6w7AESqMk5OcqEiS0%2Fimg.png)
Transformer 기존 sequence transduction model들은 인코더와 디코더를 포함한 복잡한 recurrent 나 cnn에 기반함 가장 성능이 좋은 모델 또한 attention mechanism으로 인코더와 디코더를 연결한 구조임 "Transformer" : 온전히 attention mechanism에만 기반한 구조. (recurrence 나 convolution은 사용하지 않음) - 더 parallelizable하고, 훨씬 적은 학습 시간이 걸림 Vision Transformer Transformer 가 원래는 언어 모델인데 언어모델에 이미지를 분할해서 input으로 넣어준게 Vision Transformer입니다. 줄여서 ViT라고 합니다. ViT의 특징 - 기존 CNN 기반 SO..
![article thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FAr581%2FbtrZiOHE8zH%2FgGrarICuhQs75vyxSDjqSK%2Fimg.png)
GAN은 Generative Adversarial Networks의 약자로 우리말로는 “적대적 생성 신경망”이라고 번역되는 AI기술 중 하나입니다. GAN은 실제에 가까운 이미지나 사람이 쓴 것과 같은 글 등 여러 가짜 데이터들을 생성하는 모델입니다. “적대적 생성 신경망”이라는 이름에서 알 수 있듯 GAN은 서로 다른 두 개의 네트워크를 적대적으로(adversarial) 학습시키며 실제 데이터와 비슷한 데이터를 생성(generative)해내는 모델이며 이렇게 생성된 데이터에 정해진 label값이 없기 때문에 비지도 학습 기반 생성모델로 분류됩니다. 개념 GAN은 Generator(G,생성모델/생성기)와 Discriminator(D,판별모델/판별기)라는 서로 다른 2개의 네트워크로 이루어져 있으며 이 두..
![article thumbnail](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fbed6x7%2FbtrXyp370Nq%2FUhDnjp9rKD3WkNJXWO9zHK%2Fimg.png)
https://arxiv.org/pdf/1512.03385.pdf 초록 딥러닝에서 neural networks가 깊어질수록 성능은 더 좋지만 train이 어렵습니다. 그래서 이 논문에서는 잔차를 이용한 잔차학습 (residual learning framework)를 이용해서 깊은 신경망에서도 training이 쉽게 이뤄질 수 있다는 것을 보이고 방법론을 제시했습니다. 함수를 새로 만드는 방법 대신에 residual function, 잔차 함수를 learing에 사용하는 것으로 layer를 재구성합니다. 결과적으로 152개의 layer를 쌓아서 기존의 VGG net보다 좋은 성능을 내면서 복잡성은 줄였습니다. 소개 딥러닝에서 layer가 더 깊어지면 깊어질수록 모델의 accuracy가 saturating되..