전체 글28 Exploring Better Food Detection via Transfer Learning 리뷰 논문: https://ieeexplore.ieee.org/document/8757886 Exploring Better Food Detection via Transfer LearningIn this paper, we present a food-specialized detection1 deep learning architecture with knowledge transferred from a pretrained food/non-food classification model. Existing approaches in object detection all separate it from image classification due to theieeexplore.ieee.orgTitle: Exploring Bett.. 2025. 9. 7. 13-2강 Attention Recall: RNN for CaptioningRNN 기반 Image Captioning은 전체 이미지에 CNN으로 적용해 feature를 추출한 후에 RNN을 적용하는 것이다.하지만 RNN은 전체 이미지를 한 번만 보기 때문에 정보 손실의 우려가 있다. Soft Attention for Captioning전체 이미지에 CNN을 적용했을 때, 마지막의 FC layer에서 single feature map이 아닌 Conv layer에서 feature grid를 추출한다. 현재 단어를 만들 때 어디를 집중할지를 나타내는 위치에 대한 확률 분포를 계산하여 feature grid에 적용하여 summarize vector를 만들어 다음 상태에 적용한다. Context vector(summarize vector.. 2025. 9. 5. 13-1강 Segmentation Inception-v4 (2016)순수 Inception 블록만으로 설계된 Inception 계열의 완성판 CNN 모델이다.inception 블록: 똑같은 크기의 feature map을 유지하면서, 다양한 특징을 추출하는 conv layer들의 묶음reduction 블록: feature map의 크기를 줄이는 downsampling layer (pooling + conv 혼합) Inception-ResNet-v2 (2016) inception 블록에 Residual 연결을 더해 학습 안정성과 성능을 강화한 CNN 모델이다. 기본 inception block은 새로운 특징만 추출한다면, inception-resnet block은 새로운 특징에다가 원래 특징을 그대로 더해준다. inception-v4 vs.. 2025. 8. 30. 11강 CNNs in Practice Data Augmentation (데이터 증강)기존의 데이터를 다양한 방식으로 변형하여 새로운 데이터를 생성하는 방법 1) Horizontal flips 2) Random crops/scales 3) Color jitter대비(contrast)를 조절, principal component directions을 따라 color의 offset을 이미지 모든 픽셀에 더하는 방식 등등 translation, rotation, stretching, shearing, lens distortions 등의 다양한 데이터 증강 방법이 있다. Transfer Learning (전이 학습)이미 학습된 모델의 지식을 새로운 작업에 활용하는 학습 방법 2) Feature Extractor(특징 추출) (데.. 2025. 8. 30. 10강 RNN과 LSTM (Recurrent Neural Networks) one to one: 기본적인 Neural Networksone to many: Image Captioning(이미지를 설명하는 단어들의 sequence를 나타내는 것)many to one: Sentimnent Classification(단어들로 구성된 sequence의 긍/부정을 분석하여 하나의 클래스로 나타내는 것)many to many: Machine Translation, Video classification on frame level RNNRNN은 순서(sequence)가 있는 데이터를 처리할 수 있도록 설계된 신경망 구조이다. RNN은 매 시간의 흐름마다 input 벡터를 받는다. RNN은 내부적으로 어떤 상태(state)를 가지는데, 이 상태를 function으로 변형해 줄 수 있다. 변형되.. 2025. 8. 24. 9강 Understanding and Visualizing CNN Visualize patches that maximally active neuronsAlexNet 구조에서 마지막 풀링 레이어(pool5)의 뉴런 반응을 시각화한 것 pool5는 중간 레벨 이상의 추상적 특징을 잡아내므로, 단순한 edge/texture가 아니라 "개 얼굴", "텍스트", "창문 패턴" 같은 개념적 특징이 시각화된다. Visualize the filters/kernels (raw weights)AlexNet의 첫 번째 합성곱 계층(conv1)의 필터들을 시각화한 것AlexNet의 conv1 필터는 Gabor filter 및 색상 blob 형태를 학습하여 엣지·방향·색상 같은 저수준 특징을 잡아내며,이런 해석은 주로 첫 번째 계층에서만 직관적으로 가능하다. Visualizing the .. 2025. 8. 22. 이전 1 2 3 4 5 다음