본문 바로가기
AI/Paper Review

Exploring Better Food Detection via Transfer Learning 리뷰

by coco88 2025. 9. 7.

논문: https://ieeexplore.ieee.org/document/8757886

 

Exploring Better Food Detection via Transfer Learning

In this paper, we present a food-specialized detection1 deep learning architecture with knowledge transferred from a pretrained food/non-food classification model. Existing approaches in object detection all separate it from image classification due to the

ieeexplore.ieee.org

Title: Exploring Better Food Detection via Transfer Learning

Authors: J. Sun, K. Radecka, Z. zilic

Conference: MVA 2019 (Tokyo, Japan)

DOI: 10.23919/MVA.2019.8757886

 

Background

분류(classification) vs 탐지(detection)

분류(Classification): 이미지 전체가 음식인지 아닌지(Food vs Non-food) 구분하는 것

탐지(Detection): 이미지 안의 특정 영역에 어떤 음식(객체)이 있는지, 위치(bounding box)와 클래스(label)를 함께 찾는 것

 

 

Transfer learning(전이학습): 이미 다른 데이터셋에서 학습한 모델의 feature를 가져와 새로운 모델에 활용하는 방법

 

Introduction 

건강 관리를 위해 개인이 식단을 직접 기록하고 관리할 때, 음식을 자동으로 인식해 주는 기능은 매우 유용하다. 최근의 객체 탐지 모델들이 상당한 성능을 보이고 있음에도 불구하고, 음식은 클래스의 수가 방대하고 조리 방식이나 형태가 다양하여 탐지 과정에서 많은 계산량과 어려움이 따른다. 특히 기존 연구들은 분류(classification)와 탐지(detection)를 분리하여 다루고 있기 때문에 두 과제를 효과적으로 연결하는 방법이 부족하다.
이 논문은 이러한 한계를 극복하기 위해, 기존에 학습된 Food/Non-Food 분류기의 feature를 탐지(detection) 모델로 전이학습(transfer learning) 하는 접근을 제안한다. 이를 통해 탐지 모델의 일반화 성능을 향상시키고 학습 속도를 단축할 수 있음을 실험적으로 보여준다.

 

Architecture

분류 단계 (Feature Extraction)

먼저 Food-5K 데이터셋을 이용해 Food/Non-Food 이진 분류기를 학습한다.

이 과정에서 마지막 두 개의 convolution block을 제거하여 14×14 크기의 feature map을 얻는다.

GAP(Global Average Pooling)과 Fully Connected Layer를 통해 Food Activation Map(FAM)을 계산하고 음식 여부를 분류한다.이때 학습된 feature들은 음식 관련 영역을 민감하게 인식하도록 모델을 사전 학습시킨 것이라고 할 수 있다.

 

탐지 단계 (Transfer to Food Detection)

앞서 학습된 feature를 Food Detection Network로 전이한다.

전이된 feature 위에 추가적인 depthwise convolution block을 쌓아 해상도를 7×7 grid로 축소한다.

이후 YOLO output layer를 적용하여 bounding box 좌표와 confidence score를 예측한다.

각 grid cell은 다섯 개의 bounding box를 예측하며, 최종적으로 음식 객체의 위치와 클래스가 동시에 검출된다.

 

 

Experiment

데이터셋

Food-5K: Food / Non-Food 분류기 학습용

UEC-Food100, UEC-Food256: 음식 탐지 실험용. 100종, 256종의 일본 음식 이미지 포함

 

실험 설계 

 

1)Transfer Learning Quantification 

Food/Non-Food 분류기에서 학습된 feature를 탐지 모델로 전이했을 때 성능이 얼마나 향상되는지 검증

BaseB (scratch 학습) vs A11B (일부 feature 전이 후 freeze) vs A11B+ (전이 후 fine-tuning) 비교

 

2)Ablation Study

MobileNet, MobileNetV2, ResNet18 세 가지 백본을 사용해, 전이 여부에 따른 성능 차이를 분석

 

 

평가 지표

IoU (Intersection over Union): 예측 bounding box와 실제 ground truth box의 겹치는 정도를 측정

mAP (mean Average Precision): IoU 기준 0.5~0.9에서 평가 

Training Loss: 학습 수렴 속도 비교

 

주요 결과 

전이학습을 적용한 모델(TLA)은 기존 학습 대비 평균 10~18% 성능 향상

MobileNet, MobileNetV2 기반에서는 약 80% mAP 달성

전이학습 덕분에 학습 초기 loss가 크게 감소하고, 같은 성능을 절반 학습 시간 내에 도달

 

 

Conclusion 

 

Food/Non-Food 분류기에서 학습된 feature를 음식 탐지 모델에 전이함으로써, 기존 scratch 학습 대비 성능(mAP)과 학습 효율이 크게 향상됨을 보였다.

분류와 탐지라는 두가지 비전 과제를 연결하는 새로운 시도였으며, 전이학습의 효과를 정량적으로 검증하여 객체 탐지 분야 전반에서도 활용할 수 있는 가능성을 보여주었다. 

음식 탐지를 넘어서 다른 특수 객체 탐지 분야에도 전이학습 접근법을 응용하고, 더 일반적인 상황에서도 유용하게 활용할 수 있을 것 같다.