[논문 리뷰] Gaze Estimation - L2CS-Net (L2CS-NET: FINE-GRAINED GAZE ESTIMATION IN UNCONSTRAINED ENVIRONMENTS)

정상헌·2023년 5월 5일
0

논문 리뷰

목록 보기
1/1
post-thumbnail

논문을 통해서 알아내고 싶은 것

❓ model 의 반환값 (yaw, pitch)의 의미?
❓ 모델에서 사용한 데이터셋의 label 형식

model 의 반환값 (yaw, pitch)의 의미?


Aircraft principal axes 용어이다.

  • pitch → 위아래 시선 각도
  • yaw → 좌우 시선 각도

L2CS-Net Architecture

모델 이름이 L2CS-Net 인 이유

2 loss 를 사용하고 loss function 은 cross-entropy loss 와 softmax layer 을 사용해서 생긴 이름

모델 특징

  • 모델의 Input : 사람 얼굴 Bbox (RGB 이미지)
  • 모델의 Output : (yaw angle, pitch angle)
  • CNN-based model
  • yaw 축, pitch 축 loss 계산을 따로 하여 독립적으로 학습 → 가중치 미세 조정 + 일반화 성능 증가
  • face_detection 모델로는 RetinaFace 사용.

Introduction

  • Eye gaze 는 다양한 분야에 많이 쓰임. ex) 인간-로봇 상호작용, 개방형 대화 시스템, 증강 현실 등…
  • Eye gaze 예측에는 두 가지 방법이 있음
    • Model-based method
      • 눈동자의 위치와 머리의 회전 등과 같은 사람의 물리적인 특징과 모양을 모델링하여 시선을 예측하는 방식
      • 사람의 머리와 눈에 대한 3D 모델을 사용하고, 머리와 눈의 움직임에 따른 눈동자의 이동 벡터를 계산
      • 일반적으로 전용 하드웨어가 필요하며, 이는 제한된 환경에서만 사용 가능
    • Appearance-based method
      • 이미지에서 얼굴 특징점, 즉 눈, 코, 입, 귀 등의 위치를 인식하고, 눈 주위 픽셀에서 특징을 추출하여 시선을 예측
      • 일반적으로 머신러닝 알고리즘을 사용하여 이미지 특징을 학습
      • 저렴한 기성품 카메라로 캡처한 이미지에서 직접 사람의 시선을 회귀시켜 제약 없는 설정으로 다양한 위치에서 쉽게 생성
    • 차이점 Model-based method가 물리적 특징을 기반으로 하고, Appearance-based method는 이미지에서 특징을 추출하여 예측을 수행 Model-based method는 사람의 물리적 특징이 변경되면 시선 추적이 어렵고, Appearance-based method는 조명, 얼굴 각도 등의 영향을 덜 받지만 이미지에서 특징을 잘 추출할 수 있는 디자인이 필요
  • Appearance-based method 에서는 CNN 기반 모델들이 등장하고 있음. pinball loss도 생기면서 정확도를 올림. 그러나 아직 제한된 환경에서와 일반화 성능이 부족함.
  • 이 논문에서는 multi-loss approach 를 통해 RGB 이미지에서 3D 시선 각도를 추정함.

3.3 Datasets

  • Gaze360 and MPIIGaze 사용해서 train, evaluate
  • Gaze360
    • 광범위한 360도 범위의 3D gaze annotations
    • 연령, 성별, 민족이 다른 238명의 피실험자
    • 조명 조건 및 배경과 같은 다양한 실내 및 실외 환경 설정에서 Ladybug 다중 카메라 시스템을 사용하여 이미지를 캡처 (unconstrained setting)
  • MPIIGaze
    • 213.659개의 이미지
    • 15명의 피실험자가 몇 달 동안 일상 생활에서 캡처
    • 다양한 배경, 시간, 조명의 이미지를 포함(unconstrained setting)
    • 참가자들에게 랩톱에서 무작위로 움직이는 점을 보도록 요청하는 소프트웨어를 사용하여 수집

4.2 Training and results

  • backbone 으로 ImageNet-pretrained ResNet-50 사용
  • Adam optimizer (lr = 0.00001)
  • 50 epoch, batch size = 16
profile
도봉구왕감자

1개의 댓글

comment-user-thumbnail
2024년 12월 19일

와 대박

답글 달기