Computer Vision AI

[논문리뷰] DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations

honey-vision — Fri, 7 Nov 2025 12:58:08 +0900

Abstract

디퓨전 모델 기반 VSR 태스크의 문제

- fidelity와 temporal consistency 유지

기존 방법들의 문제

- 심하게 열화된(degraded) 비디오에서는 위의 문제를 해결하기 어려움

--> 디퓨전 모델의 생성 능력이 가장 필요한 지점에서 오히려 잘 적용되지 못한다는 것을 의미함

- 학습 부담, 고품질 학습 데이터의 제한

제안하는 방법

- Real world vsr의 개선을 위해 아키텍처 복잡성보다는 학습 전략에 중점을 둔 DiffVSR을 제안함

github: https://xh9998.github.io/DiffVSR-project/

1. Introduction

VSR(Video Super-Resolution): 저해상도(LR) 영상에서 복잡한 열화를 거친 고해상도(HR) 비디오를 복원하는 기술

기존 기법들의 문제

- 결과를 과도하게 부드럽게 만들어 유화 그림처럼 표현됨

- 복잡한 아티팩트 제거 안됨

--> 이러한 문제점이 디퓨전 모델의 생성 능력이 가장 필요한 시점

주된 병목 현상이 아키텍처 설계 자체가 아닌 디퓨전 모델에 가해지는 과중한 학습 부담이 근본적인 문제라고 봄

본 논문에서 주장하는 근본적인 문제점

- 열화 분포, 콘텐츠 표현, 시간적 관계, 지각 품질 최적화를 동시에 학습하기 때문에 학습에 부담이 있을 것

- 사용 가능한 고품질 학습 데이터는 매우 제한적임

제안한 DiffVSR 핵심

- 단계적 학습 전략(Progressive Learning Strategy, PLS)으로 학습 부담 분해

- Interweaved Latent Transition (ILT) 기법 개발: 추가 학습이나 복잡한 정렬 작업 없이 비디오 구간을 통합이 가능

- multi-scale temporal attention과 temporal-enhanced VAE 같은 아키텍처 구성 요소도 포함시켜 시너지 효과를 일으키게 함

- ablation 실험을 통해 심하게 열화된 비디오를 처리할 때는 PLS가 가져오는 성능 향상이 훨씬 더 두드러짐.

즉, 왜 기존의 많은 접근법들이 더 복잡한 아키텍처를 가지고 있음에도 불구하고 여전히 심각한 열화 상황에서 성능이 낮은지를 보여줌

아키텍처 복잡성보다 학습 부담을 어떻게 다루는지가 더 본질적일 수 있음

본 논문의 기여점

- 단계적 학습 전략(Progressive Learning Strategy, PLS)

- Interweaved Latent Transition (ILT)

- 다양한 열화 복잡도에 대한 광범위한 실험 평가

2. Related Work

Video Super-Resolution.

전통적인 VSR 기법: 시간 정보를 효과적으로 활용하기 위해 아키텍처 설계에 주로 초점을 맞췄음

- deformable convolution을 도입한 방법: TDAN, EDVR

- 순환 구조(recurrent structure): BasicVSR, BasicVSR++

Diffusion Models for Image Restoration.

- 디퓨전 모델은 generative prior을 제공함으로써 이미지 image restoration에 혁신을 가져옴

- 심한 열화 이미지에서도 성능을 입증함

Diffusion Models for Video Restoration.

- 최근 연구들은 temporal consistency 유지를 위한 아키텍처 혁신에 초점을 맞춰왔음
- Upscale-A-Video는 시간 레이어와 순환 전파를 사용하고, MGLD는 optical flow 기반 guidance를 통합하는 방법을 제안함

---> 그러나 이러한 기법들 역시 심한 열화 비디오에서는 여전히 취약함

본 논문은 이러한 근본적인 문제를 해결하기 위해 '모델이 어떻게 학습하는가'를 재고하는 방향을 제안함

3. Method

- Progressive Learning Strategy(PLS) 도입: 학습 부담을 3가지 측면으로 분해하고 점진적으로 확장해 나갈 수 있도록 도움

- Interweaved Latent Transition (ILT) 기법 제안: 추가적인 학습 비용이 없어도 되도록 함

실험을 통해, 복잡한 복원 작업에서의 성능 향상은 아키텍처 복잡성이 아니라 PLS와 같은 학습 전략에 의해 주로 결정됨

기존의 video restoration 연구에서 중시되어 온 아키텍처 중심 접근에 도전하는 결과이며 디퓨전 모델이 지닌 능력을 끌어내는 핵심이 학습 전략에 있다는 점을 입증함

3.1. Preliminary: Generative Diffusion Prior

- 본 연구에서는 Stable Diffusion x4 Upscaler를 백본으로 선택
- LDM 기반
- 오토인코더(encoder E), 디코더 D, conditional denoising U-Net을 핵심으로 함

학습 중에선 실제 데이터 분포로부터 추출된 latent samples에 대해 가우시안 노이즈를 스케줄에 따라 노이즈가 섞인 latents를 생성함

저해상도 입력 x에도 초기 디퓨전 단계 타우에 해당하는 노이즈를 추가하여 세부 정보 생성 능력을 향상시킴

v-prediction parameterization을 사용하여 타깃 벡터에 대해 최적화 됨

추론 시, 모델은 저해상도 입력에 조건화된 상태에서 잠재 표현을 반복적으로 디노이징하며

텍스트 프롬프트 및 노이즈 스케줄링을 통해 샘플링 과정을 유연하게 제어할 수 있음

3.2. Progressive Learning Strategy

VSR 성능의 주요 병목 현상

- 디퓨전 모델이 열화 분포, 콘텐츠 표현, 시간적 관계를 동시에 학습해야 하는 과중한 학습 부담.

---> 학습 과정을 세 가지 차원(열화 복잡도, 데이터셋 품질, 파라미터 최적화)으로 분해하는 PLS를 제안

Stage 1: Temporal Layer Fine-tuning. --> temporal consistency 먼저 형성

- 사전 학습된 이미지 디퓨전 모델의 spatial layers은 모두 freeze
- temporal layers만 대규모 데이터로 fine-tuning
- simple degradation만 적용 (가우시안 블러, bicubic 다운샘플링 등등)
Stage 2: Complex Degradation Adaptation.

- 1단계를 바탕으로 real-world distortion들을 점진적으로 추가함
- 데이터셋의 규모는 유지하며 복잡도를 증가시킴

Stage 3: High-quality Refinement.

- 전체 파라미터 unfreeze
- 복잡한 열화를 포함하는 high-quality video 데이터로 모델 전체를 fine-tuning

3.3. Interweaved Latent Transition

- 길이가 긴 비디오를 처리할 때 발생하는 문제: boundary inconsistency로 인해 시각적 품질이 저하됨

- 전체 비디오는 중첩되는(sub-overlapping) 서브시퀀스 집합으로 분해됨

- 각 서브시퀀스는는 U-Net츨 통해 처리되며 대응하는 F가 생성됨

- 인접한 두 시퀀스 사이의 중첩 구간에 대해서 position-based interpolation을 수행함

- 중첩 영역 내 보간된 latent는 (2)번식과 같이 계산됨

Noise rescheduling.

- temporal coherence를 더욱 강화하기 위해 noise rescheduling mechanism이 통합됨

- 이전 연구들에 따르면, 비디오 디퓨전 모델의 temporal consistency는 입력 컨텐츠와 초기 sampling noise 모두에 영향을 받음

- 첫 번째 서브시퀀스에서는 무작위 노이즈 프레임을 생성함

- 이후 서브시퀀스의 중첩 영역에서는 노이즈 프레임을 reuse 및 reorder

이 과정은 프레임 간 디퓨전 과정을 동기화해서 temporal jitter을 최소화 할 수 있고,

추가적인 모델 학습이나 계산 비용 없이 높은 시간적 일관성을 달성할 수 있음

3.4. Architectural Components

- 보조 모듈들은 PLS와 시너지를 이루며 전체적인 성능을 더욱 향상시켜줌
Multi-Scale Temporal Attention.
- 여러 해상도 스케일 간의 정보를 융합함
Temporal-Enhanced VAE.
- 기존의 2D VAE 구조를 확장한 Temporal-Enhanced 3D VAE (TE-3DVAE)를 도입

- 3D residual block과 temporal attention layers를 추가하여 설계

- 손실 항목들의 조합으로 학습됨

L1 reconstruction loss, Perceptual loss, Adversarial loss(시간 기반 PatchGAN 판별기를 이용)

4. Experiments

4.1.Datasets and Implementation Details

Datasets.

▶️ Train Dataset

stages1 and 2 training
WebVid-2M (일부): 약 40만 개의 텍스트-비디오 쌍을 사용(336×596)
Stage3 fine-tuning
OpenVid-1M: 약 100만 개의 고해상도 비디오-텍스트 쌍(512×512 이상)
YouHQ: 약 37,000개의 2K 해상도 비디오, 텍스트 주석 없음
다양한 실세계 고화질 영상 포함
저해상도(LR) 입력 생성 방식
RealBasicVSR의 열화 파이프라인을 사용하여 생성

▶️ Test Dataset
합성 데이터셋 (Synthetic)
UDM10, YouHQ40

실제 데이터셋 (Real-world)
MVSR4x, RealVideo10 (자체 구축)

TrainingDetails.
프레임워크: PyTorch
GPU: NVIDIA A100 8장
최적화 기법: AdamW optimizer
러닝레이트: 1e-4
배치 크기: 96
입력 구성: 8프레임짜리 비디오 세그먼트에서 320×320 패치를 랜덤으로 크롭
시간 간격(temporal stride): 1 ~ 6 프레임 간격 다양화
→ 다양한 모션 패턴 학습 가능
업스케일링 비율: 4배 비디오 초해상도 (4× VSR) 수행

Evaluation Metrics.
정량적 품질 평가
PSNR
Perceptual Quality
CLIP-IQA, MUSIQ, NRQM, DOVER
Temporal Consistency
Warping Error

4.2.Ablation Study

[논문리뷰] VSRDiff: Learning Inter-Frame Temporal Coherence in Diffusion Model for Video Super-Resolution

honey-vision — Sun, 13 Jul 2025 17:28:49 +0900

Abstract

최근 DM 디테일 생성 능력 덕분에 VSR에도 도입되고 있지만 diffusion의 randomness 때문에

content control와 temporal coherence 에 어려움이 있음.

기존 DM 기반 VSR 방법들:

inter-frame temporal coherence 무시

reconstruction-oriented objective보다는 단순 generative에 초점을 맞추고 있음

visual distortion, temporal inconsistency 발생

본 논문의 제안 방법: VSRDiff 프레임워크

1. IFAG (Inter-Frame Aggregation Guidance) 모듈

2. PRS (Progressive Reconstruction Sampling) 전략

3. FLC (Flow-guided Latent Correction) 모듈

성능 평가

REDS4, Vid4 데이터셋에서 fidelity와 temporal consistency에서 모두 기존 SOTA보다 뛰어난 성능을 보여줌

I. INTRODUCTION

딥러닝 기반의 VSR:

픽셀 수준에서의 복원은 되지만 perceptual quality가 부족하고 realistic textures이나 디테일을 재현하지 못한다.

최근에는 diffusion 모델 기반 vsr로 발전

randomness에 기반한 생성 방식이기 때문에 각 프레임마다 다르게 만들어질 가능성이 높음

visual distortion, 프레임 간 깜빡임 또는 inconsistency 발생

기존 연구들

MGLD, SATeCo, Upscale-A-Video

inter-frame coherence 부족, reconstruction-oriented design 결여

II. RELATED WORK

A. VIDEO SUPER-RESOLUTION

딥러닝 기반 방법은 3가지로 나눌 수 있다.

Sliding Window-based Methods

인접 프레임들을 슬라이딩 윈도우 방식으로 묶어서 프레임을 복원하는 방법으로

추가적으로 motion estimation이나 motionb compensation을 적용하기도 한다.

ex) LGFN

long-range dependency 학습 불가

예측된 정보를 활용할 수 없다.

Recurrent-based Methods

시간 순서대로 프레임을 순차 처리, 과거 상태를 다음 프레임 복원에 활용하는 방법이다

sliding-window 기반 방법에 비해 long-term dependency를 학습할 수 있어 과거 프레임의 정보를 축적하며 처리함으로써 활용할 수 있다.

ex) BasicVSR

긴 시퀀스에서는 여전히 long-range dependency 한계

계산량 증가, 병렬 처리 어려움

Transformer-based Methods

global dependency 학습이 가능하며 spatio-temporal 통합이 뛰어나다는 장점이 있지만

모든 딥러닝 기반 방법들은 공통적으로 픽셀 단위에서의 복원에 초점이 맞추어져 있어서

perceptual quality를 간과한다는 문제점이 존재한다.

이러한 문제점들을 해결하고자 SUPERVEGAN과 같은 GAN 기반의 방법이 제안되었다.

B. DIFFUSION MODELS

DMs

generative power

계산 비용이 매우 큼

LDMs

(저차원)latent space에서 diffusion 수행

계산 비용 크게 절감

Stable Diffusion

LDM 기반 대표 모델

대규모 데이터셋(LAION-5B)로 사전 학습

폭넓은 prior knowledge 보유

이미지 생성뿐 아니라 image editing, super-resolution 등 다양한 downstream task 수행 가능

C. DIFFUSION MODELS FOR VSR

기존 연구: Diffusion → ISR (Image Super-Resolution)

diffusion의 generative priors을 활용해 고화질 이미지 복원 수행

VSR로의 확장

단순한 이미지가 아니라 시간축을 포함하는 비디오에 적용되면서 Visual Distortion, Temporal Inconsistency 발생

ex) MGLD, SATeCo, Upscale-A-Video

Inter-frame coherence 부족

Reconstruction-oriented 목적 결여

지나친 생성 중심의 복원 → 원본과 일치도 떨어짐

Randomness로 인한 temporal consistency 에 부정적 영향

III. OUR APPROACH

두 가지 목표

1. Visual Fidelity

2. Temporal Consistency

A. PRELIMINARY: DIFFUSION MODELS

diffusion 수식은 ddpm 논문 참고.

Forward process

Reverse process

Loss

Sampling process

B. INTER-FRAME AGGREGATION GUIDANCE

인접 프레임들과의 관계를 고려해서 denoising U-Net이 더 정확한 HR 프레임을 생성할 수 있도록 condition을 제공함

1) AGGREGATION ENCODER

먼저 LR 시퀀스를 VAE에 통과 후 Aggregation 인코더로 입력(time정보도 같이 입력)

intermediate feature maps추출

U-Net과 동일한 스케일 구조로 multi-scale convolutional block으로 구성되어있다.

처음 입력과 점선 박스로 되어있는 네트워크를 통과한 피처와 더해줌으로써 컨디션을 주는 역할을 한다.

2) IFAG MODULE

Inter-Frame Aggregation Guidance(IFAG)은 그림(a)처럼 전체 모듈을 의미한다.

aggregation 인코더를 통과한 피처가 SFT를 통과하고 SFT modulation 결과와 기존 피처를 더해준다.

SFT모듈은 Spatial Feature Transformer의 약자로 affine 파라미터를 조절하는 역할을 한다.

SFT모듈

입력을 두 가지 네트워크로 나눠서 통과시키는데 하나는 알파를 위해, 또 다른 하나는 감마를 위함이다.

affine 파라미터는 affine transformer를 조정하는 파라미터라고 할 수 있다.

affine transformer라는건 픽셀의 배치를 바꾸는 계산을 의미한다.

알파는 Scaling, 감마는 Shifting을 조정한다.

SFT를 통과하는 전체 수식이다.

C. PROGRESSIVE RECONSTRUCTION SAMPLING

제안하는 PRS는 reconstruction의 관점에서 diffusion 모델의 샘플링 과정을 조절한다.

PRS는 점진적 복원 샘플링을 구현하기 위해 샘플링 과정을 초기와 후기 단계로 나눈다.

reconstruction의 관점에서 조절한다는 것

time step에 따라 노이즈를 제거하는 것이 기존 방법이라면,

본 논문에서는 노이즈를 제거하되 기준에 따라서 LR 정보를 추가하고 추가하지 않는 방법을 제안한다.

이 기준에 대해서는 아래 부분에서 설명하고 있다.

1) EARLY SAMPLING STAGE

reverse process에서 샘플링을 할 때, 설정한 S보다 t가 크면 LR을 주입한다.

S가 t보다 작아지는 단계가 되면 LR 정보 없이 오로지 모델이 예측하게 된다.

LR 정보를 샘플링에서 추가하는 방법

denoising U-Net이 예측한 latent 결과와 원래 LR latent 사이에 가중합을 수행
샘플링 time-step에 따라 weight을 조절해서 점점 LR에 충실한 HR latent 생성

2) LATE SAMPLING STAGE

가중치 계수가 제거되고 모델이 자유롭게 생성할 수 있는 단계

D. FLOW-GUIDED LATENT CORRECTION

이전 연구들은 optical flow 기반의 feature propagation이 temporal consistency을 효과적으로 유지할 수 있음을 보여주었다.
현재 diffusion 모델에서는 인접한 프레임 사이에서만 propagation하기 때문에 여전히 inconsistency가 존재한다.

BasicVSR++에서 사용된 second-order optical flow propagation 접근법은 diffusion 모델에 적용하기 어려움이 있다.

⬇️ BasicVSR++ 아카이브 논문⬇️

https://arxiv.org/abs/2104.13371

▪️이러한 한계를 해결하기 위해 새로운 Flow-guided Latent Correction(FLC) 모듈 제안

▪️optical flow를 사용해서 latent space 내에서 인접 프레임과 교차 프레임 간의 second-order bidirectional latent propagation 수행

FLC 모듈 동작 순서

▪️LR의 bidirectional optical flow를 추정하기 위해 RAFT 모델을 사용한다.

▪️occlusion을 처리하고 feature propagation를 보장하기 위해 forward-backward consistency check를 통해 각 프레임의 occlusion mask(M)도 추정한다. 그 후 latent space에 맞게 다운샘플링 된다.

▪️얻은 여러 프레임의 latent 정보는 일시적으로 hidden state에 저장된다.

1) FIRST-ORDER LATENT PROPAGATION

현재 프레임을 과거 프레임으로부터 warp하여 보정하는 과정이다.

i-1번째에서 i번째 프레임으로의 backward optical flow를 계산하고 latent로 wrap한다.

그 후에는 현재 프레임의 latent와 fusion하고 파라미터 뮤로 과거 프레임을 얼마나 반영할 지를 조절한다.

element-wise 곱을 통해서 occlusion mask의 여부에 따라 [0,1]의 수를 곱해준다.

2) SECOND-ORDER LATENT PROPAGATION

i-2번째에서 i-1번째 프레임으로의 backward optical flow를 계산하고 latent로 wrap한다.

E. TRAINING STRATEGY

pre-trained Stable Diffusion 모델에 1D temporal convolution을 통합하여 시간적 모델링을 개선하고, denoising U-Net과 VAE 디코더를 fine-tune한다. VSRDiff의 학습은 두 단계로 진행된다.

1단계 학습

denoising U-Net과 IFAG 모듈 학습

denoising U-Net의 가중치는 Stable Diffusion V2.1 (512-base-ema)으로부터 초기화된다.

학습 과정 동안 U-Net의 모든 파라미터는 frozen되며, 1D temporal convolution의 파라미터만 학습된다.

diffusion loss

2단계 학습

fine-tuned VAE 디코더를 학습시켜 latent space에서 pixel space로 비디오를 복원하는 정확도를 향상시킨다.

1단계에서 학습된 denoising U-Net과 IFAG 모듈을 사용하여 latent sequence를 생성한다.

latent sequence와 해당하는 LR를 사용하여 VAE 디코더를 학습한다.

총 손실 = recon 손실, perceptual 손실, gan손실

IV. EXPERIMENTS

A. EXPERIMENTAL SETTINGS

1) IMPLEMENTATION DETAILS

프레임워크: PyTorch

GPU: NVIDIA RTX 3090, 4개 사용 (병렬 처리 가능)

batch size: 4

입력 LR 프레임 수: 6개

LR 이미지 해상도: 512 × 512

latent space 크기: 64 × 64 → VAE로 인코딩된 결과

Optimizer: Adam

learning rate: 5.0 × 10⁻⁵

Noise Scheduler for Diffusion

형태: Linear 스케줄러

시작 값: β₀ = 0.00085

끝 값: βₜ = 0.012

시간 단계 수 (T): 1000

IFAG (Inter-Frame Aggregation Guidance)

인접 프레임 수 =2 → 즉, 현재 프레임을 중심으로 앞뒤 각각 2개, 총 5개 프레임 사용

프레임 가중치 =0.3 → SFT modulation에서 적용되는 가중치

Sampling 단계 수: 50 steps (diffusion 반복 횟수)

τ = 4: PRS에서 시간 기반 weight 조절용

S = 25: sampling 단계의 중간 전환점 (early → late)

μ₁ = 0.2: 1차 warp latent 가중치

μ₂ = 0.1: 2차 warp latent 가중치

해상도 대응 방법: Progressive patch aggregation sampling

StableSR에서 착안

다양한 해상도의 비디오도 샘플링 가능하게 함

예: 긴 비디오를 patch 단위로 나눠서 조각 샘플링 후 재조립

2) DATASETS

REDS

240개의 train 비디오 클립, 30개의 val 클립, 30개의 test 클립

각 클립은 1280 × 720 해상도의 프레임 100개로 구성된다.

266개 클립을 학습에 사용하고, REDS4(000, 011, 015, 020)로 알려진 4개 클립을 validation 및 test에 사용한다.

Vid4

길이와 해상도가 다양한 4개의 비디오 클립

각 클립은 약 40개의 프레임과 720 × 480의 해상도를 가진다.

Vid4의 경우, Vimeo-90K 데이터셋에서 학습된 모델을 평가하기 위한 테스트 세트로 4개 클립(calendar, city, foliage, walk)을 모두 사용한다.

3) EVALUATION METRICS

Full-Reference Metrics

LPIPS (Learned Perceptual Image Patch Similarity)	시각적 유사도 평가	VGG 네트워크를 이용해 특징(feature) 공간에서 유사도 평가. 사람 시각에 가까운 지표. 낮을수록 좋음.
DISTS (Deep Image Structure and Texture Similarity)	구조 + 텍스처 중심 평가	구조적 일관성과 질감 유사성 모두 반영. LPIPS보다 텍스처를 더 중시. 낮을수록 좋음.
PSNR (Peak Signal-to-Noise Ratio)	픽셀 정확도	GT와의 차이를 픽셀 기반으로 측정. 숫자가 클수록 좋음.
SSIM (Structural Similarity Index)	구조적 유사성	지역 밝기, 대비, 구조 정보 비교. 높을수록 GT와 비슷함.

No-Reference Metrics

NIQE (Natural Image Quality Evaluator)	자연 이미지의 통계 분포와 비교	낮을수록 자연스러움이 높음.
BRISQUE (Blind/Referenceless Image Spatial Quality Evaluator)	자연 장면 통계 기반의 공간 도메인 특징 추출	NIQE와 유사. 낮을수록 좋음.
CLIP-IQA	CLIP 모델로 이미지 ↔ 프롬프트 유사도 측정	"Good image", "Sharp image" 등 프롬프트와 생성 프레임을 임베딩 비교. 클수록 좋음.

B. COMPARISONS WITH EXISTING METHODS

전통적인 VSR 방법: BasicVSR, VRT, BasicVSR++

Diffusion 모델 기반 VSR 방법: StableSR, MGLD, SeeClear, SATeCo

2) QUALITATIVE COMPARISON

[논문리뷰] ReactFace: Online Multiple Appropriate Facial Reaction Generation in Dyadic Interactions

honey-vision — Wed, 2 Jul 2025 02:08:40 +0900

Abstract

두 사람의 상호작용에서 청자의 얼굴 반응을 예측하는 것은 사람마다 반응이 다르기 때문에 어려운 문제라고 볼 수 있다.

이전 접근법

interpolation 또는 fitting 문제로 다루었다

다양한 얼굴 반응과 불확실성을 무시하고 결정론적인 결과를 강조했다.

Fitting: 입력이 주어지면 출력이 단 하나의 정답이라고 가정

모델은 사람이 실제로 지은 표정과 모델이 생성한 표정 사이의 오차를 최소화하는 방향으로 학습된다.

그 결과, 모델은 훈련 데이터에 있는 반응들의 평균값 또는 가장 확률이 높은 하나의 값을 생성하게 된다.

Interpolation: 훈련 데이터에서 본 반응들 사이의 중간 값을 채워 넣는 방식

주어진 상황에 대해 가장 그럴듯한 하나의 정해진 반응을 예측하는 접근 방식의 일부다.

문제점

상호작용의 맥락 내에서 short-range 및 long-range dependencies 모델링 어려움

생성된 얼굴 반응의 동기화 및 적절성 문제 초래

본 논문에서 제안한 방법

1) Extrapolation 또는 prediction 문제로 재구성

2) 화자의 행동에서 단순히 청자의 얼굴 행동을 복제하는 것이 아니라 여러 가지로 적절한 얼굴 반응을 생성하는 ReactFace 제안

ReactFace

1) 적절한 얼굴 반응 분포 학습

2) 생성된 얼굴 반응을 각 타임스탬프에서 화자의 언어적 및 비언어적 행동과 동기화하여 현실적인 2D 얼굴 반응 시퀀스 생성

코드는 아래 깃허브 링크를 통해 확인할 수 있다.

https://github.com/lingjivoo/ReactFace

1 INTRODUCTION

공감 연구가 어려운 이유

- 공감은 상대방의 모달리티 정보와 맥락적 요소에 영향을 받기 때문에 같은 화자에 대해서도 혹은 같은 청자에게서도 다른 반응이 발생된다.

- 얼굴 반응 생성을 결정론적 결과를 갖는 일대일(one-to-one)이 아닌 일대다(one-to-many) 매핑으로 다루어야 한다.

이전 연구: online facial reaction generation
Autoregressive 또는 segment-by-segment로 실시간으로 청자의 얼굴 반응 시퀀스를 즉시 생성하도록 설계됐다. 주로 CGANs을 활용했으며 화자의 정보를 조건 신호로 사용하여 청자의 얼굴 반응 프레임을 재현하는 데 초점을 맞추었다.
이전 연구의 문제점:
- 화자의 얼굴 표정이 시간에 따라 변화하는 특성을 고려하지 않았다.

- 화자의 다른 모달리티를 반영하지 않았다.

문제점을 해결하고자 제안된 방법들:
- LSTM(Long Short-Term Memory)과 같은 시간적 네트워크 도입

- 화자의 음성 또는 텍스트에서 추출한 정보와 결합하는 방식으로 발전

그럼에도 해결되지 못한 문제점 1:

화자의 행동과 청자의 얼굴 반응 간의 동기화(synchrony)를 포착하는 데는 여전히 부족함이 있다.

그럼에도 해결되지 못한 문제점 2:

대부분의 기존 연구들은 {화자, 청자}을 직접 짝지어 학습하는 전략을 공통적으로 사용해왔다.

- 같은 화자의 입력이 서로 다른 청자의 얼굴 반응 레이블과 짝지어질 수 있다.

- 생성된 얼굴 반응이 주어진 대화 맥락에서 적절한지 고려하지 않는다.

본 논문에서 제안하는 방법:

- 화자-청자 BS 전략 제안

- 일대다 매핑을 위한 AFRG 메커니즘 제안

- 학습된 분포로부터 서로 다르면서도 적절한 다양한 얼굴 반응들을 샘플링할 수 있게 된다.

2 RELATED WORK

2.1 얼굴 반응 생성 및 얼굴 행동 생성에 대한 기존 접근 방식 리뷰

2.2 (제스처 및 신체 동작 생성)다른 비언어적 행동 연구 리뷰

2.3 조건부 생성 모델

2.4 modality alignment에 사용된 기법 리뷰

2.1 Automatic Facial Reaction Generation

기존 연구 방법:

화자의 행동을 입력으로 하여 청자의 실제(GT: Ground Truth) 얼굴 반응을 재현하려는 시도를 중심으로 이루어져 왔다.

최근 연구들:

1) 3DMM(3D Morphable Model) 계수를 사용하여 얼굴 근육의 움직임을 시각화하는 연구

2) 화자의 여러 모달리티가 입력에 포함되어 청자의 얼굴 반응을 만드는 데 언어적·비언어적 단서를 제공하고 청자의 특성에 최적화된 네트워크를 탐색하는 연구

본질적인 문제점
1) 얼굴 반응은 사람마다 다르고 같은 청자라도 다른 반응을 유발할 수 있기 때문에 화자의 시퀀스만을 가지고 청자의 GT 얼굴 반응을 재현하려는 모델을 학습하는 것은 본질적으로 문제가 있는 접근이다.

2) 화자가 아닌 청자의 얼굴 반응은 생성하지 못한다.

2.2 Non-verbal Human body/gesture Behaviour Generation

이전 연구:

생성된 동작을 주로 3D 스켈레톤, 비디오 프레임 또는 3D 파라미터의 형태로 표현한다.
최근 연구:

GAN, VAE, Normalizing Flows부터 Diffusion Models까지도 새롭게 도입되고 있다.

Motion synthesis 접근 방식

1) Unconstrained generation: 특정 조건 없는 일반적인 임의의 동작 생성

2) Conditioned generation: 주어진 조건에 어울리는 동작 생성

결정론적 생성 모델과 비결정론적 생성 모델이 생성한 샘플들은 종종 insufficient diversity를 겪는다.

Insufficient diversity: 다양한 결과 생성이 가능하지만 실제로는 훈련 데이터에서 가장 평균적인 동작을 생성하며, 다양한 결과를 만들지 못하는 경우가 많은 문제점 발생

2.3 Conditional Generative Models

최근 연구들:

다양한 모달리티를 통합하여 생성된 결과가 조건과 일치하도록 발전해 왔다.
초기 접근 방식:

- 클래스 레이블을 활용하여 이미지를 구분하고 생성된 결과가 속성을 갖도록 유도했다.

- 클래스 레이블을 조건 신호로 사용하여 입력에 concatenation 또는 conditional normalization을 활용해 생성 과정에 조건을 부여한다.

- Conditional diffusion models 역시 클래스 정보를 normalization layers에 통합하고 classifier의 gradient를 통해 생성 과정을 유도한다.

- 분류기를 사용하지 않고도 생성 모델 자체로부터 guidance를 얻을 수 있는 방식인 classifier-free guidance도 연구되었다.

2.4 Modality Alignment in Generative Models

Modality alignment: 모달리티 간 일관된 콘텐츠 생성 및 조작을 가능하게 하지만 semantic 차이와 dimensional 차이로 인해 어려움이 있다.

1) Semantic 차이를 해결하기 위한 방법: Contrastive learning 기법 활용

2) 모달리티 간 dim mismatch: Cross-modal attention 메커니즘 활용

이 외에, Multimodal transformers 방식도 활용되고 있다.
Temporal alignment 측면에서도 새로운 어텐션 방식

- ALiBi: Attention with Linear Biases

- Biased Cross-Modal Attention

두 명 간의 상호작용을 모델링하기에 어려움이 있다.

3 PROBLEM FORMULATION

MAFRG의 목표: 주어진 화자의 시퀀스에 반응하여 얼굴 반응을 생성할 수 있는 모델을 개발하는 것

문제를 수식으로 정의하면 다음과 같다:

4 METHODOLOGY

청자의 얼굴 반응을 생성하는 것은 cognitive processes로 인해 시간 delay가 발생하기 때문에 본 논문에서는 small time window를 정의한다(w=8).

화자의 audio-visual은 두 부분으로 나눌 수 있다.

1) 이전 시간 구간 동안 표현된 화자의 audio-facial behavior

2) 현재 시간 구간 동안 표현된 화자의 audio-facial behavior

따라서 다음과 같이도 표현할 수 있다:

X: 원래의 audio 신호F: 2D 얼굴 이미지 시퀀스

ReactFace 모델은 3가지 정보를 기반으로 현재 어떻게 반응할지를 보여주는 3D 얼굴 반응 세그먼트를 생성한다.

1) 이전 generated/predicted 얼굴 반응 시퀀스

2) 이전 화자 행동

이후 하위 섹션에서는 다음 내용을 설명한다.

4.1 ReactFace 전체 프레임워크 개요

4.2 다중 얼굴 반응 생성 전략

4.3 화자-청자 행동 동기화 모듈

4.1 The ReactFace Framework

ReactFace의 전체 프레임워크는 네 가지 주요 모듈로 구성된다.

1) MSBEA: Multi-modal Speaker Behavior Encoding and Alignmen

화자의 오디오와 얼굴 표정 비디오를 입력 받아 임베딩으로 인코딩한다.

SE: pretrained wav2vec2.0 활용

k는 음성 프레인을 추출할 때 사용되는 샘플링 비율로 얼굴 프레임보다 k배 더 자주 샘플링됨을 의미한다(음성 인코더 설정에 따라 달라짐).

2D FSE: 3D convolution layer와 transformer layer로 구성되어 있다.

그 후, 모달리티 정렬 모듈 적용

PMA: Alignment bias를 가진 coross attention 기반 transformer

구성되며 화자의 두 모달의 임베딩을 point-to-point 방식으로 정렬한다.

2) AFRG: Appropriate Facial Reaction Generation

Conditional Interaction Encoder(CIE)를 이용해 현재 시점 [t−w+1,t] 동안의 여러가지의 얼굴 반응 세그먼트를 표현하는 분포를 예측

이 분포는 3가지 요소를 기반으로 예측한다.

- 화자의 오디오와 비디오(프레임)

- 청자의 이전 반응

- 학습가능한 토큰 2개

그 후, Listener Reaction Decoder(LRD)는 샘플링된 z를 받아 3D로 디코딩한다.

3) SLBS: Speaker-Listener Behaviour Synchronisation

SLBS 모듈은 매 프레임마다 생성된 얼굴 반응을 화자의 현재 행동과 동기화한다.

4) FRV: Facial Reaction Visualisation
생성된 3D를 2D 얼굴 프레임으로 변환하기 위해 PIRender를 재학습하여 FaceVerse 3DMM에 맞게 조정한다.

렌더링 네트워크는 생성된 3DMM 계수와 특정 청자 얼굴을 나타내는 reference portrait를 입력으로 받아 청자의 얼굴 반응이 담긴 2D 이미지 시퀀스를 출력할 수 있다.

4.2 Appropriate Facial Reactions Generation

AFRG 모듈은 세 가지 블록으로 구성된다.

1) CIE

2) Sampling Block

3) LRD

블록 하나씩 살펴보면,

1) Conditional Interaction Encoder (CIE)

3개의 트랜스포머 인코더 레이어로 구성된 variational encoder이다.

Input:

- 동기화된 화자의 이전 음성 및 얼굴 임베딩

- 두 개의 토큰( , )

Ouput:

- 평균 벡터

- 표준편차 벡터

화자 행동에 반응하여 적절한 얼굴 반응들을 설명하는 정규 분포를 구성한다.

2) Sampling Block

t프레임에 해당하는 latent embedding 하나를 샘플링한다.

시간 구간에 대응되는 w개의 latent vector 시퀀스를 얻기 위해 linear interpolation을 수행한다.

즉, 하나의 샘플링으로 나머지는 interpolation을 해서 8장으로 늘리는 것이다.

현재 시간의 청자 얼굴 반응 프레임은 모두 이전에 예측된 (t−w)번째 얼굴 반응 프레임을 기반으로 생성되며, 이전 프레임들과의 연속성이 보장된 얼굴 반응 시퀀스가 생성된다.

3) LRD: Listener Reaction Decoder

key와 value: positional encoding sequence

query: embedding sequenceCross-Attention 수행

positional encoding은 sin, cos 기반의 함수를 사용해서 계산된다.

4.3 Speaker-listener Behaviour Synchronisation

청자, 화자 동기화 필요성

사람의 얼굴 반응은 시공간적 신호로, 특히 시간 축에서 화자의 행동과 밀접하게 연관되어 있다.

따라서, 생성된 얼굴 반응을 해당 화자의 행동과 제대로 동기화하는 것은 반응이 적절하고 사실적으로 보이게 하기 위한 중요한 요소다.

SLBS(Speaker-Listener Behaviour Synchronisation)

1) Visual Interaction Model (VIM)

3D 얼굴 반응 임베딩을 정렬된 화자 얼굴 임베딩과 동기화한다.

2) Modality Interaction Model (MIM)

동기화된 얼굴 반응을 해당 시점의 화자 음성 임베딩과 동기화한다.

생성된 얼굴 반응 프레임은 화자의 비언어적 얼굴 표정과 언어적 (음성) 모두와 동기화되어 생성된다.

본 논문에서는 VIM과 MIM 모두 Cross-Attention 연산으로 구현되며 새로운 Alignment bias가 도입된다.

Alignment bias는 시간적으로 시점 i에 가까운 화자의 행동일수록 해당 시점에서 생성되는 얼굴 반응에 더 큰 영향을 준다는 가정에 기반하며,

1) 시간 축 상에서 생성된 얼굴 반응이 해당 시점의 화자 행동과 잘 동기화되도록 유도하고

2) 각 얼굴 반응 프레임이 현재 시점 이전까지의 정보만을 반영할 수 있도록 보장한다.

Alignment bias가 포함된 Cross-Attention은 다음과 같다.

: 얼굴 반응 프레임 인덱스

: 화자 얼굴 프레임 (VIM) 또는 화자 음성 프레임 (MIM) 인덱스

: 음성 프레임이 얼굴 프레임보다 배 더 자주 샘플링된다는 비율

: 전체 프레임을 유닛 단위로 나누기 위한 윈도우 크기

1. 현재 반응(i)과 과거 정보(j) 사이의 시간 거리 계산

2. p(논문에서는 8로 설정)로 나누기

3. k곱: 서로 다른 속도의 두 데이터(얼굴, 음성)의 시간 축을 동일하게 맞춘다.

- 시점이 가까운 프레임일수록 행동 패턴이 유사하다는 사람 행동의 자연적 특성을 반영

- 지나치게 과거 프레임에 낮은 attention이 집중되지 않도록 하여 long-range context도 충분히 반영되도록 유도

Attention 연산에서는 각 유닛 내의 프레임들을 동일하게 취급하며 시간 간격에 따라 점진적으로 감소하는 음수 값으로 bias가 주어진다.

또한, 이 편향 행렬의 upper triangle은 모두 (−∞)로 설정되어 있다.

각 얼굴 반응 프레임이 오직 현재 또는 과거의 화자 행동 정보만을 참조한다.

4.4 Loss functions and training strategy

4.4.1 Training Strategy

ReactFace 모델은 다음의 5가지 손실 함수를 공동 최적화하는 end-to-end 방식으로 학습된다:

1) 반응 생성 손실

2) 화자 얼굴 복원 손실

3) KL 발산 손실

4) 시간적 부드러움 손실

5) 다양성 손실

4.4.2 Loss Functions

MSBEA가 입력으로 들어온 화자의 얼굴을 얼마나 정확하게 복원하는지 측정

L1 손실을 사용하여 (원본 화자 얼굴-모델이 복원한 화자 얼굴) 차이를 계산

모델이 특정 상황에 대한 반응이 잘 생성이 되었는지 확인하기 위해 미리 정의된 여러 개의 실제 반응들 집합과 모두 비교한다.

그 집합 중에서 모델이 생성한 것과 가장 비슷한(min) 반응을 하나 찾고 오차를 계산한다.

하나의 동일한 상황에 대해 모델에게 M개(훈련 시 3개)의 다른 반응을 생성한다. 생성된 M개의 반응들을 두 개씩 짝지어, 모든 쌍(i와 j)이 서로 얼마나 비슷한지 거리를 측정한다.

두 반응이 매우 비슷하면 → 결과값이 1에 가까워진다.

두 반응이 매우 다르면 → 결과값이 0에 가까워진다.

페널티 부여: 유사도 점수들의 총합

즉, 생성된 반응들이 서로 비슷할수록 손실 값은 커지고, 서로 다를수록 손실 값은 작아집니다.

이 손실은 VAE(Variational Autoencoder) 계열 모델의 안정적인 학습을 위한 필수 요소입니다.

역할: 모델이 학습하는 잠재 공간(latent space)의 분포 N(μ, σ)가 너무 제멋대로 뻗어나가지 않고, 표준 정규분포 N(0, I)에 가깝게 유지되도록 규제합니다.

이 손실은 생성된 영상이 물리적으로 자연스럽게 보이도록 만든다. 생성된 영상에서 프레임 간 움직임이 갑자기 튀거나 뚝뚝 끊기는 현상(Jitter)을 방지한다. (t-1)에서 (t)로의 움직임(속도)과 (t-2)에서 (t-1)로의 움직임(속도)이 서로 비슷해지도록 만든다.

5 EXPERIMENTS

이 장에서는 다음과 같은 순서로 실험 내용을 설명한다.

5.1 사용된 데이터셋 설명

5.2 모든 실험 세팅 제시

5.3, 5.4 ReactFace와 여러 베이스라인 모델들 간의 정성적 및 정량적 성능 비교

5.5, 5.7, 5.9에서는 Ablation study, perceptual study, failure case에 대해 논의한다.

5.1 Datasets

ReactFace는 REACT2023 Challenge에서 제공된 하이브리드 비디오 컨퍼런스 데이터셋을 활용해 평가된다.

데이터셋은 총 2,962개의 2인 상호작용(dyadic interaction) 세션으로 구성되어 있으며 구성은 다음과 같다.

Training examples: 1,594개

Validation examples: 562개

Test examples: 806개

이 데이터는 두 개의 기존 비디오 컨퍼런스 데이터셋에서 수집되었다:

RECOLA

NOXI

UDIVA (사용x)

⬇️ RECOLA ⬇️

https://ieeexplore.ieee.org/document/6553805

⬇️ NOXI ⬇️

https://dl.acm.org/doi/10.1145/3136755.3136780

각 세션은 30초 길이이며 두 명의 참여자 간 상호작용을 나타내는 오디오-비주얼 클립 쌍으로 이루어져 있다.

또한, 객관적인 appropriate facial reaction에 대한 어노테이션은 [22]에서 제안된 전략을 기반으로 자동 생성되었다.

⬇️ REACT2023 Challenge ⬇️

https://dl.acm.org/doi/10.1145/3581783.3612832

5.2 Experimental Setup

5.2.1 Implementation Details

본 실험에서는 다음과 같은 설정으로 ReactFace 모델을 학습하였다:

✔️Input speaker image sequence: 224 × 224

✔️Optimizer: AdamW

✔️Learning rate: 2e−5, β₁ = 0.9, β₂ = 0.999

✔️Minibatch size: 4

✔️Loss Term Balancing Hyper-parameters(4.4.1절의 손실 함수 항들에 대한 하이퍼파라미터 설정)

✔️또한, 4.2에서 사용된 momentum parameter 'α'는 경험적으로 0.999로 설정되었다.

✔️구현: PyTorch

✔️GPU: Tesla A100 80GB 200 epochs

✔️3DMM(3D Morphable Model) 모델: FaceVerse

✔️FaceVerse 계수 정의:

1) Expression coefficients:

2) pose coefficients

θ (3-dimensional translation and the 3-dimensional rotation)
→ 즉, 각 얼굴 프레임당 총 58 coefficients를 포함한다.

FaceVerse 모델을 사용한 이유

FaceVerse의 expression coefficient는 ARKit의 블렌드셰이프(blendshape)와 1:1로 대응되며

다음과 같이 명확하고 사람이 해석 가능한 의미를 갖는 요소로 정의된다:

browInnerUp

eyeLookDownRight

jawOpen

mouthFunnel

noseSneerRight, tongueOut 등

기존의 3DMM 시스템들이 사용하는 PCA 기반 블렌드셰이프와는 대조적이다.

PCA 기반 방식은 주성분 축을 따라 얼굴을 변형시키기 때문에 직관적 해석이 어렵다.

ARKit 기반 FaceVerse의 장점

표정 근육의 micro-expression을 더 정교하게 표현할 수 있음

결과적으로 더 정확하고 현실적인 표정 묘사 가능

5.2.2 Baselines

1) 다섯 가지 베이스라인 모델

Mirror: 화자의 얼굴 움직임을 그대로 복제하여 반응을 생성하는 방식

Random: 가우시안 분포에서 무작위로 표정 반응을 샘플링

NN motion: 현재 화자의 모션 시퀀스와 가장 가까운(Nearest Neighbor) 모션 시퀀스를 검색한 뒤, 상응하는 청자의 반응 시퀀스를 반환

NN audio: 화자의 오디오 신호를 기반으로 최근접 이웃을 탐색

Trans-AE: 트랜스포머 기반 오토인코더 모델로, ReactFace와 동일한 화자 행위 인코더 및 정렬 모듈을 사용하지만 단순한 디코더 구조로 반응 시퀀스를 출력한다.

2) 기존 최신 얼굴 반응 생성 기법

LFT: flow 기반 생성 모델로, 청자의 머리 움직임 생성에서 뛰어난 성능을 보였다.

Ng et al.: 화자의 3DMM 계수와 오디오 신호를 입력으로 받아, 모션-오디오 cross-attention transformer를 사용하는 VQ-VAE 기반 모델

Zhou et al.: LSTM 기반 시퀀스-투-시퀀스 모델로, 화자의 3DMM 계수, 다양한 오디오 특성 그리고 청자의 첫 프레임 3DMM 초기값을 입력으로 받아 청자의 3DMM 시퀀스를 출력한다.

⬇️ LFT 논문 아카이브 링크 ⬇️

https://arxiv.org/abs/2006.09888

⬇️ Ng et al. 논문 아카이브 링크 ⬇️

https://arxiv.org/abs/2204.08451

⬇️ Zhou et al. 논문 아카이브 링크 ⬇️

https://arxiv.org/abs/2112.13548

공정하고 포괄적인 비교를 보장하기 위해 Zhou et al.에서 사용된 RLD 데이터셋에 대한 실험 결과도 추가로 제시한다. 최종 얼굴 반응 생성을 위해 본 연구와 동일한 프로토콜을 따랐으며 Zhou et al.와 동일한 3D 형태 모델(3DMM) 시스템을 활용하였다.

5.2.3 Evaluation Metrics

ReactFace 논문에서 사용한 Evaluation Metrics는 총 5가지 항목을 기준으로 한다.

Appropriateness	FRCorr	실제 반응과의 유사성
Diversity (1)	FRDvs	다른 입력 간 생성 다양성
Diversity (2)	FRDiv	같은 입력에 대한 다양한 샘플 생성
Diversity (3)	FRVar	한 클립 내의 표정 변화도
Realism	FVD	얼마나 실제 같은가
Synchrony	TLCC	시간적으로 화자 행동과 잘 맞는가
Speed	FPS	얼마나 빠르게 생성 가능한가

NoXi/RECOLA Dataset 요청하기

honey-vision — Tue, 1 Jul 2025 22:04:45 +0900

ReactFace: Online Multiple Appropriate Facial Reaction Generation in Dyadic Interactions

논문에서 사용한 NoXi와 RECOLA 데이터셋을 다운 받기 위해 양식을 작성하고 메일로 요청한다.

NoXi

데이터셋 제공 홈페이지

NoXi Dataset

https://multimediate-challenge.org/datasets/Dataset_NoXi/

MultiMediate:Multi-modal Behaviour Analysis for Artificial Mediation

Grand Challenge at ACM MM’25

multimediate.perceptualui.org

작성해야 하는 양식 pdf 자료

chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://multimediate-challenge.org/assets/pdf/EULA-NoXi.pdf

RECOLA

데이터셋 제공 홈페이지

RECOLA Dataset

https://qualinet.github.io/databases/audiovisual/recola/

RECOLA

Subjective test databases

qualinet.github.io

작성해야 하는 양식 pdf 자료

chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://diuf.unifr.ch/main/diva/recola/data/eula_recola_database.pdf

텍스트 기반 공감 얼굴 표정 생성 모델

honey-vision — Mon, 30 Jun 2025 16:07:01 +0900

기존 연구들에서는 멀티모달이나 단일 모델로 슬픈 표정을 짓고 있는 얼굴에 대해 'Sad' 이런 식으로 라벨 결과를 출력했다.

혹은 텍스트 임베딩 값에 따라 문맥을 보고 사용자의 감정이 어떤지를 예측한다.

이제는 인식을 넘어 공감을 하는 모델을 만들어보자.

이번 실험은 간단한 모듈들을 활용하기 때문에 모델 내부를 살펴보지는 않는다.

결과물은 다음과 같다. 텍스트를 입력하면 공감하는 텍스트가 출력되고 그 값을 기반으로 얼굴 표정을 생성한다.

공감 텍스트를 생성하는 것이 중요하게 되는데,

이 모델은 T5 공감 텍스트 생성 모델을 사용한다.

얼굴 표정 이미지를 생성하는 모델은 Stable Diffusion을 사용한다.

import gradio as gr
import uuid
import torch
from transformers import pipeline, AutoTokenizer, AutoModelForSeq2SeqLM
from diffusers import StableDiffusionPipeline
import os

# 1. T5 공감 텍스트 생성 모델
t5_tokenizer = AutoTokenizer.from_pretrained("pixelsandpointers/t5-empatheticdialogues")
t5_model = AutoModelForSeq2SeqLM.from_pretrained("pixelsandpointers/t5-empatheticdialogues")

# 2. 감정 분류기
emotion_classifier = pipeline("text-classification", model="j-hartmann/emotion-english-distilroberta-base")

# 3. 얼굴 이미지 생성기 (stable diffusion)
device = "cuda" if torch.cuda.is_available() else "cpu"
sd_pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", torch_dtype=torch.float16 if device=="cuda" else torch.float32)
sd_pipe = sd_pipe.to(device)

# 4. 공감 텍스트 생성 함수
def t5_empathic_response(user_input: str):
    inputs = t5_tokenizer(user_input, return_tensors="pt", truncation=True)
    outputs = t5_model.generate(**inputs, max_length=60)
    return t5_tokenizer.decode(outputs[0], skip_special_tokens=True)

# 5. 얼굴 이미지 생성 함수
def generate_emotion_face_image(emotion: str, output_path: str):
    prompt = f"a human face expressing {emotion.lower()} emotion, portrait, realistic, 4k"
    image = sd_pipe(prompt).images[0]
    image.save(output_path)

# 6. 전체 파이프라인
def full_chatbot_pipeline(user_input, _):  # 영상 없이 텍스트만 입력
    response_text = t5_empathic_response(user_input)
    emotion = emotion_classifier(response_text)[0]['label'].upper()

    if emotion == "JOY":
        emotion = "HAPPINESS"  # 이미지 생성 시 더 잘 표현됨

    output_path = f"results/face_{uuid.uuid4().hex}.png"
    os.makedirs("results", exist_ok=True)
    generate_emotion_face_image(emotion, output_path)

    result_text = (
        f"  사용자: {user_input}\n"
        f"  공감 응답: {response_text}\n"
        f"  감정: {emotion}"
    )
    return result_text, output_path

# 7. Gradio UI
with gr.Blocks() as demo:
    with gr.Row():
        text_input = gr.Textbox(label="  사용자 입력", placeholder="예: 나 오늘 힘들었어...")
    generate_btn = gr.Button("  공감 반응 및 얼굴 생성")

    with gr.Row():
        result_textbox = gr.Textbox(label="  공감 텍스트 및 감정 결과")
        image_output = gr.Image(label="  생성된 얼굴 이미지")

    generate_btn.click(fn=full_chatbot_pipeline,
                       inputs=[text_input, gr.State(None)],
                       outputs=[result_textbox, image_output])

demo.launch()

실험 결과, diffusion 모델의 랜덤성으로 인해 조금은 기괴한 이미지들이 생성되는 결과를 볼 수 있다.

공감 라벨에 따라 표정은 맞게 나오지만 전체 이미지가 사람이 보기에 불편할 정도로 모호한 결과다.

처음에 '공감'하는 모델을 만든다고 했는데, 사실 모순이라고도 볼 수 있다.

텍스트의 공감 라벨을 따라 표정을 생성했기 때문이다.

공감이라는 건 여러 모달리티의 퓨전 값이 복합적으로 이루어져야 하기에 텍스트 기반 공감은 조금 부족하다고 볼 수 있다.

다음은 텍스트 한 개의 모달만이 아닌 멀티모달을 활용한 공감 생성 모델을 만들어보도록 하겠다.

Fidelity와 Quality

honey-vision — Tue, 24 Jun 2025 10:23:32 +0900

신호분야에서 수신기와 발신기로부터 시작된 'Fidelity'.

Video Super-Resolution 태스크에서도 이 fidelity의 밸런스가 중요하게 여겨진다.

그렇다면 fidelity는 무엇일까?

Fidelity: '원본으로부터 얼마나 재현을 잘 했는가'를 의미한다.

그래서 fidelity가 높을 수록 원본과 비슷한 결과물을 얻을 수 있다.

하지만 VSR에서 원본과 비슷하다는건 low-resolution과 비슷하다는 것이기 때문에

High-resolution으로 만들어내는 vsr의 본질적인 목표와는 거리가 멀다고 볼 수 있다.

Fidelity가 높은 경우의 프레임을 확인해보자.

(쉬운 보기를 위한 자료로 예시가 적절하지 않을 수 있다)

첫 번째 프레임이 input이라고 가정했을때, 오른쪽 3장의 경우 모두 비슷한 것을 볼 수 있다.

사람의 눈으로 보았을때 어색하지 않고 자연스럽다고 느낄 수 있다.

이번에는 Fidelity가 낮은 경우를 확인해보자.

아래 예시 사진을 보면 프레임마다 기둥 부분이 다르게 생성된 것을 확인할 수 있다.

위의 자료보다 Quality는 좋아 보이지만 사람의 눈으로 보았을때 부자연스럽고 어색하다는 것을 느낄 수 있다.

이러한 문제는 Video라는 sequence 데이터에서 좋지 않은 결과를 보여주게 된다. 최근 활발하게 연구되고 있는 Diffusion 기반의 Video Super-Resolution 태스크에서는 이러한 Fidelity 문제를 해결하고자 하는 다양한 방법이 제안되고 있다.

[논문리뷰] Upscale-A-Video

honey-vision — Fri, 20 Jun 2025 18:33:41 +0900

Abstract

Text-based diffusion models은 generation 및 editing분야에서 좋은 성과를 보여주도 있지만 vsr 분야에서는 dm의 무작위성 때문에 output fidelity와 temporal consistency을 동시에 만족시키기 어렵다.

output fidelity: 단일 이미지가 아닌 하나의 영상이기 때문에 프레임이 제 각각 생성이 되면 안됨.

temporal consistency: 하나의 영상이 자연스럽게 이어져야 함.

이러한 문제를 해결하고자 본 연구에서는 Upscale-A-Video라는 프레임워크를 제안한다. text-guided latent diffusion 프레임워크로서, 두 가지 메커니즘을 통해 시간적 temporal consistency를 보장한다.

1. Local level

- U-Net과 VAE-Decoder에 temporal layers 통합하여 짧은 시퀀스 내 consistency를 유지할 수 있다.

2. Global level

- 학습 없이, flow-guided recurrent latent propagation module을 도입하여 전체 시퀀스 stability를 향상시킬 수 있다.

또한, 텍스트 프롬프트를 통해 질감 생성을 유도하거나, 노이즈 수준을 조절하여 복원과 생성 간의 균형을 조절하는 기능을 제공한다.

이로써 fidelity와 quality 사이의 트레이드오프가 가능해진다.

1. Introduction

Video Super-Resolution을 수행하기 위한 기존 방법: synthetic degradations 또는 camera-related degradations에 초점을 맞추어 진행되었지만 real-world에서 한계가 존재한다.

synthetic degradations: 원래 고품질의 비디오에 인위적으로 노이즈, blur, downsampling 등을 추가한 저화질 데이터

camera-related degradations: 비디오가 실제 카메라 시스템에 의해 캡처될 때 발생하는 다양한 품질 저하

그 후 CNN 기반 방법: CNN 기반 네트워크들은 다양한 열화 요소들을 어느 정도 개선하는 데 성공하였지만, generative capability으로 인해 texture와 detail를 생성하는 데에는 여전히 부족하며, 그 결과로 over-smoothing 현상이 자주 발생한다.

아래 자료는 RealBasicVSR의 over-smoothing의 예시다.

그 이후 diffusion 기반 방법: CNN 기반 모델에서 발생하는 over-smoothing 문제를 효과적으로 완화시켰지만, diffusion의 randomness 때문에 temporal discontinuitie와 flickering을 유발한다.

temporal discontinuitie와 flickering를 해결하기 위한 전략 제안

전략1. 3D Convolution 및 temporal attention과 같은 temporal layers를 추가하고 fine-tuning하는 방식

전략2. 사전학습된 모델에 cross-frame attention 또는 flow-guided attetntion을 zero-shot으로 적용하는 방식(학습x)

그러나 여전히 두 가지 문제점이 존재한다.

1) 현재 방법들은 U-Net 또는 latent space에서 작동하기 때문에, low-level consistency 을 유지하는 데 한계가 있으며, texture flickering 문제가 여전히 발생한다.

1) 기존의 temporal layers 및 attention mechanisms은 global temporal consistency을 보장하는 데 한계가 있다.

low-level consistency: 픽셀 단위 또는 색상, 밝기, 텍스처와 같은 consistency

비디오의 모든 프레임의 내용, 스타일, 움직임, 색상, 질감 등이 일관성 있게 유지되는 것

texture flickering를 해결하고 global temporal consistency를 보장하기 위한 제안 방법:
Video reconstruction 과정에서 local-global 방법 채택

1. Local level

- pre-trained x4 image upscaling model에 temporal layers 추가 후 video 데이터로 fine-tuning. 즉, U-Net과 VAE-Decoder에 temporal layers 통합함으로써 temporal layers가 추가된 U-Net은 temporal consistency를, VAE는 flickering을 줄인다.

2. Global level

- 학습 없이, flow-guided recurrent latent propagation module를 도입하여 짧은 비디오 세그먼트를 따라 양방향으로 프레임 간 전파와 latent fusion을 수행함으로써 전체 시퀀스의 stability를 향상시킨다.

프레임 간 warping과 latent fusion: optical flow에 기반하여 이전/미래 프레임의 z를 현재 프레임의 공간적 위치로 warping하여 가져와서 적절한 비율로 섞는다.

적절한 비율로 섞는다는 것: fusion 가중치인 가 이 비율을 조절한다. 가 크면 warping 정보를 더 많이 반영하고, 가 작으면 현재 프레임의 정보를 더 많이 반영한다.

또한, text prompt를 optional condition으로 활용하여 realistic하고 high-quality details을 생성할 수 있으며, 입력에 노이즈를 주입함으로써 모델의 robustness를 높이고, 노이즈의 강도를 조절하여 restoring과 generating 사이의 균형을 제어할 수 있다.

2. Related Work

Video Super-Resolution.

서론에서 언급된 것과 같이 기존의 대부분 방법들은 pre-defined degradation process을 가정하며, real-world 환경에서는 일반화 성능의 한계로 인해 성능이 크게 저하되는 문제점이 있어 입력 비디오가 unknown degradations를 갖는다는 가정 하에 접근 방식을 시도하고 있다.

unknown degradations: real-world에서 카메라로 비디오를 촬영하거나, 저장하거나, 전송하는 과정에서 발생하는 모든 복합적이고 비선형적이며 예측하기 어려운 품질 저하 요소

하지만, 현실 세계의 HR-LR 페어 데이터가 부족하다는 점이 여전히 존재하기 때문에 이러한 점을 해결하고자 아이폰(iPhone) 카메라를 이용해 HR-LR 데이터를 수집하는 방식이 제안되기도 하였지만 다른 기기에 대한 일반화 가능성이 제한적이라는 문제점이 있었다.

HR-LR pair 데이터가 부족한 문제를 위한 해결 방법:

최근 연구들은 학습 시 다양한 degradation을 data augmentation으로 적용하는 방향으로 전환하였다. 그럼에도 불구하고, 기존 CNN 기반 접근 방식들은 generative prior가 부족하여 photo-realistic textures을 생성하는 데 여전히 어려움이 있다.

generative prior가 부족한 문제를 해결하고자 제안한 방법:

이에 본 연구는, pretrained image diffusion model인 Stable Diffusion(SD) ×4 upscaler에 내재된 강력하고 일반화된 generate prior를 활용하는 데 초점을 맞춘다.

generate prior: 전통적인 CNN 기반의 이미지 복원(예: SR) 모델들은 주로 원본 이미지와의 픽셀 단위 차이(L1, L2 손실)를 최소화하도록 학습하는 Regression 방식이기 때문에 평균화된 값을 사용하게 되고 디테일한 텍스처 생성은 어렵다.

Diffusion Models for Video Tasks.

Video diffusion models 연구에서는 효율성을 위해 off-the-shelf image diffusion models을 활용하여 zero-shot 방식으로 비디오 생성을 시도한다. temporal consistency을 유지하기 위해 인접 프레임 간의 cross attention이나 optical flow을 활용한 warping이 사용된다. 그러나 generalizability이 제한적이라는 단점이 있다.

off-the-shelf: 이미 대용량의 데이터셋으로 학습해서 바로 사용할 수 있는 상태의 모델

generalizability이 제한적인 문제점을 해결하기 위한 방법:

가장 최근에는 Blattmann et al.이 pretrained image diffusion model을 비디오 도메인으로 확장하는 방법을 제안하였고, temporal dimension을 추가하고 temporal layers를 fine-tuning함으로써 학습 효율성을 높였다. 본 연구는 이러한 흐름에서 영감을 받아, pre-trained 모델의 generative prior로 활용하고, local-global temporal strategy을 제안한다.

Diffusion Models for Restoration Tasks.

diffusion 기반 이미지 복원의 가장 직관적인 방식은 LR 이미지를 조건으로 하여 처음부터 diffusion 모델을 학습하는 것이다. 그러나 이 방법은 연산 자원이 요구된다는 단점이 있다.

학습 비용을 줄이기 위한 방법: pre-trained diffusion model의 reverse diffusion 과정에 제약 조건을 추가한다. 이 방식은 효율적이긴 하지만, 제약 조건이 사전 정의된 degradation 과정이나 기존 SR 모델에 의존하기 때문에 일반화 성능이 떨어지며 결과 품질도 제한적이다.

그 후 최근 연구들:

frozen pretrained diffusion model에 소수의 학습 가능한 레이어만 추가하여 fine tuning하는 방식을 사용한다. 최근 연구들에 영감을 받아, 본 연구는 real-world VSR에 대해 효과적인 diffusion prior를 활용하는 데 중점을 둔다.

3. Methodology

다시 정리하자면 목적은 real world의 VSR에 적합한 text-guided diffusion framework를 개발하는 것이며 diffusion model의 denoising process는 본질적으로 stochastic nature을 가지고 있어 비디오 태스크에 적용할 때 temporal instability나 flickering artifact의 발생과 같은 어려움이 있다. 특히, 시퀀스가 길수록 더욱 두드러진다.

Upscale-A-Video 모델의 특징
✔️각 확산 시간 단계 =1,2,…, 에서 비디오는 여러 segment으로 나뉘며 각 구간은 시간 레이어가 포함된 U-Net을 통해 처리되어 해당 구간 내의 local consistency을 보장한다.
✔️만약 현재 시간 단계가 사용자가 지정한 global refinement 단계 ∗에 해당된다면, latent recurrent latent propagation module이 도입되어 구간 간 압축된 z를 프레임 간에 반복적으로 전달하고 융합하면서 global consistency를 향상시킨다. 필요하다고 판단되는 단계에서만 활성화되기 때문에 효율성을 높인다.

✔️finetuned VAE-Decoder를 사용하여 남아 있는 flickering 아티팩트를 줄인다.
✔️text prompts를 입력하면 video realism하고 details한 결과를 생성할 수 있다.
✔️사용자가 지정하는 노이즈 레벨을 통해 복원 quality와 fidelity 사이의 트레이드오프를 조절할 수 있다.

3.1. Preliminary: Diffusion Models

Pretrained Stable Diffusion Image ×4 Upscaler.

Upscale-A-Video는 pre-trained text-guided Stable Diffusion ×4 업스케일러(SD ×4 Upscaler)를 기반으로 구축되었으며 autoencoder 구조를 통해 이미지를 latent space로 변환하는 LDM(Latent Diffusion Model) 프레임워크를 사용한다.

⬇️ LDM 논문 아카이브 링크 ⬇️

https://arxiv.org/abs/2112.10752

인코더 : 입력 이미지를 4배 다운샘플하여 로 변환
디코더 : 해당 z를 다시 고해상도 이미지로 복원

저해상도 이미지 를 조건으로 삼아 latent space 내에서 반복적인 denoising을 통해 고품질 이미지를 생성하는 법을 학습한다.
실제 데이터에서 추출한 latent samples에 대해, 각 확산 단계 에서 가우시안 노이즈를 추가하여 노이즈가 섞인 _ 를 생성한다:

모델의 생성 능력을 향상시키기 위해 입력 이미지에도 노이즈를 주입하는 방식 도 함께 사용된다:

v-prediction 파라미터화를 채택하며, U-Net 기반 노이즈 제거 네트워크 는 다음을 예측하도록 학습된다:

v-prediction parameterization: denoiser인 U-Net이 학습해야 할 target을 정의하는 방식 중 하나다. U-Net이 무엇을 예측하도록 훈련되는지를 규정하는 방법

U-Net이 예측하는 것은 노이즈, 원본 데이터, 속도/방향 3가지로 나눌 수 있다.

LDM의 학습 목적 함수는 다음과 같다:

c는 text prompts 또는 입력 이미지의 노이즈 수준과 같은 condition을 포함할 수 있다.
추론 시에는 모델이 다양한 텍스트 프롬프트와 노이즈 레벨을 활용할 수 있으며 최종적으로 샘플링된 0를 디코딩하여 4배 업스케일된 이미지를 생성한다.

Inflated 2D Convolution.

✔️pretrained 2D diffusion 모델을 비디오 작업에 적용할 때 temporal layer를 통합하기 위해 기존의 2D convolution을 3D convolution으로 inflate시키는 것이 일반적인 방법이다.

✔️pretrained Stable Diffusion ×4 업스케일러 사용

두 가지 단계 수행

1) 기존 네트워크를 2D 컨볼루션에서 3D 컨볼루션으로 inflate한다.

2) 이 업스케일러를 기반으로 모델을 초기화하고 비디오 도메인으로 transfer 학습을 한다.

Inflate: 2D (H,W), 3D (H,W,T)

3.2. Local Consistency within Video Segments

pretrained text-to-image SD 모델을 비디오 관련 태스크에 적용하기 위해 기존의 VDM은 3D 컨볼루션, temporal attention, cross-frame attention의 기법을 활용했다.

Finetuning Temporal U-Net.

기존 연구들을 따라, pretrained image model에 temporal layers를 추가하고, 비디오 세그먼트 내의 local consistency 제약을 학습한다. Temporal U-Net에서는 3D 컨볼루션 기반의 3D residual blocks과 temporal attention을 시간적 레이어로 채택하여 기존의 사전 학습된 spatial layers 내에 삽입한다.

✔️temporal attention은 temporal dimension에 따라 self-attention을 수행하며 모든 local frame 간의 관계에 집중한다.

✔️temporal layers에는 RoPE(Rotary Position Embedding)을 적용하여 시간 정보를 반영한 position embedding을 제공한다.

⬇️ RoPE 논문 아카이브 링크 ⬇️

https://arxiv.org/abs/2104.09864

이러한 시간 레이어들은 기존 이미지 모델과 동일한 노이즈 스케줄을 사용하여 학습되며 pretrained spatial layers는 고정시키고 삽입된 temporal layers만을 LDM의 학습 목적 함수를 이용해 최적화한다.

이 방법의 이점:

1) 대규모 고화질 이미지 데이터셋으로부터 학습된 spatial 정보를 그대로 활용할 수 있다.

2) 학습하는 레이어가 줄기 때문에 학습 자원을 효율적으로 사용할 수 있다.

Finetuning Temporal VAE-Decoder.

U-Net을 비디오 데이터에 대해 finetune한 이후에도 이미지 전용으로 학습된 LDM 프레임워크 내의 VAE-Decoder는 latent sequence를 복원할 때 flickering 아티팩트를 여전히 생성하는 문제점이 있고 U-Net의 diffusion denoising process는 종종 color shift를 유발하는데 다른 diffusion 기반 복원 네트워크들에서도 나타나는 공통적인 문제이다.

flickering 아티팩트 문제를 해결하기 위한 방법:

VAE-Decoder에 temporal 3D residual blocks을 추가하여 low-level consistency을 강화한다.

color shift 문제를 해결하기 위한 방법:

입력 비디오에 SFT(Spatial Feature Transform) 레이어를 적용하여 입력 정보를 VAE-Decoder의 첫 번째 레이어의 feature을 변형하도록 한다.

⬇️ SFT 논문 아카이브 링크 ⬇️

https://arxiv.org/abs/1804.02815

Color shift 문제: 원본 이미지의 색상이나 밝기 톤을 정확하게 유지하지 못하고 변화시키는 문제

SFT(Spatial Feature Transform): 원본 저해상도의 전체적인 색상 톤, 밝기 분포와 같은 low-frequency information을 추출하여 condition으로 사용한다.

Temporal layers 학습에 사용되는 하이브리드 loss function:

1) L1 loss

2) LPIPS perceptual loss

3) Temporal PatchGAN discriminator를 활용한 Adversarial loss

⬇️ LPIPS perceptual loss 논문 아카이브 링크 ⬇️

https://arxiv.org/abs/1801.03924

⬇️ Temporal PatchGAN 논문 아카이브 링크 ⬇️

https://arxiv.org/abs/2309.03897

3.3. Global Consistency cross Video Segments

기존 방법의 문제점: LDM내에서 학습된 temporal layers는 local sequence(U-Net 설정에서는 8프레임)만 처리할 수 있어 global consistency을 보존하는 데 한계가 있다.

global consistency을 보존하기 위한 방법: flow-guided long-term propagation가 temporal consistency을 향상시키는 데 유리하다는 것을 보여주었지만 short video clips만을 처리할 수 있는 diffusion model에는 적합하지 않다.

Training-Free Recurrent Latent Propagation.

latent space 내 training-free한 flow-guided recurrent propagation module을 제안한다. 이 모듈은 긴 비디오 입력에서 global temporal coherence을 보장한다. forward와 backward 두 방향으로 프레임 간 정보를 전파한다.

1. Optical flow estimation: RAFT 모델을 사용해서 optical flow를 추정한다(resizing 필요x).

2. 추정된 optical이 유효한지 체크하기 위해 forward-backward consistency error를 계산한다.

3. 이전 프레임의 latent를 optical flow 정보 기반으로 현재 프레임 위치로 warping 후, latent fusion을 진행한다.

4. 모든 diffusion step에 적용할 필요 없이 지정한 T*에서만 적용한다.

⬇️ RAFT 논문 아카이브 링크 ⬇️

https://arxiv.org/abs/2312.06640 https://arxiv.org/pdf/2003.12039

⬇️ forward-backward consistency error 논문 링크 ⬇️

https://ojs.aaai.org/index.php/AAAI/article/view/12276

3.4. Inference with Additional Conditions

Additional condition을 조정하여 diffusion denoising process에 영향을 준다.

✔️Text prompts와 Noise levels 조정의 효과: 텍스처 디테일을 생성할 수 있다.

✔️ Classifier-Free Guidance(CFG) 기법을 추가하여 위의 효과를 증폭시키는 데 도움을 준다.

⬇️ CFG 논문 아카이브 링크 ⬇️

https://arxiv.org/abs/2207.12598

4. Experiments

4.1. Datasets and Implementation

Training Datasets.

1) WebVid10M의 서브셋

약 33.5만 개의 비디오-텍스트 쌍으로 구성

해상도는 약 336×596

VDM 학습에 많이 사용되는 데이터셋

2) YouHQ 데이터셋 (자체 수집)

YouTube에서 고화질 영상(1080×1920) 약 3.7만 개 수집

거리, 풍경, 동물, 인물 얼굴, 정적 사물, 수중 장면, 야간 장면 등 다양한 장면 포함

실제 환경에서의 VSR 생성 능력 향상에 기여

RealBasicVSR의 degradation 파이프라인을 따라 LQ-HQ 비디오 쌍을 생성해 학습에 사용

⬇️ RealBasicVSR 논문 아카이브 링크 ⬇️

https://arxiv.org/abs/2111.12704

Testing Datasets.

총 4개의 합성(synthetic) 테스트 데이터셋 사용

SPMCS

UDM10

REDS30

YouHQ40 (YouHQ에서 테스트용으로 40개 영상 분리)

추가로 실제 환경의 성능 평가

VideoLQ (실제 저화질 영상)

AIGC30: 최신 텍스트-투-비디오 생성 모델로 만든 AI 영상 30개 수집

Training Details.

GPU: NVIDIA A100 80GB × 32개

배치 사이즈: 384

입력 크기: 80×80, 길이 8프레임

Adam, learning rate =1×10^(-4)

U-Net:

WebVid10M + YouHQ 합쳐서 70K iteration

그 후 YouHQ만 사용해 10K iteration 추가 학습

YouHQ에는 텍스트 프롬프트가 없기 때문에 null prompt를 사용

VAE-Decoder:

StableSR 방식 따름

WebVid10M과 YouHQ에서 합성 LQ-HQ 비디오 쌍 10만 개 생성

학습된 U-Net으로 LQ 비디오에 대한 latent 코드 생성 → 디코더 finetuning

Evaluation Metrics.

합성 데이터셋(GT있음)

PSNR

SSIM

LPIPS

Flow warping error (E*warp)

실제 영상 및 AIGC 영상(GT 없음): 무참조(non-reference) 지표 사용

CLIP-IQA

MUSIQ

DOVER

4.2. Comparisons

최신 VSR(비디오 초해상도) 기법들과 성능을 비교했다.

Real-ESRGAN

Stable Diffusion ×4 Upscaler

ResShift

StableSR

RealVSR

DBVSR

RealBasicVSR

Quantitative Evaluation.

Upscale-A-Video는 4개의 합성 test 데이터셋에서 PSNR이 가장 높은 결과를 보여준다.

UDM10과 YouHQ40에서는 LPIPS 점수가 가장 낮게 나타나 생성된 영상의 perceptual quality가 매우 높음을 보여준다.

실제 비디오 VideoLQ와 AI 생성 영상 AIGC30에서도 CLIP-IQA와 DOVER 점수가 가장 높은 것을 볼 수 있다.

Qualitative Evaluation.

Temporal Consistency.

local-global temporal strategy를 통해 우수한 temporal consistency 성능을 보여준다.

UDM10 데이터셋에서 optical flow error가 가장 낮은 점수를 기록하였다.

Upscale-A-Video가 기존의 다른 확산 기반 영상 기법들보다 뛰어난 성능을 보일 뿐만 아니라 RealBasicVSR와 DBVSR 같은 강력한 CNN 기반 VSR 모델들 보다도 뛰어남을 의미한다. 또한, temporal profile visualization를 통해 더 부드럽고 매끄러운 전환을 이루는 모습을 확인할 수 있다.

4.3. Ablation Study

Effectiveness of Finetuned VAE-Decoder.

VAE-Decoder를 finetuning 하는 것이 얼마나 중요한지를 평가했다. Table 2에서 확인할 수 있듯이 VAE-Decoder를 원래 decoder로 대체할 경우 PSNR, SSIM, 그리고 특히 E*warp 값이 악화되었다. 특히 E*warp가 0.737 → 1.815로 증가하면서 temporal consistency가 크게 저하됨을 보여준다. Fig. 6의 비교 결과도 fine-tuned VAE-Decoder 없이 생성한 영상은 더 많은 flickering가 있음을 시각적으로 보여준다.

Effectiveness of Propagation Module.

VAE-Decoder 외에도 flow-guided recurrent latent propagation module을 제안하여 긴 영상의 stability를 향상시켰다. Table 2와 같이 이 모듈을 도입하면 E*warp 오류가 추가적으로 감소하여 temporal consistency가 더욱 개선된다. 또한, PSNR 같은 프레임 단위 성능은 그대로 유지된다. Fig. 6의 temporal profile에서도 프레임 간 전환이 더 부드럽고 자연스러워짐을 확인할 수 있다.

Text Prompt.

Text prompt가 있는 경우와 없는 경우(null prompt) 모두에 대해 학습했다. Classifier-Free Guidance 기법을 사용하여 샘플링 시 시각 품질을 향상시켰다. Fig. 7를 보면 적절한 text prompt를 사용하는 경우 더 섬세하고 사실적인 디테일이 생성됨을 확인할 수 있다.

Noise Level.

입력에 추가하는 noise level 역시 모델 성능에 영향을 준다. noise level이 낮을수록 결과가 흐릿하고 디테일이 부족한 경향이 있는 반면, 너무 큰 노이즈는oversharpening을 유발할 수 있다. 따라서 복원력과 생성력 사이의 균형을 위해 noise level를 조절하는 것이 중요하다.

5. Conclusion

✔️문제점: diffusion models 기반 real world VSR 분야에서는 연구가 부족하다.

✔️제안방법: Upscale-A-Video

✔️Upscale-A-Video: image diffusion prior을 real world VSR에 효과적으로 활용하면서 diffusion 과정의 내재된 randomness로 인한 temporal discontinuity 문제를 피할 수 있도록 설계되었다. 특히, LDM 내에서 local-global temporal strategy을 도입함으로써 temporal coherence를 효과적으로 강화했다.

✔️추가적인 방법: text prompt를 통한 질감 생성, 노이즈 수준 조절을 통한 복원력-품질 간 트레이드오프 조절 기능을 함께 도입하여 실제 환경에서의 실용성과 유연성을 높이는 데 기여했다.

[논문리뷰] Learning Transferable Visual Models From Natural Language Supervision

honey-vision — Thu, 16 Jan 2025 01:25:23 +0900

Clip(Contrastive Language–Image Pretraining) 논문리뷰를 해보려고 한다.

본 논문은 2021년도에 나왔으며 OpenAI에서 발표한 논문이다.

Abstract

기존 컴퓨터 비전 분야에서의 문제점

- 이미 정의 되어져 있는 객체 카테고리를 예측하도록 훈련되는 지도 학습 방법을 사용한다.

- 다른 visual concept을 학습하기 위해 추가적으로 레이블 데이터가 필요하다.

- 모델의 generality와 usability를 제한한다.

대안 방법

이미지에 대한 raw text로부터 직접 학습하는 것이다.

1. Introduction and Motivating Work

NLP 분야의 혁신적인 발전

- raw text로부터 직접 학습하는 사전 학습 방법을 사용했다.

- 다양한 비종속적인 태스크에서 여러 차례 확장되었으며, 지속적으로 성능을 향상시켰다.

- "Texy-Text"의 인풋 -아웃풋 방법은 Downstream datasets으로 zero-shot transfer를 가능하게 했다.

- 특수한 출력 헤드나 데이터셋별 맞춤 조정이 필요하지 않게 되었다.

ex) GPT-3

이러한 결과는 웹 규모 텍스트 컬렉션을 활용한 현대적인 사전 학습 방법이 고품질 크라우드 레이블링된 NLP 데이터셋의 감독 정보를 능가할 수 있음을 시사한다.

그러나 컴퓨터 비전 분야에서는 여전히 crowd-labeled datasets을 사용하여 모델을 학습한다.

텍스트로부터 직접 학습하는 방법을 컴퓨터 비전에도 적용한다면 비슷한 혁신을 가져올 수 있을까?

관련 연구

- Images와 짝지어진 text documents에서 명사와 형용사를 예측하여 콘텐츠 기반 이미지 검색 개선

- Manifold learning

- low-level image 및 text tag feature 위에 multimodal Deep Boltzmann Machine을 훈련

- 이미지 캡션의 단어를 예측하도록 훈련된 CNN이 유용한 이미지 표현을 학습 입증

- YFCC100M 데이터셋의 이미지에 대한 제목, 설명, 해시태그 메타데이터를 단어 집합(Bag-of-Words) 기반 다중 레이블 분류 작업으로 변환하고, 레이블을 예측하도록 AlexNet을 사전 학습시켰을 때 전이 학습 태스크에서 ImageNet 사전 학습과 유사한 성능을 보이는 표현을 학습

- 단어 단위와 n-grams(연속된 단어 묶음) 예측, 이미지 분류 데이터셋에 대해 zero-shot transfer할 수 있는 시스템의 능력 입증

- VirTex, ICMLM, ConVIRT

Natural Language Supervision을 사용하는 사례는 여전히 드물다.

-> 이는 일반적인 벤치마크에서 입증된 성능이 대체 접근법들보다 훨씬 낮기 때문

대신, 더 좁은 범위로 제한되었지만 목적에 맞게 설계된 Weakly Supervised Learning이 성능을 개선해왔다.

Weakly Supervised Learning

제한된 양의 지도 학습된 "gold-labels" 데이터와 대용량의 raw text를 사용한 학습 사이의 실용적인 절충점을 나타낸다. Mahajan et al. (2018)과 Kolesnikov et al. (2019) 두 연구 모두 감독 신호를 신중히 설계했지만, 그 과정에서 각각 1000개 및 18291개의 클래스에 한정했다. 자연어는 그 일반성을 통해 훨씬 더 폭넓은 시각적 개념을 표현할 수 있으며, 이를 감독 신호로 사용할 수 있다. 두 접근법 모두 정적인 소프트맥스 분류기를 사용해 예측을 수행하며, 동적인 출력(새로운 데이터에 대한 대응)을 위한 메커니즘이 부족하다.

- 모델의 유연성 제한, Zero-Shot 성능 제한

Natural Language Supervision 과 Weakly Supervised Learning 의 차이점은 scale(규모)다.

본 연구에서는 이 격차를 해소하고, 대규모 natural language supervision으로 학습된 이미지 분류기의 동작을 연구한다.

2. Approach

2.1. Natural Language Supervision

Zhang et al.(2020), Gomez et al.(2017), Joulin et al.(2016), 그리고 Desai & Johnson(2020)은 모두 (text, image) pair을 사용했지만 각각 unsupervised, self-supervised, weakly supervised, supervised으로 자신들의 접근 방식을 설명했다.

초기 연구들은 토픽 모델과 n-그램 표현을 사용할 때 자연어의 complexity의 문제가 있었다.

-> Deep contextual representation learning의 발전으로 이제는 방대한 양의 데이터를 효과적으로 활용할 수 있는 도구를 갖추게 되었다.

강점

- 주석을 작성할 필요가 없으므로 확장하기 쉽다.

- 해당 representation을 언어와 연결하여 유연한 zero-shot transfer를 가능하게 한다.

2.2. Creating a Sufficiently Large Dataset

기존 연구들이 사용한 데이터셋

MS-COCO와 Visual Genome: 고품질의 라벨 데이터이지만, 규모가 작다.

YFCC100M: 각 이미지의 메타데이터가 부족하거나 품질이 고르지 않다.

본 논문에서 사용하는 데이터셋 WebImageText(WIT)

- 데이터가 인터넷에 대량으로 공개되어 있다.

- 인터넷에서 공개된 다양한 소스에서 수집한 4억 개의 (image, text) 쌍으로 구성된 새로운 데이터셋을 만들었다.

- 가능한 한 다양한 visual concepts을 포괄하기 위해, 데이터셋 구축 과정에서 50만 개의 쿼리 중 하나를 포함하는 텍스트가 있는 (image, text) 쌍을 검색했다.

- 쿼리당 최대 2만 개의 (image, text) 쌍을 포함시켜 데이터셋의 클래스 균형을 맞췄다.

2.3. Selecting an Efficient Pre-Training Method

정확한 라벨 데이터로 학습시킨 모델의 문제점

초기 접근 방식은 VirTex와 유사하게, 이미지 CNN과 text transformer를 처음부터 함께 학습하여 이미지의 캡션을 예측하는 방식이었다. 그러나 효율적으로 확장하는 데 어려움이 있었다. 그림 2에서는 transformer language model이 ResNet-50 보다 2배 많은 연산량을 사용함에도 불구하고, ImageNet 클래스 인식 속도가 3배 느리다는 것을 보여준다.

-> 이러한 이유는 이미지와 함께 제공되는 텍스트의 정확한 단어를 예측하려고 시도하기 때문이다. 최근 이미지 대조 학습 연구에서는 contrastive objective가 더 우수한 표현 학습을 가능하게 한다는 것을 발견했다. 또 다른 연구에서는 생성 모델이 고품질 이미지 표현을 학습할 수 있지만, 많은 연산량을 필요로 한다는 것을 발견했다.

이러한 연구 결과를 바탕으로, 텍스트의 개별 단어가 아닌 전체 텍스트가 어떤 이미지와 쌍을 이루는지를 예측하는 비교적 더 쉬운 과제를 학습하는 시스템을 탐구했다. 동일한 bag-of-words 인코딩 베이스라인에서 predictive objective를 contrastive objective로 변경한 결과, ImageNet zero-shot transfer 속도가 4배 향상됨을 확인했다.

학습방법

- 배치 내 N × N 개의 가능한 (image, text) 조합 중에서 실제로 일치하는 쌍을 예측하도록 훈련된다.

- 이미지 인코더와 텍스트 인코더를 함께 학습

- N개의 이미지 및 텍스트 임베딩의 cosine similarity 최대화

- N² – N개의 잘못된 조합의 cosine similarity 최소화

- 유사도 점수를 기반으로 대칭적인 cross entropy loss 최적화

2.4. Choosing and Scaling a Model

이미지 인코더

- 수정된 ResNet-50 사용

- global average pooling layer -> 어텐션 풀링 메커니즘으로 교체

- layer normalization을 추가하고 초기화 방식을 수정한 Vision Transformer 사용

- 모델 확장해서 사용

텍스트 인코더

- 트랜스포머 모델 사용

- 모델 확장해서 사용

2.5. Training

- 5개의 ResNet 모델과 3개의 ViT 모델 학습

- ResNet-50, ResNet-101 학습

- ResNet-50의 연산량을 각각 4배(RN50x4), 16배(RN50x16), 64배(RN50x64)사용한 3개의 추가 모델을 학습

- ViT-B/32, ViT-B/16, ViT-L/14 학습(32 에포크 동안 학습)

- Adam 옵티마이저 사용

- weight decay 정규화 모든 가중치에 적용

- 코사인 스케줄 사용

- 초기 하이퍼파라미터는 ResNet-50 모델을 1 에포크 동안 학습하여 그리드 탐색, 랜덤 탐색, 수동 조정을 조합해 설정

- 더 큰 모델에서는 경험적인 방식(heuristic)으로 하이퍼파라미터 조정

- 타우는 0.07로 초기화, logit 값이 100을 초과하지 않도록 제한

- 32,768 미니배치 크기 사용

- Mixed-precision을 사용해 훈련 속도를 높이고 메모리 절약

- 추가적인 메모리 절약을 위해 그라디언트 체크포인팅, 반정밀도 Adam 통계, 반정밀도 확률적 반올림된 텍스트 인코더 가중치 사용

- 임베딩 유사도 계산도 분산 처리하여 개별 GPU가 해당 로컬 배치의 일부 유사도 계산

- 가장 큰 ResNet 모델 RN50x64는 592개의 V100 GPU에서 18일 동안 학습

- 가장 큰 Vision Transformer 모델은 256개의 V100 GPU에서 12일 동안 학습

- ViT-L/14 모델에서는 성능을 향상시키기 위해 336픽셀 해상도에서 1 에포크 추가 사전 학습을 수행(ViT-L/14@336px)

9. Conclusion

NLP에서 과제 비종속적인 웹 규모 사전 학습의 성공을 다른 분야로 전이할 수 있는지 알아보았고, 컴퓨터 비전 분야에도 적용했을때 유사한 행동이 나타난다는 것을 발견했다. CLIP 모델은 훈련 목표를 최적화하기 위해 사전 훈련 중에 프롬포트를 활용하는 등 다양한 작업을 수행하는 방법을 학습해서 다운스트림 태스크를 가능하게 한다. 그러나 여전히 개선의 여지가 많다.

Keras로 Vision Transformer 예제 실행하기

honey-vision — Thu, 17 Oct 2024 17:24:46 +0900

케라스 기반으로 만들어진 비전 트랜스포머를 실행하고 코드를 공부해보자.

케라스 공식 홈페이지는 아래 링크에서 확인하면 된다.

https://keras.io/examples/vision/image_classification_with_vision_transformer/

Keras documentation: Image classification with Vision Transformer

► Code examples / Computer Vision / Image classification with Vision Transformer Image classification with Vision Transformer Author: Khalid Salama Date created: 2021/01/18 Last modified: 2021/01/18 Description: Implementing the Vision Transformer (ViT)

keras.io

이번 코드는 논문 이해를 돕기 위한 간단한 예시 정도로,

attention이 이미 라이브러리로 불러올 수 있도록 되어 있어서 직접 구현하는건 따로 해봐야 될 듯 하다.

import os

os.environ["KERAS_BACKEND"] = "jax"  # @param ["tensorflow", "jax", "torch"]

import keras
from keras import layers
from keras import ops

import numpy as np
import matplotlib.pyplot as plt

필요 라이브러리를 불러오고 백엔드 설정을 미리 한다.

num_classes = 100
input_shape = (32, 32, 3)

(x_train, y_train), (x_test, y_test) = keras.datasets.cifar100.load_data()

print(f"x_train shape: {x_train.shape} - y_train shape: {y_train.shape}")
print(f"x_test shape: {x_test.shape} - y_test shape: {y_test.shape}")

cifar100 데이터셋을 사용함으로 넘클래스는 100으로 설정한다.

각 이미지는 32x32 크기이고, RGB 3채널로 되어 있다 → (32,32,3)

케라스에서 제공되는 데이터셋을 이미지와 레이블을 구분하여 불러온다.

훈련 데이터(x_train)와 레이블(y_train)의 형태를 출력하여 shape을 확인한다.

케스트 데이터도 마찬가지로 shape 확인!

learning_rate = 0.001
weight_decay = 0.0001
batch_size = 256
num_epochs = 10  # For real training, use num_epochs=100. 10 is a test value
image_size = 72  # We'll resize input images to this size
patch_size = 6  # Size of the patches to be extract from the input images
num_patches = (image_size // patch_size) ** 2

learning rate, weight decay, batch size, epoch를 설정한다.

num_patches는 이미지에서 추출되는 패치의 수를 계산한다.

패치는 겹치지 않고 추출되기 때문에 패치사이즈에서 이미지 픽셀 수를 나눠주면 된다.

projection_dim = 64
num_heads = 4

선형 투영의 차원과 헤드 수를 설정한다.

transformer_units = [
    projection_dim * 2,
    projection_dim,
]  # Size of the transformer layers

FFN(Feed-forward Neural Network)의 유닛(노드)를 정한다.

첫 번째 레이어는 차원을 확장해서 풍부한 정보를 얻고,

두 번째 레이어에서 다시 차원을 축소하여 중요한 정보를 유지한다.

transformer_layers = 8
mlp_head_units = [
    2048,
    1024,
]  # Size of the dense layers of the final classifier

레이어는 8개로 설정하고 레이어 통과 후 적용되는 MLP(Multi-Layer Perceptron)의 유닛 수를 정한다.

2048개, 다음 레이어에서 1024 피처를 생성한다.

data_augmentation = keras.Sequential(
    [
        layers.Normalization(),
        layers.Resizing(image_size, image_size),
        layers.RandomFlip("horizontal"),
        layers.RandomRotation(factor=0.02),
        layers.RandomZoom(height_factor=0.2, width_factor=0.2),
    ],
    name="data_augmentation",
)
# Compute the mean and the variance of the training data for normalization.
data_augmentation.layers[0].adapt(x_train)

데이터 어그멘테이션을 한다.

정규화, 리사이징, 수평으로 뒤집기, 무작위 회전, 무작위 줌을 적용한다.

data_augmentation.layers[0].adapt(x_train)는 훈련 데이터를 사용해 Normalization 레이어가 평균과 분산을 미리 학습하여 이후 데이터의 정규화 과정을 수행할 준비를 하는 단계다.

즉, 데이터 픽셀 값에 맞춰서 평균과 분산을 구하고 적절한 값으로 정규화한다.

def mlp(x, hidden_units, dropout_rate):
    for units in hidden_units:
        x = layers.Dense(units, activation=keras.activations.gelu)(x)
        x = layers.Dropout(dropout_rate)(x)
    return x

다음은 MLP를 구현하는 과정이다.

x: 입력데이터

hidden_units: dense layer에 사용할 유닛 수

dropout_rate: 드롭아웃 비율

비전 트랜스포머는 GELU 활성화 함수를 사용한다.

겔루 함수는 렐루 함수 처럼 음수는 곧 0. 양수는 1로 극단적이지 않고 부드럽게 적용된다는 특징이 있다.

출처: Wikipidia

class Patches(layers.Layer):
    def __init__(self, patch_size):
        super().__init__()
        self.patch_size = patch_size

    def call(self, images):
        input_shape = ops.shape(images)
        batch_size = input_shape[0]
        height = input_shape[1]
        width = input_shape[2]
        channels = input_shape[3]
        num_patches_h = height // self.patch_size
        num_patches_w = width // self.patch_size
        patches = keras.ops.image.extract_patches(images, size=self.patch_size)
        patches = ops.reshape(
            patches,
            (
                batch_size,
                num_patches_h * num_patches_w,
                self.patch_size * self.patch_size * channels,
            ),
        )
        return patches

    def get_config(self):
        config = super().get_config()
        config.update({"patch_size": self.patch_size})
        return config

이제 입력 이미지에서 패치를 추출하는 함수를 구현한다.

설정한 패지 사이즈 크기 만큼으로 이미지를 분할하고 각 패치를 평탄화하여 변환한다.

[batch_size, height, width, channel] 이러한 형태로 입력으로 이미지가 들어오게 된다.

num_patches_h = height // self.patch_size

num_patches_w = width // self.patch_size

이미지를 패치 사이즈에 맞게 나누어 생성되는 패치의 수를 계산한다.

예를 들어 이미지 사이즈가 4x4이고 패치 사이즈를 2x2로 설정했다면,

이미지 높이/패치사이즈 = 4/2 = 2

이미지 너비/패치사이즈 = 4/2 = 2

2*2=4 총 4개의 패치가 나오게 된다.

image.extract_patches 함수를 사용해 패치로 분할한다.

분할 후에는 각 패치를 평탄화 한다.

(batch_size, num_patches, flattened_patch_size)

배치 사이즈는 잠시 생략하고 (num_patches, flattened_patch_size) 형태를 입력 행렬이라고 하자.

여기까지 코드가 패치를 분할하고 평탄화 시키는 작업이다.

flattened_patch_size = 2x2x3 = 12

예시 이미지에서 입력행렬은 (4,12)가 될 것이다.

plt.figure(figsize=(4, 4))
image = x_train[np.random.choice(range(x_train.shape[0]))]
plt.imshow(image.astype("uint8"))
plt.axis("off")

resized_image = ops.image.resize(
    ops.convert_to_tensor([image]), size=(image_size, image_size)
)
patches = Patches(patch_size)(resized_image)
print(f"Image size: {image_size} X {image_size}")
print(f"Patch size: {patch_size} X {patch_size}")
print(f"Patches per image: {patches.shape[1]}")
print(f"Elements per patch: {patches.shape[-1]}")

n = int(np.sqrt(patches.shape[1]))
plt.figure(figsize=(4, 4))
for i, patch in enumerate(patches[0]):
    ax = plt.subplot(n, n, i + 1)
    patch_img = ops.reshape(patch, (patch_size, patch_size, 3))
    plt.imshow(ops.convert_to_numpy(patch_img).astype("uint8"))
    plt.axis("off")

x_train에서 랜덤한 이미지를 선택하여 4x4 크기의 플롯에 표시하고, 이미지를 이전에 설정했던 패치 사이즈로 나눈다.

패치 분할 수, 패치 크기, 총 개수를 출력하여 확인한다.

패치의 총 개수에 맞추어 nxn 그리드를 생성하고, 각 패치를 원래의 2차원 형태로 reshape한 후, 개별적으로 시각화한다.

원래 이미지를 학습 시킬 때 리사이징한 크기로 맞추어서 출력한다.

아래 이미지가 코드 실행 후 출력된 결과이다.

class PatchEncoder(layers.Layer):
    def __init__(self, num_patches, projection_dim):
        super().__init__()
        self.num_patches = num_patches
        self.projection = layers.Dense(units=projection_dim)
        self.position_embedding = layers.Embedding(
            input_dim=num_patches, output_dim=projection_dim
        )

    def call(self, patch):
        positions = ops.expand_dims(
            ops.arange(start=0, stop=self.num_patches, step=1), axis=0
        )
        projected_patches = self.projection(patch)
        encoded = projected_patches + self.position_embedding(positions)
        return encoded

    def get_config(self):
        config = super().get_config()
        config.update({"num_patches": self.num_patches})
        return config

이전까지 인코더에 적용할 수 있도록 작업을 해주었다.

이제 패치를 받아 Linear Projection을 하고 Positional Embedding을 추가하는 레이어를 구현하는 부분이다.

패치의 위치 정보를 포함하는 임베딩 레이어로 패치의 위치를 임베딩 벡터로 변환하여 각 패치의 위치 정보를 더한다.

positions는 패치 수 만큼 위치 인덱스를 생성한다.

get_config 함를 통해 모델을 저장하고 나중에 불러올 때 레이어의 설정값을 저장한다.

def create_vit_classifier():
    inputs = keras.Input(shape=input_shape)
    # Augment data.
    augmented = data_augmentation(inputs)
    # Create patches.
    patches = Patches(patch_size)(augmented)
    # Encode patches.
    encoded_patches = PatchEncoder(num_patches, projection_dim)(patches)

    # Create multiple layers of the Transformer block.
    for _ in range(transformer_layers):
        # Layer normalization 1.
        x1 = layers.LayerNormalization(epsilon=1e-6)(encoded_patches)
        # Create a multi-head attention layer.
        attention_output = layers.MultiHeadAttention(
            num_heads=num_heads, key_dim=projection_dim, dropout=0.1
        )(x1, x1)
        # Skip connection 1.
        x2 = layers.Add()([attention_output, encoded_patches])
        # Layer normalization 2.
        x3 = layers.LayerNormalization(epsilon=1e-6)(x2)
        # MLP.
        x3 = mlp(x3, hidden_units=transformer_units, dropout_rate=0.1)
        # Skip connection 2.
        encoded_patches = layers.Add()([x3, x2])

    # Create a [batch_size, projection_dim] tensor.
    representation = layers.LayerNormalization(epsilon=1e-6)(encoded_patches)
    representation = layers.Flatten()(representation)
    representation = layers.Dropout(0.5)(representation)
    # Add MLP.
    features = mlp(representation, hidden_units=mlp_head_units, dropout_rate=0.5)
    # Classify outputs.
    logits = layers.Dense(num_classes)(features)
    # Create the Keras model.
    model = keras.Model(inputs=inputs, outputs=logits)
    return model

ViT 모델을 구현하는 함수다. 함수를 블록만큼 반복하며 패치 간의 관계를 학습하고 최종적으로 분류를 수행한다.

def run_experiment(model):
    optimizer = keras.optimizers.AdamW(
        learning_rate=learning_rate, weight_decay=weight_decay
    )

    model.compile(
        optimizer=optimizer,
        loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
        metrics=[
            keras.metrics.SparseCategoricalAccuracy(name="accuracy"),
            keras.metrics.SparseTopKCategoricalAccuracy(5, name="top-5-accuracy"),
        ],
    )

    checkpoint_filepath = "/tmp/checkpoint.weights.h5"
    checkpoint_callback = keras.callbacks.ModelCheckpoint(
        checkpoint_filepath,
        monitor="val_accuracy",
        save_best_only=True,
        save_weights_only=True,
    )

    history = model.fit(
        x=x_train,
        y=y_train,
        batch_size=batch_size,
        epochs=num_epochs,
        validation_split=0.1,
        callbacks=[checkpoint_callback],
    )

    model.load_weights(checkpoint_filepath)
    _, accuracy, top_5_accuracy = model.evaluate(x_test, y_test)
    print(f"Test accuracy: {round(accuracy * 100, 2)}%")
    print(f"Test top 5 accuracy: {round(top_5_accuracy * 100, 2)}%")

    return history


vit_classifier = create_vit_classifier()
history = run_experiment(vit_classifier)


def plot_history(item):
    plt.plot(history.history[item], label=item)
    plt.plot(history.history["val_" + item], label="val_" + item)
    plt.xlabel("Epochs")
    plt.ylabel(item)
    plt.title("Train and Validation {} Over Epochs".format(item), fontsize=14)
    plt.legend()
    plt.grid()
    plt.show()


plot_history("loss")
plot_history("top-5-accuracy")

마지막으로 top-5와 loss를 시각화하는 코드다.

ViT 논문에서 옵티마이저를 Adam으로 했는데 여기서는 AdamW를 사용했다.

코드 실행 후 그래프 결과이다.

근데 loss 그래프.. 어디갔어? 실종되어서 다시 확인이 필요하다........

[논문리뷰] Self-training with Noisy Student improves ImageNet classification

honey-vision — Mon, 12 Aug 2024 16:39:42 +0900

이번 논문은 라벨링 되지 않은 데이터를 활용한 이미지 분류 논문을 리뷰한다.

라벨링 되지 않은 데이터는 그냥 이미지 데이터다. 어떠한 폴더나 클래스로 구분을 하지 않은 이미지들.

리뷰 후에는 구현 코드에 관한 글을 쓰고자 한다.

Abstract

- Semi supervised learning접근법인 Noisy Student Training 방법 제시

- Student model에 Noise를 더하여 학습시키고 teacher model과 같거나 더 큰 student model를 사용함으로써 self-training과 distillation 방법을 확장시킴

1. Introduction

- 여전히 vision model은 unlabeled를 사용하는 것보다 labeled 이미지로 학습을 시킨다

- Unlabeled 이미지로 학습시켜 크게 3단계를 통해 정확도와 강인성을 높혔다

- Noisy Student Training은 두 가지 방법으로 self-training과 distillation 방법을 개선했다

- Noisy Student Training 방법으로 ImageNet 데이터셋에서 SOTA 모델 성능보다 2% 높혔고 robustness(강인성)도 좋아졌다 -> table1 참고

2. Noisy Student Training Algorithm1:Noisy Student Training

- Noisy Student Training은 semi-supervised learning 방법인 self-training과 distillation의 개선된 방법

- 핵심 아이디어는 studednt model에 noise를 추가한 것과 student model로 teacher model보다 같거나 큰 모델을 사용했다는 것

Noising Student

- Teacher model은 pseudo ladels를 만들어내야 함으로 student model에만 input noise, model noise를 추가한다

- Unlabeled에 noise를 적용했을때 decision function의 일관성을 얻게 된다 -> 데이터가 변형되어도 같은 클래스로 맞춤, dropout과 stochastic depth에 noise를 추가함으로써 앙상블 효과 발생

Other Techniques

- Noisy Student Training은 data filtering이나 balancing과 같은 추가적인 기법을 사용하면 더 좋다

- soft or hard pseudo ladels을 사용하는 방법이 있는데 도메인 외 unlabeled 데이터에서는 soft pseudo labels가 조금 더 좋았다

논문에서 말하는 soft label과 hard label의 차이는 아래 그림과 같다.

soft label이 각 클래스에 대해 예측한 확률값을 의미하고 hard label은 0 또는 1로 예측하는 방법이다.

Comparisons with Existing SSL

- Methods 기존 SSL(Semi-Supervised Learning) 방법과 비교했을때, 기존 SSL은 teacher model을 분리하지 못하고 pseudo labels를 일관성있도록 학습하지 못한다

- 해결 방법이 있다 하더라도 ImageNet과 같은 대규모 데이터셋에서는 사용하기 어렵다

3. Experiments

SOTA model과 비교한 결과를 설명하고 robustness 데이터셋에서 놀라운 결과를 증명한다

robustness 데이터셋이라는건 단어 그대로 강인한 지를 나타내는 건데

즉, 모델이 얼마나 강한가? 라는 것이다. 복잡한 데이터임에도 불구하고 잘 맞추는가를 보는 것.

강인성을 테스트하기 위한 데이터셋에는 회전된 이미지, 흐리게 한 이미지 등 효과가 적용된 이미지를 사용한다.

3.1. Experiment Details

Labeled dataset

ImageNet 데이터셋 사용

Unlabeled dataset

- JFT 데이터셋으로부터 300M개의 unlabeled 이미지를 얻었고 이미지에 label이 있더라도 무시하고 사용했다

- data filtering and balancing 기법 사용 공정한 비교를 위해 YFCC 100M개의 공식 데이터셋을 사용(결과: 부록 A.4)

JFT 데이터셋은 구글이 자체적으로 만든 데이터셋으로 3억개 정도의 방대한 데이터로 구성되어져 있다.

Architecture

더 나은 용량을 제공하는 EfficientNets을 baseline model로 사용

Training details

- Labeled images의 경우 batch size는 2048를 사용했고 메모리가 부족하면 줄여서 적용하는 것도 괜찮다

- Unlabeled images의 경우 더 큰 batch size를 사용했다 처음에는 작은 해상도로 350 epochs 학습시키고 model를 finetuning하여 labeled images를 1.5 epochs 학습시킨다

- Unlabeled batch size는 labeled batich size에 14배 크다

Noise

- Stochastic depth, dropout(0.5), RandAugment를 student에 사용했다 Stochastic depth는 final layer에서 0.8을 설정하고 linear decay rule에 따라 다음 레이어부터 감소한다 RandAugment는 두 가지 효과를 적용한다

Iterative training

- best model은 3번 반복 학습을 했을 때였다.

3.2. ImageNet Results

- Noisy Student Training을 적용한 Efficient-L2는 top-1 acc에서 88.4%를 달성했다

- Efficientnet에서 가장 높은 acc는 85.0%다 3.4%는 두 가지로 얻을 수 있었다

- 모델의 크기(+0.5%), Noisy Student Training(+2.9%) 두 가지에서 성능 향상이 있었는데, Noisy Student Training가 모델을 바꾸는 것보다 더 큰 영향이 있다는 것을 알 수 있다

- 3.5 Billion의 labeled images로 학습된 ResNeXt-101 WSL 보다 데이터가 적게 필요하고 파라미터도 비교적 적다

Model Size Study

- iterative training없이 Noisy Student Training만 적용했을때 모든 모델이 기존 성능보다 높았다

- 이 결과를 통해 Noisy Student Training이 다른 vision model에서도 이점을 얻을 수 있다는 것을 확인할 수 있다(Figure 2)

3.3. Robustness Results on ImageNet-A, ImageNet-C and ImageNet-P ImageNet-A, ImageNet-C and ImageNet-P

- robustness 실험 결과(table 4,5,6) ImageNet-A top-1 acc 61.0% -> 83.7% 증가 ImageNet-C mCE 45.7% -> 28.3% 감소 ImageNet-P mFR 27.8% -> 12.2% 감소

데이터셋에서 검정 텍스트가 본 논문에서 제시한 방법으로 학습을 시킨 모델로 예측한 결과이고

빨간 텍스트가 Noisy Student Training을 적용하지 않은 모델의 결과라고 합니다.

Qualitative Analysis

- 이미지를 통한 시각적 분석

3.4. Adversarial Robustness Results

의도적으로 만든 공격(FGSM, PGD)에서 잘 견디는 결과를 확인했다

4. Ablation Study

- 어떤 요소가 모델 성능에 영향을 미쳤는지 분석한다

4.1. The Importance of Noise in Self-training

- teacher model의 pseudo labels로 student model을 학습하게 되면 cross entropy loss는 0이 되고 학습이 되지 않는 문제가 생기기 때문에 noise가 필요하다

- noise를 하나씩 제거해가며 실험해 본 결과 noise를 적용했을 때보다 정확도가 떨어지는 것을 알 수 있었다

- 그럼에도 정확도가 높은 이유는 많은 unlabeled 데이터와 SGD 영향 때문이다

- teacher model에 noise를 추가하면 오히려 성능이 떨어진다

4.2. A Study of Iterative Training

- labeled data를 활용하여 EfficientNet-B7를 학습시켜 teacher model를 만든다

- teacher model를 통해 만들어진 pseudo labels로 unlabeled data를 학습시며 student model를 만든다 -> EfficientNet-L2 model 이 과정을 iterative training 하여 좋은 성능을 내었다

4.3. Additional Ablation Study Summarization

- Noisy Student Training에서 사용된 여러 선택의 중요성을 요약 독자들이 실용적인 가이드를 얻을 수 있도록 함

Finding #1. 큰 teacher model 사용하기

Finding #2. 많은 양의 unlabeled data 필요

Finding #3. 일부 경우에서 out-of-domain data에 대해 soft pseudo labels가 더 좋다(hard보다)

Finding #4. 큰 student model 중요

Finding #5. 작은 모델에서 data balancing 중요

Finding #6. unlabeled data로 학습하고 튜닝하는 방법보다 labeled data와 unlabeled를 같이 학습하는 것이 더 좋다

Finding #7. unlabeled batch size를 labeled batch size 보다 크게 하기

Finding #8. student model의 가중치가 처음부터 학습되는 것이 teacher model의 가중치를 물려받는 것보다 때때로 더 좋을 수 있다

5. Related works

Self-training

- 기존 self-training은 student model에 noise를 적용하지 않거나 noise의 역할이 충분히 정의되지 않았다

- 본 논문은 noise의 중요성을 강조하고 student model에 적극적으로 적용한다

Yalniz et al : 성능, 강인성 떨어지는 문제

Parthasarathi et al : unlabeled 학습이었지만 학생이 교사보다 좋지 못함

co-training : 동일한 레이블이 없는 데이터에 대해 예측을 잘못할 수 있음

Semi-supervised Learning

- consistency training에 기반한 방법으로 학습 중인 모델이 pseudo labels를 만들어서 높은 entropy 상태로 정규화가 되고 좋은 성능을 달성하기 어렵다

- ImageNet과 같은 대규모 데이터셋에서 사용하기 어렵다

Knowledge Distillation

- unlabeled를 고려하지 않고 student model이 작다

Robustness

- vision model에서 robustness 부족 문제를 해결하는 것이 중요했다

- Noisy Student Training 방법은 직접적으로 robustness를 최적화하지 않아도 성능이 향상된다

6. Conclusion

- 기존 weakly-supervised learning 연구들은 수십억 개의 약하게 labeled data를 필요로 했지만 본 논문에서는 unlabeled images를 사용하여 ImageNet 모델의 정확도와 강인성을 크게 향상시킬 수 있음을 제시한다