Abstract
디퓨전 모델 기반 VSR 태스크의 문제
- fidelity와 temporal consistency 유지
기존 방법들의 문제
- 심하게 열화된(degraded) 비디오에서는 위의 문제를 해결하기 어려움
--> 디퓨전 모델의 생성 능력이 가장 필요한 지점에서 오히려 잘 적용되지 못한다는 것을 의미함
- 학습 부담, 고품질 학습 데이터의 제한
제안하는 방법
- Real world vsr의 개선을 위해 아키텍처 복잡성보다는 학습 전략에 중점을 둔 DiffVSR을 제안함
github: https://xh9998.github.io/DiffVSR-project/

1. Introduction
VSR(Video Super-Resolution): 저해상도(LR) 영상에서 복잡한 열화를 거친 고해상도(HR) 비디오를 복원하는 기술
기존 기법들의 문제
- 결과를 과도하게 부드럽게 만들어 유화 그림처럼 표현됨
- 복잡한 아티팩트 제거 안됨
--> 이러한 문제점이 디퓨전 모델의 생성 능력이 가장 필요한 시점
주된 병목 현상이 아키텍처 설계 자체가 아닌 디퓨전 모델에 가해지는 과중한 학습 부담이 근본적인 문제라고 봄
본 논문에서 주장하는 근본적인 문제점
- 열화 분포, 콘텐츠 표현, 시간적 관계, 지각 품질 최적화를 동시에 학습하기 때문에 학습에 부담이 있을 것
- 사용 가능한 고품질 학습 데이터는 매우 제한적임
제안한 DiffVSR 핵심
- 단계적 학습 전략(Progressive Learning Strategy, PLS)으로 학습 부담 분해
- Interweaved Latent Transition (ILT) 기법 개발: 추가 학습이나 복잡한 정렬 작업 없이 비디오 구간을 통합이 가능
- multi-scale temporal attention과 temporal-enhanced VAE 같은 아키텍처 구성 요소도 포함시켜 시너지 효과를 일으키게 함
- ablation 실험을 통해 심하게 열화된 비디오를 처리할 때는 PLS가 가져오는 성능 향상이 훨씬 더 두드러짐.
즉, 왜 기존의 많은 접근법들이 더 복잡한 아키텍처를 가지고 있음에도 불구하고 여전히 심각한 열화 상황에서 성능이 낮은지를 보여줌
아키텍처 복잡성보다 학습 부담을 어떻게 다루는지가 더 본질적일 수 있음
본 논문의 기여점
- 단계적 학습 전략(Progressive Learning Strategy, PLS)
- Interweaved Latent Transition (ILT)
- 다양한 열화 복잡도에 대한 광범위한 실험 평가
2. Related Work
Video Super-Resolution.
전통적인 VSR 기법: 시간 정보를 효과적으로 활용하기 위해 아키텍처 설계에 주로 초점을 맞췄음
- deformable convolution을 도입한 방법: TDAN, EDVR
- 순환 구조(recurrent structure): BasicVSR, BasicVSR++
Diffusion Models for Image Restoration.
- 디퓨전 모델은 generative prior을 제공함으로써 이미지 image restoration에 혁신을 가져옴
- 심한 열화 이미지에서도 성능을 입증함
Diffusion Models for Video Restoration.
- 최근 연구들은 temporal consistency 유지를 위한 아키텍처 혁신에 초점을 맞춰왔음
- Upscale-A-Video는 시간 레이어와 순환 전파를 사용하고, MGLD는 optical flow 기반 guidance를 통합하는 방법을 제안함
---> 그러나 이러한 기법들 역시 심한 열화 비디오에서는 여전히 취약함
본 논문은 이러한 근본적인 문제를 해결하기 위해 '모델이 어떻게 학습하는가'를 재고하는 방향을 제안함
3. Method

- Progressive Learning Strategy(PLS) 도입: 학습 부담을 3가지 측면으로 분해하고 점진적으로 확장해 나갈 수 있도록 도움
- Interweaved Latent Transition (ILT) 기법 제안: 추가적인 학습 비용이 없어도 되도록 함
실험을 통해, 복잡한 복원 작업에서의 성능 향상은 아키텍처 복잡성이 아니라 PLS와 같은 학습 전략에 의해 주로 결정됨
기존의 video restoration 연구에서 중시되어 온 아키텍처 중심 접근에 도전하는 결과이며 디퓨전 모델이 지닌 능력을 끌어내는 핵심이 학습 전략에 있다는 점을 입증함
3.1. Preliminary: Generative Diffusion Prior
- 본 연구에서는 Stable Diffusion x4 Upscaler를 백본으로 선택
- LDM 기반
- 오토인코더(encoder E), 디코더 D, conditional denoising U-Net을 핵심으로 함
학습 중에선 실제 데이터 분포로부터 추출된 latent samples에 대해 가우시안 노이즈를 스케줄에 따라 노이즈가 섞인 latents를 생성함

저해상도 입력 x에도 초기 디퓨전 단계 타우에 해당하는 노이즈를 추가하여 세부 정보 생성 능력을 향상시킴

v-prediction parameterization을 사용하여 타깃 벡터에 대해 최적화 됨

추론 시, 모델은 저해상도 입력에 조건화된 상태에서 잠재 표현을 반복적으로 디노이징하며
텍스트 프롬프트 및 노이즈 스케줄링을 통해 샘플링 과정을 유연하게 제어할 수 있음
3.2. Progressive Learning Strategy
VSR 성능의 주요 병목 현상
- 디퓨전 모델이 열화 분포, 콘텐츠 표현, 시간적 관계를 동시에 학습해야 하는 과중한 학습 부담.
---> 학습 과정을 세 가지 차원(열화 복잡도, 데이터셋 품질, 파라미터 최적화)으로 분해하는 PLS를 제안

Stage 1: Temporal Layer Fine-tuning. --> temporal consistency 먼저 형성
- 사전 학습된 이미지 디퓨전 모델의 spatial layers은 모두 freeze
- temporal layers만 대규모 데이터로 fine-tuning
- simple degradation만 적용 (가우시안 블러, bicubic 다운샘플링 등등)
Stage 2: Complex Degradation Adaptation.
- 1단계를 바탕으로 real-world distortion들을 점진적으로 추가함
- 데이터셋의 규모는 유지하며 복잡도를 증가시킴
Stage 3: High-quality Refinement.
- 전체 파라미터 unfreeze
- 복잡한 열화를 포함하는 high-quality video 데이터로 모델 전체를 fine-tuning
3.3. Interweaved Latent Transition
- 길이가 긴 비디오를 처리할 때 발생하는 문제: boundary inconsistency로 인해 시각적 품질이 저하됨

- 전체 비디오는 중첩되는(sub-overlapping) 서브시퀀스 집합으로 분해됨

- 각 서브시퀀스는는 U-Net츨 통해 처리되며 대응하는 F가 생성됨
- 인접한 두 시퀀스 사이의 중첩 구간에 대해서 position-based interpolation을 수행함
- 중첩 영역 내 보간된 latent는 (2)번식과 같이 계산됨

Noise rescheduling.
- temporal coherence를 더욱 강화하기 위해 noise rescheduling mechanism이 통합됨
- 이전 연구들에 따르면, 비디오 디퓨전 모델의 temporal consistency는 입력 컨텐츠와 초기 sampling noise 모두에 영향을 받음
- 첫 번째 서브시퀀스에서는 무작위 노이즈 프레임을 생성함

- 이후 서브시퀀스의 중첩 영역에서는 노이즈 프레임을 reuse 및 reorder
이 과정은 프레임 간 디퓨전 과정을 동기화해서 temporal jitter을 최소화 할 수 있고,
추가적인 모델 학습이나 계산 비용 없이 높은 시간적 일관성을 달성할 수 있음
3.4. Architectural Components
- 보조 모듈들은 PLS와 시너지를 이루며 전체적인 성능을 더욱 향상시켜줌
Multi-Scale Temporal Attention.
- 여러 해상도 스케일 간의 정보를 융합함
Temporal-Enhanced VAE.
- 기존의 2D VAE 구조를 확장한 Temporal-Enhanced 3D VAE (TE-3DVAE)를 도입
- 3D residual block과 temporal attention layers를 추가하여 설계
- 손실 항목들의 조합으로 학습됨
L1 reconstruction loss, Perceptual loss, Adversarial loss(시간 기반 PatchGAN 판별기를 이용)
4. Experiments

4.1.Datasets and Implementation Details
Datasets.
▶️ Train Dataset
stages1 and 2 training
WebVid-2M (일부): 약 40만 개의 텍스트-비디오 쌍을 사용(336×596)
Stage3 fine-tuning
OpenVid-1M: 약 100만 개의 고해상도 비디오-텍스트 쌍(512×512 이상)
YouHQ: 약 37,000개의 2K 해상도 비디오, 텍스트 주석 없음
다양한 실세계 고화질 영상 포함
저해상도(LR) 입력 생성 방식
RealBasicVSR의 열화 파이프라인을 사용하여 생성
▶️ Test Dataset
합성 데이터셋 (Synthetic)
UDM10, YouHQ40
실제 데이터셋 (Real-world)
MVSR4x, RealVideo10 (자체 구축)
TrainingDetails.
프레임워크: PyTorch
GPU: NVIDIA A100 8장
최적화 기법: AdamW optimizer
러닝레이트: 1e-4
배치 크기: 96
입력 구성: 8프레임짜리 비디오 세그먼트에서 320×320 패치를 랜덤으로 크롭
시간 간격(temporal stride): 1 ~ 6 프레임 간격 다양화
→ 다양한 모션 패턴 학습 가능
업스케일링 비율: 4배 비디오 초해상도 (4× VSR) 수행
Evaluation Metrics.
정량적 품질 평가
PSNR
Perceptual Quality
CLIP-IQA, MUSIQ, NRQM, DOVER
Temporal Consistency
Warping Error
4.2.Ablation Study



'Paper Review > Video Super-Resolution' 카테고리의 다른 글
| [논문리뷰] VSRDiff: Learning Inter-Frame Temporal Coherence in Diffusion Model for Video Super-Resolution (0) | 2025.07.13 |
|---|---|
| [논문리뷰] Upscale-A-Video (0) | 2025.06.20 |