전체 글 73

[논문리뷰] DiffVSR: Revealing an Effective Recipe for Taming Robust Video Super-Resolution Against Complex Degradations

Abstract디퓨전 모델 기반 VSR 태스크의 문제 - fidelity와 temporal consistency 유지 기존 방법들의 문제- 심하게 열화된(degraded) 비디오에서는 위의 문제를 해결하기 어려움--> 디퓨전 모델의 생성 능력이 가장 필요한 지점에서 오히려 잘 적용되지 못한다는 것을 의미함- 학습 부담, 고품질 학습 데이터의 제한 제안하는 방법- Real world vsr의 개선을 위해 아키텍처 복잡성보다는 학습 전략에 중점을 둔 DiffVSR을 제안함 github: https://xh9998.github.io/DiffVSR-project/ 1. IntroductionVSR(Video Super-Resolution): 저해상도(LR) 영상에서 복잡한 열화를 거친 고해상도(HR) 비디오를 ..

[논문리뷰] VSRDiff: Learning Inter-Frame Temporal Coherence in Diffusion Model for Video Super-Resolution

Abstract최근 DM 디테일 생성 능력 덕분에 VSR에도 도입되고 있지만 diffusion의 randomness 때문에 content control와 temporal coherence 에 어려움이 있음.기존 DM 기반 VSR 방법들: 🔹inter-frame temporal coherence 무시 🔹reconstruction-oriented objective보다는 단순 generative에 초점을 맞추고 있음 🔹visual distortion, temporal inconsistency 발생본 논문의 제안 방법: VSRDiff 프레임워크1. IFAG (Inter-Frame Aggregation Guidance) 모듈2. PRS (Progressive Reconstruction Sampling) 전..

[논문리뷰] ReactFace: Online Multiple Appropriate Facial Reaction Generation in Dyadic Interactions

Abstract두 사람의 상호작용에서 청자의 얼굴 반응을 예측하는 것은 사람마다 반응이 다르기 때문에 어려운 문제라고 볼 수 있다. 이전 접근법interpolation 또는 fitting 문제로 다루었다다양한 얼굴 반응과 불확실성을 무시하고 결정론적인 결과를 강조했다. 📍Fitting: 입력이 주어지면 출력이 단 하나의 정답이라고 가정 모델은 사람이 실제로 지은 표정과 모델이 생성한 표정 사이의 오차를 최소화하는 방향으로 학습된다. 그 결과, 모델은 훈련 데이터에 있는 반응들의 평균값 또는 가장 확률이 높은 하나의 값을 생성하게 된다. 📍Interpolation: 훈련 데이터에서 본 반응들 사이의 중간 값을 채워 넣는 방식주어진 상황에 대해 가장 그럴듯한 하나의 정해진 반응을 예측하는 접근 방식의..

Paper Review 2025.07.02

NoXi/RECOLA Dataset 요청하기

ReactFace: Online Multiple Appropriate Facial Reaction Generation in Dyadic Interactions논문에서 사용한 NoXi와 RECOLA 데이터셋을 다운 받기 위해 양식을 작성하고 메일로 요청한다.NoXi데이터셋 제공 홈페이지NoXi Datasethttps://multimediate-challenge.org/datasets/Dataset_NoXi/ MultiMediate:Multi-modal Behaviour Analysis for Artificial MediationGrand Challenge at ACM MM’25multimediate.perceptualui.org 작성해야 하는 양식 pdf 자료chrome-extension://efaidnb..

카테고리 없음 2025.07.01

텍스트 기반 공감 얼굴 표정 생성 모델

기존 연구들에서는 멀티모달이나 단일 모델로 슬픈 표정을 짓고 있는 얼굴에 대해 'Sad' 이런 식으로 라벨 결과를 출력했다. 혹은 텍스트 임베딩 값에 따라 문맥을 보고 사용자의 감정이 어떤지를 예측한다. 이제는 인식을 넘어 공감을 하는 모델을 만들어보자.이번 실험은 간단한 모듈들을 활용하기 때문에 모델 내부를 살펴보지는 않는다.결과물은 다음과 같다. 텍스트를 입력하면 공감하는 텍스트가 출력되고 그 값을 기반으로 얼굴 표정을 생성한다. 공감 텍스트를 생성하는 것이 중요하게 되는데,이 모델은 T5 공감 텍스트 생성 모델을 사용한다.얼굴 표정 이미지를 생성하는 모델은 Stable Diffusion을 사용한다.import gradio as grimport uuidimport torchfrom transforme..

카테고리 없음 2025.06.30

Fidelity와 Quality

신호분야에서 수신기와 발신기로부터 시작된 'Fidelity'. Video Super-Resolution 태스크에서도 이 fidelity의 밸런스가 중요하게 여겨진다.그렇다면 fidelity는 무엇일까? Fidelity: '원본으로부터 얼마나 재현을 잘 했는가'를 의미한다.그래서 fidelity가 높을 수록 원본과 비슷한 결과물을 얻을 수 있다. 하지만 VSR에서 원본과 비슷하다는건 low-resolution과 비슷하다는 것이기 때문에 High-resolution으로 만들어내는 vsr의 본질적인 목표와는 거리가 멀다고 볼 수 있다. Fidelity가 높은 경우의 프레임을 확인해보자.(쉬운 보기를 위한 자료로 예시가 적절하지 않을 수 있다)첫 번째 프레임이 input이라고 가정했을때, 오른쪽 3장의 경우 모..

Study 2025.06.24

[논문리뷰] Upscale-A-Video

AbstractText-based diffusion models은 generation 및 editing분야에서 좋은 성과를 보여주도 있지만 vsr 분야에서는 dm의 무작위성 때문에 output fidelity와 temporal consistency을 동시에 만족시키기 어렵다. 📍output fidelity: 단일 이미지가 아닌 하나의 영상이기 때문에 프레임이 제 각각 생성이 되면 안됨. 📍temporal consistency: 하나의 영상이 자연스럽게 이어져야 함. 이러한 문제를 해결하고자 본 연구에서는 Upscale-A-Video라는 프레임워크를 제안한다. text-guided latent diffusion 프레임워크로서, 두 가지 메커니즘을 통해 시간적 temporal consistency를 보..