CVPR-2024-Papers

Application
Previous Collections

Image and Video Synthesis and Generation

Title	Repo	Video
Alchemist: Parametric Control of Material Properties with Diffusion Models		➖
Analyzing and Improving the Training Dynamics of Diffusion Models		➖
Attention Calibration for Disentangled Text-to-Image Personalization		➖
FreeU: Free Lunch in Diffusion U-Net
Generative Image Dynamics		➖
Instruct-Imagen: Image Generation with Multi-Modal Instruction		➖
NoiseCLR: A Contrastive Learning Approach for Unsupervised Discovery of Interpretable Directions in Diffusion Models
Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following
Style Aligned Image Generation via Shared Attention		➖
Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models		➖
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models		➖
Amodal Completion via Progressive Mixed Context Diffusion		➖
CLiC: Concept Learning in Context
Clockwork Diffusion: Efficient Generation with Model-Step Distillation
Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis
CoDeF: Content Deformation Fields for Temporally Consistent Video Processing		➖
Correcting Diffusion Generation through Resampling		➖
CosmicMan: A Text-to-Image Foundation Model for Humans
DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations		➖
Diffusion Handles Enabling 3D Edits for Diffusion Models by Lifting Activations to 3D
DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models
Don't Drop Your Samples! Coherence-Aware Training Benefits Conditional Diffusion
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing
Dynamic Policy-Driven Adaptive Multi-Instance Learning for whole Slide Image Classification
Fast ODE-based Sampling for Diffusion Models in Around 5 Steps		➖
FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis
Generative Powers of Ten		➖
HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting
Image Neural Field Diffusion Models		➖
Learning Adaptive Spatial Coherent Correlations for Speech-Preserving Facial Expression Manipulation		➖
LucidDreamer: Towards High-Fidelity Text-to-3D Generation via Interval Score Matching
MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation
MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis		➖
One-Dimensional Adapter to Rule them All: Concepts Diffusion Models and Erasing Applications		➖
Orthogonal Adaptation for Modular Customization of Diffusion Models
PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis
Emu Edit: Precise Image Editing via Recognition and Generation Tasks
Predicated Diffusion: Predicate Logic-based Attention Guidance for Text-to-Image Diffusion Models	➖	➖
RAVE: Randomized Noise Shuffling for Fast and Consistent Video Editing with Diffusion Models
Readout Guidance: Learning Control from Diffusion Features		➖
Real-Time 3D-Aware Portrait Video Relighting		➖
Residual Learning in Diffusion Models	➖	➖
Rethinking FID: Towards a Better Evaluation Metric for Image Generation		➖
Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion	➖
SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing
SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models		➖
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis
Style Injection in Diffusion: A Training-Free Approach for Adapting Large-Scale Diffusion Models for Style Transfer		➖
Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models
Taming Stable Diffusion for Text to 360 Panorama Image Generation		➖
TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models		➖
Total Selfie: Generating Full-Body Selfies
UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs	➖	➖
VecFusion: Vector Font Generation with Diffusion
ViVid-1-to-3: Novel View Synthesis with Video Diffusion Models		➖
3D Geometry-Aware Deformable Gaussian Splatting for Dynamic View Synthesis
3D Multi-Frame Fusion for Video Stabilization	➖
4D-fy: Text-to-4D Generation using Hybrid Score Distillation Sampling		➖
360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model		➖
RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization		➖
Ƶ^*: Zero-Shot Style Transfer via Attention Reweighting		➖
A Recipe for Scaling up Text-to-Video Generation with Text-Free Videos
A Unified Approach for Text- and Image-guided 4D Scene Generation		➖
A Video is Worth 256 Bases: Spatial-Temporal Expectation-Maximization Inversion for Zero-Shot Video Editing
Accelerating Diffusion Sampling with Optimized Time Steps		➖
ACT-Diffusion: Efficient Adversarial Consistency Training for One-Step Diffusion Models		➖
Adversarial Score Distillation: When Score Distillation Meets GAN		➖
Adversarial Text to Continuous Image Generation		➖
AEROBLADE: Training-Free Detection of Latent Diffusion Images using Autoencoder Reconstruction Error
Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation
Animating General Image with Large Visual Motion Model		➖
Anomaly Score: Evaluating Generative Models and Individual Generated Images based on Complexity and Vulnerability	➖	➖
AnyDoor: Zero-Shot Object-Level Image Customization
AnyScene: Customized Image Synthesis with Composited Foreground	➖
Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder		➖
ArtAdapter: Text-to-Image Style Transfer using Multi-Level Style Encoder and Explicit Adaptation
AVID: Any-Length Video Inpainting with Diffusion Model
Balancing Act: Distribution-Guided Debiasing in Diffusion Models
BerfScene: Bev-Conditioned Equivariant Radiance Fields for Infinite 3D Scene Generation		➖
Beyond First-Order Tweedie: Solving Inverse Problems using Latent Diffusion	➖	➖
Beyond Textual Constraints: Learning Novel Diffusion Conditions with Fewer Examples
BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models		➖
Boosting Diffusion Models with Moving Average Sampling in Frequency Domain	➖
C3: High-Performance and Low-Complexity Neural Compression from a Single Image or Video		➖
Cache Me if You Can: Accelerating Diffusion Models through Block Caching
CAMEL: CAusal Motion Enhancement Tailored for Lifting Text-Driven Video Editing
CapHuman: Capture Your Moments in Parallel Universes		➖
Carve3D: Improving Multi-View Reconstruction Consistency for Diffusion Models with RL Finetuning		➖
CAT-DM: Controllable Accelerated Virtual Try-On with Diffusion Model
CCEdit: Creative and Controllable Video Editing via Diffusion Models
CDFormer: When Degradation Prediction Embraces Diffusion Model for Blind Image Super-Resolution		➖
CHAIN: Enhancing Generalization in Data-Efficient GANs via lipsCHitz continuity constrAIned Normalization
Check Locate Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation		➖
Cinematic Behavior Transfer via NeRF-based Differentiable Filming		➖
Codebook Transfer with Part-of-Speech for Vector-Quantized Image Modeling	➖
CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation		➖
Combining Frame and GOP Embeddings for Neural Video Representation	➖	➖
CommonCanvas: Open Diffusion Models Trained on Creative-Commons Images		➖
Concept Weaver: Enabling Multi-Concept Fusion in Text-to-Image Models	➖
Condition-Aware Neural Network for Controlled Image Generation
CONFORM: Contrast is All You Need for High-Fidelity Text-to-Image Diffusion Models		➖
ConsistNet: Enforcing 3D Consistency for Multi-View Images Diffusion
Content-Style Decoupling for Unsupervised Makeup Transfer without Generating Pseudo Ground Truth
Contrastive Denoising Score for Text-Guided Latent Diffusion Image Editing
ControlRoom3D: Room Generation using Semantic Proxy Rooms
Cross Initialization for Face Personalization of Text-to-Image Models		➖
Customization Assistant for Text-to-Image Generation	➖	➖
Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training
DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance
Dancing with Still Images: Video Distillation via Static-Dynamic Disentanglement
Deformable One-Shot Face Stylization via DINO Semantic Guidance
DemoCaricature: Democratising Caricature Generation with a Rough Sketch
DemoFusion: Democratising High-Resolution Image Generation with No $$$
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception	➖	➖
DiffAgent: Fast and Accurate Text-to-Image API Selection with Large Language Model		➖
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing		➖
DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing
DiffPerformer: Iterative Learning of Consistent Latent Guidance for Diffusion-based Human Video Generation	➖	➖
DiffSHEG: A Diffusion-based Approach for Real-Time Speech-Driven Holistic 3D Expression and Gesture Generation
Diffusion Model Alignment using Direct Preference Optimization		➖
Diffusion Models without Attention	➖	➖
Direct2.5: Diverse Text-to-3D Generation via Multi-View 2.5D Diffusion		➖
DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data		➖
DisCo: Disentangled Control for Realistic Human Dance Generation
Discriminative Probing and Tuning for Text-to-Image Generation		➖
Distilling ODE Solvers of Diffusion Models into Smaller Steps		➖
Diversity-Aware Channel Pruning for StyleGAN Compression
Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting
Doubly Abductive Counterfactual Inference for Text-based Image Editing
Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation
DREAM: Diffusion Rectification and Estimation-Adaptive Models		➖
DreamComposer: Controllable 3D Object Generation via Multi-View Conditions		➖
DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization
DreamSalon: A Staged Diffusion Framework for Preserving Identity-Context in Editable Face Generation	➖	➖
DreamVideo: Composing Your Dream Videos with Customized Subject and Motion
DyBluRF: Dynamic Neural Radiance Fields from Blurry Monocular Video
DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing
Dysen-VDM: Empowering Dynamics-Aware Text-to-Video Diffusion with LLMs
EasyDrag: Efficient Point-based Manipulation on Diffusion Models		➖
ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations		➖
Edit One for All: Interactive Batch Image Editing		➖
ElasticDiffusion: Training-free Arbitrary Size Image Generation through Global-Local Content Separation		➖
EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion Models		➖
EMOPortraits: Emotion-enhanced Multimodal One-Shot Head Avatars		➖
Exact Fusion via Feature Distribution Matching for Few-Shot Image Generation
Exploiting Diffusion Prior for Generalizable Dense Prediction
Face2Diffusion for Fast and Editable Face Personalization
FaceChain-SuDe: Building Derived Class to Inherit Category Attributes for One-Shot Subject-Driven Generation		➖
Faces that Speak: Jointly Synthesising Talking Face and Speech from Text
Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis		➖
Fixed Point Diffusion Models		➖
Focus on Your Instruction: Fine-grained and Multi-Instruction Image Editing by Attention Modulation
FreeControl: Training-Free Spatial Control of any Text-to-Image Diffusion Model with any Condition		➖
FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition		➖
FreeDrag: Feature Dragging for Reliable Point-based Image Editing
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation
FSRT: Facial Scene Representation Transformer for Face Reenactment from Factorized Appearance Head-Pose and Facial Expression Features
Gaussian Shell Maps for Efficient 3D Human Generation
GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models		➖
GeneAvatar: Generic Expression-Aware Volumetric Head Avatar Editing from a Single Image

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

image-and-video-synthesis-and-generation.md

image-and-video-synthesis-and-generation.md

CVPR-2024-Papers

Image and Video Synthesis and Generation

Files

image-and-video-synthesis-and-generation.md

Latest commit

History

image-and-video-synthesis-and-generation.md

File metadata and controls

CVPR-2024-Papers

Image and Video Synthesis and Generation