Discriminative Probing and Tuning for Text-to-Image Generation

Qu, Leigang; Wang, Wenjie; Li, Yongqi; Zhang, Hanwang; Nie, Liqiang; Chua, Tat-Seng

Computer Science > Computer Vision and Pattern Recognition

arXiv:2403.04321 (cs)

[Submitted on 7 Mar 2024 (v1), last revised 14 Mar 2024 (this version, v2)]

Title:Discriminative Probing and Tuning for Text-to-Image Generation

Authors:Leigang Qu, Wenjie Wang, Yongqi Li, Hanwang Zhang, Liqiang Nie, Tat-Seng Chua

View PDF HTML (experimental)

Abstract:Despite advancements in text-to-image generation (T2I), prior methods often face text-image misalignment problems such as relation confusion in generated images. Existing solutions involve cross-attention manipulation for better compositional understanding or integrating large language models for improved layout planning. However, the inherent alignment capabilities of T2I models are still inadequate. By reviewing the link between generative and discriminative modeling, we posit that T2I models' discriminative abilities may reflect their text-image alignment proficiency during generation. In this light, we advocate bolstering the discriminative abilities of T2I models to achieve more precise text-to-image alignment for generation. We present a discriminative adapter built on T2I models to probe their discriminative abilities on two representative tasks and leverage discriminative fine-tuning to improve their text-image alignment. As a bonus of the discriminative adapter, a self-correction mechanism can leverage discriminative gradients to better align generated images to text prompts during inference. Comprehensive evaluations across three benchmark datasets, including both in-distribution and out-of-distribution scenarios, demonstrate our method's superior generation performance. Meanwhile, it achieves state-of-the-art discriminative performance on the two discriminative tasks compared to other generative models.

Comments:	CVPR 2024; project page: this https URL
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Multimedia (cs.MM)
Cite as:	arXiv:2403.04321 [cs.CV]
	(or arXiv:2403.04321v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2403.04321

Submission history

From: Leigang Qu [view email]
[v1] Thu, 7 Mar 2024 08:37:33 UTC (15,021 KB)
[v2] Thu, 14 Mar 2024 08:02:29 UTC (15,021 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Discriminative Probing and Tuning for Text-to-Image Generation

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Discriminative Probing and Tuning for Text-to-Image Generation

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators