Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

Yuan, Bo; Zhao, Danpei; Liu, Zhuoran; Li, Wentao; Li, Tian

Computer Science > Computer Vision and Pattern Recognition

arXiv:2407.14242 (cs)

[Submitted on 19 Jul 2024 (v1), last revised 25 Jul 2024 (this version, v2)]

Title:Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

Authors:Bo Yuan, Danpei Zhao, Zhuoran Liu, Wentao Li, Tian Li

View PDF HTML (experimental)

Abstract:Continual learning (CL) breaks off the one-way training manner and enables a model to adapt to new data, semantics and tasks continuously. However, current CL methods mainly focus on single tasks. Besides, CL models are plagued by catastrophic forgetting and semantic drift since the lack of old data, which often occurs in remote-sensing interpretation due to the intricate fine-grained semantics. In this paper, we propose Continual Panoptic Perception (CPP), a unified continual learning model that leverages multi-task joint learning covering pixel-level classification, instance-level segmentation and image-level perception for universal interpretation in remote sensing images. Concretely, we propose a collaborative cross-modal encoder (CCE) to extract the input image features, which supports pixel classification and caption generation synchronously. To inherit the knowledge from the old model without exemplar memory, we propose a task-interactive knowledge distillation (TKD) method, which leverages cross-modal optimization and task-asymmetric pseudo-labeling (TPL) to alleviate catastrophic forgetting. Furthermore, we also propose a joint optimization mechanism to achieve end-to-end multi-modal panoptic perception. Experimental results on the fine-grained panoptic perception dataset validate the effectiveness of the proposed model, and also prove that joint optimization can boost sub-task CL efficiency with over 13\% relative improvement on panoptic quality.

Comments:	Accepted in ACMMM 2024
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Multimedia (cs.MM)
Cite as:	arXiv:2407.14242 [cs.CV]
	(or arXiv:2407.14242v2 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2407.14242

Submission history

From: Bo Yuan [view email]
[v1] Fri, 19 Jul 2024 12:22:32 UTC (1,676 KB)
[v2] Thu, 25 Jul 2024 13:30:33 UTC (1,676 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators