OmniCount: Multi-label Object Counting with Semantic-Geometric Priors

Mondal, Anindya; Nag, Sauradip; Zhu, Xiatian; Dutta, Anjan

Computer Science > Computer Vision and Pattern Recognition

arXiv:2403.05435 (cs)

[Submitted on 8 Mar 2024 (v1), last revised 20 Aug 2024 (this version, v4)]

Title:OmniCount: Multi-label Object Counting with Semantic-Geometric Priors

Authors:Anindya Mondal, Sauradip Nag, Xiatian Zhu, Anjan Dutta

View PDF

Abstract:Object counting is pivotal for understanding the composition of scenes. Previously, this task was dominated by class-specific methods, which have gradually evolved into more adaptable class-agnostic strategies. However, these strategies come with their own set of limitations, such as the need for manual exemplar input and multiple passes for multiple categories, resulting in significant inefficiencies. This paper introduces a more practical approach enabling simultaneous counting of multiple object categories using an open-vocabulary framework. Our solution, OmniCount, stands out by using semantic and geometric insights (priors) from pre-trained models to count multiple categories of objects as specified by users, all without additional training. OmniCount distinguishes itself by generating precise object masks and leveraging varied interactive prompts via the Segment Anything Model for efficient counting. To evaluate OmniCount, we created the OmniCount-191 benchmark, a first-of-its-kind dataset with multi-label object counts, including points, bounding boxes, and VQA annotations. Our comprehensive evaluation in OmniCount-191, alongside other leading benchmarks, demonstrates OmniCount's exceptional performance, significantly outpacing existing solutions.

Subjects:	Computer Vision and Pattern Recognition (cs.CV); Image and Video Processing (eess.IV); Signal Processing (eess.SP)
Cite as:	arXiv:2403.05435 [cs.CV]
	(or arXiv:2403.05435v4 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2403.05435

Submission history

From: Anindya Mondal [view email]
[v1] Fri, 8 Mar 2024 16:38:11 UTC (34,596 KB)
[v2] Thu, 14 Mar 2024 19:58:49 UTC (70,027 KB)
[v3] Wed, 20 Mar 2024 21:57:26 UTC (70,026 KB)
[v4] Tue, 20 Aug 2024 18:08:48 UTC (80,160 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:OmniCount: Multi-label Object Counting with Semantic-Geometric Priors

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:OmniCount: Multi-label Object Counting with Semantic-Geometric Priors

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators