如何使得MiniCPM-Llama3-V-2.5识别图片中是否存在某个图案 #303

mobguang · 2024-06-27T02:33:47Z

是否已有关于该错误的issue或讨论？ | Is there an existing issue / discussion for this?

我已经搜索过已有的issues和讨论 | I have searched the existing issues / discussions

该问题是否在FAQ中有解答？ | Is there an existing answer for this in FAQ?

我已经搜索过FAQ | I have searched FAQ

当前行为 | Current Behavior

目前可以通过微调使得MiniCPM-Llama3-V-2.5可以从特定图片中提取需要的文字。

想知道如何通过使得MiniCPM-Llama3-V-2.5能识别出图片中是否存在某个图案，例如，如何判断下面截图车辆仪表板是否存在红框中的图标。

两个问题：
1. 这类识别，是否有建议的prompt；
2. 如何通过微调来帮助MiniCPM-Llama3-V-2.5提升这类问题的识别率，dataset.json的格式是怎样的；

感谢指导！

zhwuwuwu · 2024-06-28T04:51:18Z

Similar question, does MiniCPM-V support downstream tasks such as referring expression comprehension (REC)

LDLINGLINGLING · 2024-07-02T01:00:06Z

首先，是否存在识别某一类物体，或者ocr，rec等能力，只能在您的业务领域进行尝试。
第二。finetune及其dataset格式参照以下网站：https://github.com/OpenBMB/MiniCPM-V/blob/main/finetune/readme.md

mobguang · 2024-07-02T03:35:07Z

@LDLINGLINGLING

谢谢回复。
在https://huggingface.co/spaces/openbmb/MiniCPM-Llama3-V-2_5 的demo上尝试确认图片左边的速度仪表盘下发是否存在红色图标（就是我用红框标识的区域内，这个红框是截图时加上去的），图片中没有任何红色图标，但模型还是反馈存在一个图标。看起来模型没理解我的问题。

所以，能否指导一下，对于这类问题prompt有没有最佳实践，谢谢。

LDLINGLINGLING · 2024-07-03T01:39:17Z

我的建议是可能需要增加一些负样本训练去增加模型的理解，看上面的回复应该是找到了中间的那个警告符号，这个符号也是在140和0之间，只不过颜色搞错了

mobguang · 2024-07-04T03:38:26Z

@LDLINGLINGLING
后来我接着让模型描述一下它识别出来的这个图标外形，它实际上识别的是屏幕中间那个黄色八边形中间有感叹号的图形，而不是专注在左边速度仪表盘数字0和140之间的区域。

所以我在提问时，要做哪些强化或调整，能否麻烦指导一下，谢谢。

LDLINGLINGLING · 2024-07-04T08:47:19Z

其实prompt的话我是没有标准答案的

mobguang · 2024-07-05T01:54:31Z

好的，谢谢。

qyc-98 closed this as completed Jul 16, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

如何使得MiniCPM-Llama3-V-2.5识别图片中是否存在某个图案 #303

如何使得MiniCPM-Llama3-V-2.5识别图片中是否存在某个图案 #303

mobguang commented Jun 27, 2024 •

edited

Loading

zhwuwuwu commented Jun 28, 2024

LDLINGLINGLING commented Jul 2, 2024

mobguang commented Jul 2, 2024

LDLINGLINGLING commented Jul 3, 2024

mobguang commented Jul 4, 2024

LDLINGLINGLING commented Jul 4, 2024

mobguang commented Jul 5, 2024

如何使得MiniCPM-Llama3-V-2.5识别图片中是否存在某个图案 #303

如何使得MiniCPM-Llama3-V-2.5识别图片中是否存在某个图案 #303

Comments

mobguang commented Jun 27, 2024 • edited Loading

是否已有关于该错误的issue或讨论？ | Is there an existing issue / discussion for this?

该问题是否在FAQ中有解答？ | Is there an existing answer for this in FAQ?

当前行为 | Current Behavior

zhwuwuwu commented Jun 28, 2024

LDLINGLINGLING commented Jul 2, 2024

mobguang commented Jul 2, 2024

LDLINGLINGLING commented Jul 3, 2024

mobguang commented Jul 4, 2024

LDLINGLINGLING commented Jul 4, 2024

mobguang commented Jul 5, 2024

mobguang commented Jun 27, 2024 •

edited

Loading