在object365数据集上训练处理text prompt 太长的问题 #61

LuciferZap · 2024-03-09T08:51:27Z

你好，如果我需要在object365数据集上训练，我应该如何处理text prompt过长的问题。
如果我直接将object365数据集转成一个jsonl文件，可能labelmap会太长导致意想不到的bug，我看了原作者github里面的issues，他提到可以将数据集切分，以下是我做的数据格式。对应数据训练脚本里的dataset.json文件，请问这是正确的切分方式吗？
（我将object365数据集按照类别分成5个subset，每一个subset包含73类，每个subset有自己独立的jsonl文件记录了对应的图片和box信息，每个subset的labelmap都是不一样的，且labelmap之间不存在交集，每个labelmap文件的index都是从0开始。）
{
"train": [
{
"root": "path/object365/",
"anno": "path/obj365_train_split1.jsonl",
"label_map": "obj365_split1_labelmap.json",
"dataset_mode": "odvg"
},
{
"root": "path/object365/",
"anno": "path/obj365_train_split2.jsonl",
"label_map": "obj365_split2_labelmap.json",
"dataset_mode": "odvg"
},
{
"root": "path/object365/",
"anno": "path/obj365_train_split3.jsonl",
"label_map": "obj365_split3_labelmap.json",
"dataset_mode": "odvg"
},
{
"root": "path/object365/",
"anno": "path/obj365_train_split4.jsonl",
"label_map": "obj365_split4_labelmap.json",
"dataset_mode": "odvg"
},
{
"root": "path/object365/",
"anno": "path/obj365_train_split5.jsonl",
"label_map": "obj365_split5_labelmap.json",
"dataset_mode": "odvg"
},
],
"val": [
{
"root": "path/object365/",
"anno": "path/obj365_val_split1.jsonl",
"label_map": null,
"dataset_mode": "coco"
}
]
}

funny000 · 2024-04-23T02:30:42Z

@LuciferZap 楼主你这样处理完训练效果怎么样？

LuciferZap · 2024-05-01T03:43:02Z

O365的类别不会超出token限制，如果强行拆分没有什么好处。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

在object365数据集上训练处理text prompt 太长的问题 #61

在object365数据集上训练处理text prompt 太长的问题 #61

LuciferZap commented Mar 9, 2024

funny000 commented Apr 23, 2024

LuciferZap commented May 1, 2024

在object365数据集上训练处理text prompt 太长的问题 #61

在object365数据集上训练处理text prompt 太长的问题 #61

Comments

LuciferZap commented Mar 9, 2024

funny000 commented Apr 23, 2024

LuciferZap commented May 1, 2024