ValueError: Expected input batch_size (2400) to match target batch_size (2304) #496

hudaoling · 2024-05-28T03:55:07Z

数据格式按照提供的格式生成的，报错，我debug了一下，就是shape大小不一样，又找不到具体是哪个输出有问题。

hudaoling · 2024-05-28T03:55:58Z

大概率就是output的shape不对，可是不知道怎么处理。

shibing624 · 2024-05-28T12:30:19Z

数据集的问题，需要清洗数据；用前200条数据测试跑下。

hudaoling · 2024-05-29T01:51:32Z

我看了下以往的issue,据说macbert只支持对齐文本，长度不一致的文本不支持吗？
长度不同可否在哪里修改下代码，从而支持？

hudaoling · 2024-05-29T02:43:35Z

另外我的使用场景是：中英文混合的语料，且正确和错误句子不等长，我纠结了好久不知道该如何处理。
因为包含了英文单词，errror_word id无法与tokennizer后的词对齐，实在是很头大。

shibing624 · 2024-05-29T03:35:37Z

用T5模型或者大模型（如YI）

hudaoling · 2024-05-30T05:31:00Z

T5我下载了训练样本参考，也是对齐的正确错误句子对，
如何解决句子不对齐问题呢？标注wrong_ids的时候有什么需要注意的吗？
如下图，不对齐的句子

另外我看了T5的训练代码，貌似没有用到wrong_ids,直接就是text to text生成文本了，对吗？
T5微调了1000条数据以后，即使是参与训练过的样本，拿出来纠错也得不到期望的结果。

shibing624 · 2024-05-30T13:34:43Z

1.不等长的训练集，没wrong ids；2.多调试多训练。

hudaoling added the bug Something isn't working label May 28, 2024

Provide feedback