ResponseBatch 返回结果不正确 #429

Liufeiran123 · 2024-03-04T14:53:34Z

同一batch中的prompt，有的prompt返回正确，有的prompt返回不正确，检查后发现是padding 的问题，代码中并没有padding mask的相关实现啊。

TylunasLi · 2024-03-04T16:14:08Z

您好，您是否可以提供一个复现的例子呢？据我观察代码''FillLLMInputs方法似乎没有做前向的padding。

Liufeiran123 · 2024-03-04T16:52:09Z

您好，您是否可以提供一个复现的例子呢？据我观察代码''FillLLMInputs方法似乎没有做前向的padding。

是的，没实现padding。所以batch输出结果不正确。

TylunasLi · 2024-03-05T02:34:40Z

您好，您是否可以提供一个复现的例子呢？据我观察代码''FillLLMInputs方法似乎没有做前向的padding。

是的，没实现padding。所以batch输出结果不正确。

看了一下代码，

ChatGLMModel实现了FillLLMInputsBatch()方法，是默认值0做的前向padding；attention mask做了处理；
LlamaModel没实现FillLLMInputsBatch()方法，在ResponseBatch()中，默认值0做前向padding（应该用pad_token_id）；attention mask做了处理；
QWenModel实现了FillLLMInputsBatch()方法，但没有做前向padding。

Liufeiran123 · 2024-03-05T02:58:23Z

@ztxz16 有计划增加qwen的 batch推理 padding支持吗。

Liufeiran123 · 2024-03-06T01:42:48Z

经过测试 baichuan2的 batch推理是正常的。

Provide feedback