关于huggingface方法调用 #111

allendred · 2023-11-25T10:56:34Z

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('m3e-base/')
model = AutoModel.from_pretrained('m3e-base/')
model.eval()

def get_sentence_embedding(sentence, tokenizer, model):

    input_ids = tokenizer.encode(sentence, return_tensors='pt')
    with torch.no_grad():
        outputs = model(input_ids)
    last_hidden_state = outputs[0]
    sentence_embedding = torch.mean(last_hidden_state[0], dim=0)
    return sentence_embedding.numpy()

这种方式调用有什么问题么,和sentence-transformer 结果不一样

The text was updated successfully, but these errors were encountered:

wangyuxinwhy · 2023-12-04T08:26:32Z

是不是差的不太多？一般来讲 Mean 需要考虑 padding 的 token，所以需要 Mask

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于huggingface方法调用 #111

关于huggingface方法调用 #111

allendred commented Nov 25, 2023

wangyuxinwhy commented Dec 4, 2023

关于huggingface方法调用 #111

关于huggingface方法调用 #111

Comments

allendred commented Nov 25, 2023

wangyuxinwhy commented Dec 4, 2023