Skip to content

Llamacha/QuBERT

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

28 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

QuBERT

LlamaRoBERTa es un modelo de lenguaje basado en RoBERTa para el quechua. Nuestro modelo de lenguaje fue pre-entrenado con texto del quechua sureño (Collao y Chanka).

Acerca del modelo

Modulo Descarga
LlamaRoBERTa config.json, pytorch_model.bin
Tokenizer merges.txt, vocab.json

El modelo utiliza un tokenizador Byte-level BPE con un vocabulario de 52000 tokens de subpalabras.

Usabilidad

Una vez descargado los pesos y el tokenizador en la seccion de arriba es necesario adjuntarlo en un sola carpeta, en este caso fue LlamaRoBERTa.

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="./LlamaRoBERTa",
    tokenizer="./LlamaRoBERTa"
)

Se hace la prueba, la cual esta en fases de mejoras.

fill_mask("allinllachu <mask> allinlla huk wasipita.")
[{'score': 0.23992203176021576,
 'sequence': 'allinllachu nisqaqa allinlla huk wasipita.',
 'token': 334,
 'token_str': ' nisqaqa'},
{'score': 0.061005301773548126,
 'sequence': 'allinllachu, allinlla huk wasipita.',
 'token': 16,
 'token_str': ','},
 {'score': 0.028720015659928322,
 'sequence': "allinllachu' allinlla huk wasipita.",
 'token': 11,
 'token_str': "'"},
{'score': 0.012927944771945477,
'sequence': 'allinllachu kay allinlla huk wasipita.',
'token': 377,
'token_str': ' kay'},
{'score': 0.01230092253535986,
'sequence': 'allinllachu. allinlla huk wasipita.',
 'token': 18,
'token_str': '.'}]