Skip to content

DEFI-COLaF/Datasets_text

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

63 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Corpus textuels COLaF en XML TEI

Ce dépôt contient des datasets convertis en XML-TEI pour le projet COLaF selon les règles dictées ici.

L'idée est de présenter des datasets de types de documents variés afin d'éprouver le schéma sélectionné et de fournir des exemples d'utilisation. Chaque dataset est classé dans un dossier à son nom dans lequel se trouve aussi un exemple de document du dataset original et l'outil créé pour transformer ce document en document COLaF (feuille XSL, programme python, etc...).

Le fichier ODD.rng en racine permet de vérifier la validation des documents COLaF ajoutés dans le dépôt.

Liste des datasets

Nom Sujet Langues Période Quantité token Url Info. sup.
Eltec-fra Corpus de romans fra XIXème https://github.com/COST-ELTeC/ELTeC-fra Recup encodage level2 (POS+lemme)
Opensubtitles Dump Corpus de sous-titres fra XX-XXIème https://opus.nlpl.eu/OpenSubtitles/fr&/v2018/OpenSubtitles
Picard Concours Prose, poésies et scènes de théâtre produites dans le cadre d'un concours d'écriture pic XXIème https://languepicarde.fr/