Corpus textuels COLaF en XML TEI

Ce dépôt contient des datasets convertis en XML-TEI pour le projet COLaF selon les règles dictées ici.

L'idée est de présenter des datasets de types de documents variés afin d'éprouver le schéma sélectionné et de fournir des exemples d'utilisation. Chaque dataset est classé dans un dossier à son nom dans lequel se trouve aussi un exemple de document du dataset original et l'outil créé pour transformer ce document en document COLaF (feuille XSL, programme python, etc...).

Le fichier ODD.rng en racine permet de vérifier la validation des documents COLaF ajoutés dans le dépôt.

Liste des datasets

Nom	Sujet	Langues	Période	Url	Info. sup.
Eltec-fra	Corpus de romans	fra	XIXème	https://github.com/COST-ELTeC/ELTeC-fra	Recup encodage level2 (POS+lemme)
Opensubtitles Dump	Corpus de sous-titres	fra	XX-XXIème	https://opus.nlpl.eu/OpenSubtitles/fr&/v2018/OpenSubtitles
Picard Concours	Prose, poésies et scènes de théâtre produites dans le cadre d'un concours d'écriture	pic	XXIème	https://languepicarde.fr/

Name		Name	Last commit message	Last commit date
Latest commit History 63 Commits
.github/workflows		.github/workflows
Eltec-fra		Eltec-fra
OpenSubtitles		OpenSubtitles
Picard_Concours		Picard_Concours
sosweet		sosweet
ODD.rng		ODD.rng
README.md		README.md
validateur.py		validateur.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Corpus textuels COLaF en XML TEI

Liste des datasets

About

Releases

Packages

Contributors 3

Languages

DEFI-COLaF/Datasets_text

Folders and files

Latest commit

History

Repository files navigation

Corpus textuels COLaF en XML TEI

Liste des datasets

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages