Projet de Classification de Toxicité des Textes - CYBIA

Description

Ce projet développe un classificateur de toxicité des textes en français en utilisant le modèle de deep learning Camembert. Il est capable de distinguer entre des textes toxiques et non-toxiques, et peut être ré-entraîné avec de nouvelles données pour améliorer sa précision.

Fonctionnalités

Chargement et préparation des données textuelles.
Tokenisation et transformation des données pour Camembert.
Entraînement, évaluation et ré-entraînement du modèle.
Prédiction de la toxicité sur de nouveaux échantillons de texte.
Optimisation des hyperparamètres avec Optuna.
Intégration des retours des utilisateurs pour le ré-entraînement.

Bibliothèques Utilisées

logging, sys, numpy, pandas : Pour la manipulation des données et le logging.
datasets, sklearn, transformers, torch : Outils d'apprentissage automatique et de deep learning.
gc, signal, time, random, optuna, os : Diverses fonctionnalités de gestion de systèmes et d'optimisation.
sqlite3 : Pour la gestion des bases de données SQLite dans le script de ré-entraînement.

Structure du Projet

ToxicityClassifier : Classe pour la construction, l'entraînement et l'évaluation initiale du modèle.
ToxicityReTrainer : Classe pour le ré-entraînement du modèle avec de nouvelles données.
LoggingCallback : Callback pour l'enregistrement des logs pendant l'entraînement.

Utilisation

Pour utiliser ce projet, installez les dépendances requises et suivez les instructions spécifiques dans le script principal pour l'entraînement, l'évaluation et le ré-entraînement du modèle.

Ré-Entraînement du Modèle

Le script de ré-entraînement permet d'ajuster et d'améliorer le modèle existant avec de nouvelles données. Il charge les nouvelles données d'une base de données SQLite et ré-entraîne le modèle Camembert pré-existant.

Utilisation du Ré-Entraînement

Préparez le modèle pré-entraîné et le nouveau fichier de données.
Exécutez le script de ré-entraînement pour ajuster le modèle.

Contribution et Licence

Les contributions à ce projet sont les bienvenues. Veuillez soumettre vos pull requests sur GitHub. Ce projet est distribué sous la licence MIT.

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.gitignore		.gitignore
README.md		README.md
clean_text.py		clean_text.py
emo_unicode.py		emo_unicode.py
requirements.txt		requirements.txt
sentiment_analysis.py		sentiment_analysis.py
trad.py		trad.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projet de Classification de Toxicité des Textes - CYBIA

Description

Fonctionnalités

Bibliothèques Utilisées

Structure du Projet

Utilisation

Ré-Entraînement du Modèle

Utilisation du Ré-Entraînement

Contribution et Licence

About

Releases

Packages

Languages

creacress/CYBIA

Folders and files

Latest commit

History

Repository files navigation

Projet de Classification de Toxicité des Textes - CYBIA

Description

Fonctionnalités

Bibliothèques Utilisées

Structure du Projet

Utilisation

Ré-Entraînement du Modèle

Utilisation du Ré-Entraînement

Contribution et Licence

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages