Skip to content

CYBIA est une IA française qui détermine la toxicité dans du texte 🇫🇷

Notifications You must be signed in to change notification settings

creacress/CYBIA

Repository files navigation

Projet de Classification de Toxicité des Textes - CYBIA

Description

Ce projet développe un classificateur de toxicité des textes en français en utilisant le modèle de deep learning Camembert. Il est capable de distinguer entre des textes toxiques et non-toxiques, et peut être ré-entraîné avec de nouvelles données pour améliorer sa précision.

Fonctionnalités

  • Chargement et préparation des données textuelles.
  • Tokenisation et transformation des données pour Camembert.
  • Entraînement, évaluation et ré-entraînement du modèle.
  • Prédiction de la toxicité sur de nouveaux échantillons de texte.
  • Optimisation des hyperparamètres avec Optuna.
  • Intégration des retours des utilisateurs pour le ré-entraînement.

Bibliothèques Utilisées

  • logging, sys, numpy, pandas : Pour la manipulation des données et le logging.
  • datasets, sklearn, transformers, torch : Outils d'apprentissage automatique et de deep learning.
  • gc, signal, time, random, optuna, os : Diverses fonctionnalités de gestion de systèmes et d'optimisation.
  • sqlite3 : Pour la gestion des bases de données SQLite dans le script de ré-entraînement.

Structure du Projet

  • ToxicityClassifier : Classe pour la construction, l'entraînement et l'évaluation initiale du modèle.
  • ToxicityReTrainer : Classe pour le ré-entraînement du modèle avec de nouvelles données.
  • LoggingCallback : Callback pour l'enregistrement des logs pendant l'entraînement.

Utilisation

Pour utiliser ce projet, installez les dépendances requises et suivez les instructions spécifiques dans le script principal pour l'entraînement, l'évaluation et le ré-entraînement du modèle.

Ré-Entraînement du Modèle

Le script de ré-entraînement permet d'ajuster et d'améliorer le modèle existant avec de nouvelles données. Il charge les nouvelles données d'une base de données SQLite et ré-entraîne le modèle Camembert pré-existant.

Utilisation du Ré-Entraînement

  1. Préparez le modèle pré-entraîné et le nouveau fichier de données.
  2. Exécutez le script de ré-entraînement pour ajuster le modèle.

Contribution et Licence

Les contributions à ce projet sont les bienvenues. Veuillez soumettre vos pull requests sur GitHub. Ce projet est distribué sous la licence MIT.

Releases

No releases published

Packages

No packages published

Languages