Skip to content

Support des présentations de la formation OpenClassrooms

Notifications You must be signed in to change notification settings

Tomlora/Presentation_OC

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Description des projets OpenClassrooms

Projet 2 : Analyse de données de système éducatif

Nous disposions d'un dataset regroupant des variables très diversifiées sur les pays du monde entier, concernant par exemple l'éducation ou le niveau économique de chaque pays. Les données sont disponibles ici

Le but du projet était de déterminer, pour une entreprise souhaitant mettre en place des cours en ligne, les pays avec le plus fort potentiel et ceux auquel l'entreprise devrait opérer en priorité.

Compétences évaluées :

  • Utiliser un notebook Jupyter
  • Effectuer une représentation graphique
  • Manipuler des données avec des librairies spécialisées
  • Mettre en place un environnement Python
  • Maitriser les opérations fondamentales du langage Python pour la Data Science.

Ressources (non-exhaustif) :

  • Pandas
  • Numpy
  • Missingno
  • Plotly.express
  • Pygal
  • Seaborn

Projet 3 : Concevez une application au service de la santé publique

Nous disposions d'un jeu de données regroupant des produits alimentaires du monde entier, et divers variables disponible ici Ces données sont répartis en 4 thèmes :

  • Les informations générales du produit (nom, date de création...)
  • Des tags (Catégorie, localisation, origine...)
  • Les ingrédients
  • Les informations nutritionnelles (100g pour 100g de produit)

Le but du projet était de proposer une application innovante pour répondre à un appel à projet lancé par Santé publique France.

Compétences évaluées :

  • Effectuer une analyse statistique multivariée
  • Communiquer ses résultats à l'aide de représentations graphiques lisibles et pertinentes
  • Effectuer une analyse statistique univariée
  • Effectuer des opératirons de nettoyage sur des données structurées.

Ressources (non-exhaustif) :

  • Pandas
  • Matplotlib (LineCollection)
  • Missingno
  • Sklearn (PCA / KNNImputer / StandardScaler)
  • Pingouin pour le calcul de l'Anova
  • Ipywidgets pour la présentation du produit final

Projet 4 : Anticipez les besoins en consommation électrique de batiments

Le but du projet est de déterminer la consommation électrique et les émissions de C02 pour les batiments non destinés à l'habitation dans la ville de Seattle. Les données sont disponibles ici

Compétences évaluées :

  • Mettre en place le modèle d'apprentissage supervisée adapté au problème metier
  • Adapter les hyperparamètres d'un algorithme d'apprentissage supervisé afin de l'améliorer
  • Transformer les variables pertinentes d'un modèle d'apprentissage supervisé
  • Evaluer les performances d'un modèle d'apprentissage supervisé

Ressources (non-exhaustif) :

  • Pandas
  • Numpy
  • Sklearn (FunctionTransformer, validation_curve, cross_validation, OneHotEncoder, StandardScaler, svm)
  • Sklearn.linear_model (LinearRegression, Lasso, Ridge, ElasticNet)
  • Sklearn.metrics (mean_absolute_error, mean_squared_error)
  • Ast
  • Folium (map)
  • Optuna pour l'optimisation des paramètres

Projet 5 : Segmentez des clients d'un site e-commerce

Le but du projet est d'aider une entreprise brésilienne qui propose une solution de vente sur les marketplaces en ligne. En effet, nous devons leur fournir une segmentation des clients qui pourront servir à des campagnes de publicités.

Les données sont disponibles ici

Compétences évaluées :

  • Mettre en place le modèle d'apprentissage non supervisé adapté au problème métier
  • Transformer les variables pertinentes d'un modèle d'apprentissage non supervisé
  • Adapter les hyperparamètres d'un algorithme non supervisé afin de l'améliorer
  • Evaluer les performances d'un modèle d'apprentissage non-supervisé

Ressources (non-exhaustif):

  • Pandas
  • Numpy
  • Plotly.express & plotly.graph_objects
  • Sklearn.cluster (KMeans)
  • Sklearn.metrics (silhouette_samples, silhouette_score, adjusted_rand_score)
  • PCA / TSNE

Projet 6 : Classifiez automatiquement des biens de consommation

Le but du projet est d'aider une entreprise qui souhaite lancer une marketplace e-commerce.

Afin d'y parvenir, elle souhaite automatiser l'attribution de la catégorie de chaque article.

Notre rôle est de réaliser une étude de faisabilité d'un moteur de classification d'articles, en se basant sur une image et une description.

Contraintes du projet :

Classification texte :

  • Deux approches de type bag-of-words (comptage simple de mots et Tf-idf)
  • Trois approches de type sentence embedding (Word2Vec / BERT / USE)

Classification image

  • Un algorithme de type SIFT / ORB / SURF
  • Un algorithme de type CNN Transfert Learning

Compétences évaluées :

  • Prétraiter des données textes pour obtenir un jeu de données exploitable
  • Prétraiter des données image pour obtenir un jeu de données exploitable
  • Représenter graphiquement des données à grandes dimensions
  • Mettre en oeuvre des techniques de réduction de dimension

Ressources (non-exhaustif) :

  • Pandas
  • Numpy
  • Sklearn.cluster (KMeans)
  • Sklearn.feature_extraction (CountVectorizer, TfidfVectorizer)
  • NTLK (tokenize, stem, lemmatizer, stopwords)
  • Tensorflow (BERT, USE)
  • Keras (Preprocessing / Layers / Metrics / Models / Applications (VGG16, VGG19, Resnetv50, InceptionV3 pour du transfert learning))
  • pyLDAvis (algorithme pour identifier des thèmes et les mots clés de chaque thème dans un corpus de texte)
  • PCA / TSNE
  • OpenCV (pour SIFT)
  • Torch
  • Pillow (Faire une visualisation des images du T-SNE)

Projet 7 : Implémentez un modèle de scoring

Le but du projet est d'aider une société financière, qui propose des crédits à la consommation.

Elle souhaite mettre en oeuvre un outil de scoring crédit, pour calculer la probabilité qu'un client rembourse son crédit, puis classifie la demande en crédit accordé ou non.

Contraintes du projet :

Dans un soucis de transparence, il faut developper un dashboard interactif permettant aux conseillers clientèles de comprendre les décisions, et de disposer des informations clients plus facilement. Les contraintes sont de mettre en place obligatoirement une API et un dashboard

Compétences évaluées :

  • Déployer un modèle via une API sur le web
  • Réaliser un dashboard pour présenter son travail de modélisation
  • Rédiger une note méthodologique afin de communiquer sa démarche de modélisation
  • Utiliser un logiciel de version de code pour assurer l'intégralité du modèle

Ressources (non-exhaustif) :

  • Pandas
  • Sklearn (LogisticRegression, DecisionTreeClassifier, RandomForest, GradientBoosting, LDA, MLP)
  • LightGBM
  • Metrics (Matrice de confusion, recall, precision, accuracy, roc/auc curve, F1, make_scorer pour score personnalisée)
  • Plotly / Matplotlib
  • Shap
  • Imblearn
  • FastApi + Uvicorn pour API / Streamlit pour Dashboard

Projet 8 : Déployez un modèle dans le cloud

Une jeune start-up de l'agriTech souhaite proposer des solutions innovantes pour la récolte de fruits.

Dans ce contexte, elle souhaite mettre à disposition une application mobile qui permettrait aux utilisations de prendre en photo un fruit et obtenir des informations sur ce fruit. La start-up envisage ce développement en construisant une première version d'architecture Big Data, dans lequel 68000 images seront déposées. Nous disposons de 400 images pour chaque fruit ou variété d'un même fruit, prise sous un format "timelapse" et sur fond blanc.

L'architecture est hebergée sur le cloud d'Amazon AWS, sur une instance EC2.

Compétences évaluées :

  • Utiliser les outils du cloud pour manipuler des données dans un environnement Big Data
  • Paralléliser des opérations de calcul avec Pyspark
  • Identifier les outils du cloud permettant de mettre en place un environnement Big Data

Ressources (non-exhaustif) :

  • Pandas
  • Tensorflow / Keras (Resnet50)
  • Pillow
  • Pyspark (Session, Context, SQL, MachineLearning Feature, UDF ...)

About

Support des présentations de la formation OpenClassrooms

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published