Data Science & Machine Learning

Perrine Data Scientist

Transformer les données brutes en insights stratégiques — à l'intersection de la rigueur analytique et de la créativité.

scroll
à propos

Qui suis-je ?

Venue de l'ingénierie, je me suis tournée vers la Data Science parce que j'aime comprendre ce que les données ont à dire.

J'aime creuser un problème, tester des idées et trouver des solutions qui ont un impact.

Et si je peux en plus faire des graphiques qui donnent envie de lire les résultats, c'est encore mieux.

Master 2 Data Science
Lyon — en cours
Diplôme d'ingénieur mécanique
Clermont — 2020
compétences

Mon Stack

🐍
Python
Pandas, NumPy, Scikit-learn,
Matplotlib, Seaborn
🤖
Machine Learning
Scikit-learn, XGBoost, LightGBM,
classification, régression, clustering
🧠
LLM & NLP
Prompt engineering,
Transformers, RAG
👁️
Deep Learning
PyTorch, YOLO,
Computer Vision, LSTM
📊
BI & Data Viz
PowerBI, Tableau, Qlik,
Streamlit, Plotly
📐
Statistiques
Analyse exploratoire
& inférence statistique
🧮
R
Développement de packages,
clustering, modélisation
Data Engineering
PySpark, Airbyte, DBT, Elastic,
Dataiku, Apache Doris, SQL
🐳
MLOps & DevOps
MLFlow, Docker, Git,
Jupyter, déploiement
🗺️
Géospatial
QGIS, analyse spatiale
& cartographie de données
projets

Mes Projets

LLM

Triage aux urgences — Aide à la décision IOA

Application destinée aux infirmiers de régulation et d'orientation (IOA) aux urgences. Un LLM analyse les symptômes décrits par le patient et propose un niveau de triage selon la classification CCMU, pour accélérer et fiabiliser la prise en charge.

Python LLM Prompt Engineering Streamlit
NLP • LLM

Recherche d'emploi & Matching CV

Application NLP qui analyse un CV et des offres d'emploi pour calculer un score de compatibilité. Un LLM génère des recommandations personnalisées pour adapter le profil à chaque offre et maximiser les chances de recrutement.

Python NLP LLM Sentence Transformers
Machine Learning • Data Viz

Prédiction DPE & Consommation Énergétique — Savoie

Modèle de prédiction du Diagnostic de Performance Énergétique (DPE) et de la consommation d'un logement à partir de ses caractéristiques. Inclut un tableau de bord de statistiques générales sur le parc immobilier de Savoie.

Python Scikit-learn Pandas Plotly
R • Statistiques

Package R — Clustering de Variables

Développement d'un package R implémentant des méthodes de clustering de variables (et non d'individus) pour la réduction de dimension et la sélection de features. Inclut documentation, tests unitaires et vignettes.

R Clustering Statistiques Package Dev
Cybersécurité • NLP

Détection de Connexions Suspectes — Logs iptables

Application d'analyse de logs iptables pour identifier automatiquement des tentatives de connexion suspectes (brute force, scans de ports, anomalies). Extraction de features à partir des logs bruts et classification des événements.

Python Parsing Logs Scikit-learn Sécurité
Deep Learning • Computer Vision

Détection de Fruits & Légumes — YOLOv8

Fine-tuning du modèle YOLOv8 pour la détection et classification de fruits et légumes en temps réel. Entraînement sur dataset custom annoté, optimisation des hyperparamètres et évaluation des performances (mAP, précision, rappel).

Python YOLOv8 PyTorch Computer Vision
LLM • NLP

Assistant de Réunion — Transcription & Compte Rendu

Outil automatisé qui transcrit les réunions audio, génère un compte rendu structuré (décisions, actions, participants) via LLM, et propose une planification intelligente des prochaines réunions selon les disponibilités et priorités.

Python Whisper LLM Streamlit
Machine Learning • Finance

Détection de Fraudes Bancaires

Modèle de détection de transactions frauduleuses sur un dataset fortement déséquilibré. Comparaison de plusieurs algorithmes (Random Forest, XGBoost, Isolation Forest), gestion du déséquilibre des classes et optimisation du seuil de décision.

Python XGBoost SMOTE Scikit-learn
Time Series • Deep Learning

Prédiction de Consommation Électrique

Prédiction de la consommation électrique nationale pour le 19 février 2010 à partir de données historiques. Modélisation par séries temporelles (ARIMA, LSTM) et analyse des patterns saisonniers et des pics de consommation.

Python ARIMA LSTM Time Series
Data Engineering

Atelier & Formation Apache Doris

Conception et animation d'un atelier de formation sur Apache Doris, base de données analytique OLAP temps réel. Mise en place d'environnements de TP, exercices pratiques sur l'ingestion, le requêtage et l'optimisation des performances.

Apache Doris SQL OLAP Data Engineering
contact

Travaillons ensemble

Vous avez un projet data, une question ou juste envie d'échanger ? N'hésitez pas à me contacter !