Le poste Lead Data Scientist NLP
Partager cette offre
Notre client grand compte dans le secteur de l'énergie recherche un Lead Data Scientist spécialisé en données non structurées (données textuelles) pour renforcer le pôle sur la réalisation de projets de NLP.
Mission longue, projet à forts enjeux.
Reprise d'un poste existant sur un projet d'IA générative : pas d'expérience requise sur ce type de projet, en revanche une expérience solide en traitement de données textuelles est attendue.
La préparation de la donnée est aussi importante que la modélisation.
• Compréhension du besoin métier et accompagnement au cadrage du projet,
• Réalisation du projet dans un environnement de travail collaboratif (GIT) usant majoritairement des langages
Python et R, de Dash et RShiny pour les dataviz, mais aussi de SQL afin de requêter des bases de données,
• Restitution des résultats et accompagnement à la compréhension.
Plus précisément, l’intervenant devra effectuer les missions suivantes :
o Aider le commanditaire à cadrer le projet en étant force de proposition
o Accompagner techniquement des datascientists
o Requêter les bases de données de l’entreprise
o Recenser et agréger les données de différentes sources
o Analyser et explorer les données
o Modéliser en s’appuyant sur des techniques de Machine Learning, deep learning
o Automatiser et optimiser les traitements
o Analyser les résultats produits pour s’assurer de la qualité des livrables
o Produire des data visualisations si nécessaire et en minimisant les actions de maintenance que cela
impliquerait par la suite
o Restituer les résultats des travaux à l’écrit mais également à l’oral devant des commanditaires et en équipe, en apportant une plus-value dans l’analyse
o Accompagner les commanditaires dans la prise en main des livrables
o Documenter les travaux réalisés sur les aspects techniques et fonctionnels
o Capitaliser et travailler en équipe dans une démarche de boucle d’amélioration continue
o Utiliser les données en veillant au respect du RGPD
Les livrables attendus sont les suivants (liste non exhaustive) :
o Développements réalisés, versionnés et historisés via Git
o Livrables des projets sous forme de fichier Excel, Power Point, Word, Notebook, data visualisation.
o Documentation technique et fonctionnelle décrivant l’ensemble des travaux réalisés sur les projets
o Supports de présentation et de restitution auprès des commanditaires
o Communication et éventuelles alertes sur l’avancement des projets
Profil recherché
Les compétences suivantes sont attendues :
• Compétences indispensables :
o Capacité à accompagner techniquement des datascientists
o Maîtrise de Python
o Maîtrise des tâches de pré-traitement des données textuelles (parsing, expressions régulières, enrichissement (POS Tagging, dependency parsing), normalisation via lemmatisation ou stemming, correction orthographique)
o Compétences en apprentissage automatique sur des données textuelles via au moins l’un des domaines ci-dessous :
▪ Maîtrise des fondamentaux du Machine Learning : compréhension des concepts clés, des
algorithmes et des méthodes d'évaluation.
▪ Expertise en Deep Learning : connaissance approfondie des architectures de réseaux de
neurones, notamment les RNN, LSTM, GRU, et Transformers.
▪ Maîtrise des frameworks de deep learning : expérience avec TensorFlow, PyTorch, ou Keras.
Connaissance des techniques « transfer learning » : expérience avec des modèles LLMs pré-
entraînés comme (CamemBERT, GPT, mistral etc) et leur fine-tuning pour des tâches
spécifiques
▪ Prompt engineering
o Capacité à restituer et communiquer efficacement les résultats des travaux menés en datascience
o Capacité à travailler en équipes avec d’autres professionnels de la donnée.
o Appétence à l’innovation et à la veille technologique : capacité à rester à jour avec les dernières
avancées en NLP
o Proactivité et dynamisme pour piloter un projet de NLP avec des acteurs de profils variés
o Encadrement d’analystes (délai, accompagnement technique, qualité)
• Compétences nécessaires :
o Expérience sur l’un ou plusieurs de ces cas d’usage :
▪ Classification muti-class / multi-label
▪ Analyse de sentiment, opinion mining
▪ Extraction d’entités nommées
▪ Segmentation de texte
▪ Similarité sur les données textuelles
▪ Génération de texte : expérience d'utilisation de LLMs notamment dans des tâches de résumé
automatique, synthèse, chatbot etc.
o Gitlab : Connaissances de versionning et de partage de code (add, commit, push, pull, ...)
o Capacité à travailler en équipe dans des approches agiles
o Gestion de la donnée dans un contexte réglementaire RGPD/AI Act
o MLOps : expérience avec des outils et des pratiques pour automatiser le cycle de vie du ML, y compris
l'intégration continue, le déploiement continu et la surveillance des modèles
o Intégration et déploiement : capacité à intégrer ou packager des modèles entraînés pour les déployer à
grande échelle
o Aisance et rigueur rédactionnelle
• Compétences appréciées :
o Expérience avec les librairies comme NLKT, spacy etc.
o Connaissance des interactions homme/machine
o Envie de faire partager aux autres ses compétences et bonnes pratiques
o Supervision des modèles
o Expérience sur le traitement d’images, de vidéos ou d’audios
o Intérêt fort pour les problématiques métier
Environnement de travail
Mission de 2 ans
Démarrage 14 octobre
Télétravail de 2 à 3 jours par semaine
Process : 1 à 2 entretiens client
Client en relation directe Freelance Republik
Postulez à cette offre !
Trouvez votre prochaine mission parmi +7 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Lead Data Scientist NLP
ODHCOM - FREELANCEREPUBLIK