Partager cette offre
Contexte :
Au sein de la section « Gouvernance des données » du Pôle Données, la mission « qualité des données » participe activement :
À la mise en œuvre de la stratégie de gouvernance des données
A l’accompagnement de projets, d’équipes ou bureaux métier par exemple pour la détermination des causes techniques ou organisationnelles des anomalies et la conception de solutions pragmatiques afin de répondre aux irritants identifiés ;
A l’animation d’ateliers de travail pour l’analyse et sélection de scénarios et la formalisation de solutions ;
À la conduite et à l’évaluation de projets pilotes pour améliorer la qualité des données
À la communication interne et la formation des internes sur les méthodes et outils de gestion de la qualité de leurs données ;
Cette mission a pour objet de renforcer la capacité à faire de la mission qualité des données. Cet appui doit permettre de:
Mettre en place une stratégie de récupération, de transformation et d'analyse de la qualité des données :
Proposer une veille, des expérimentations et des évaluations d’outillages (librairie python) d’analyse de la qualité des données et de leurs fiabilisations ;
Analyser des données et les fiabiliser, restituer les résultats et aider au plan d’actions.
Profil recherché
Profil Souhaité :
Expérience de 5 ans minimum sur des problématiques DATA (DATA Analyse / DATA Engineering / DATA Science)
Capacité à interagir avec divers corps de métier impliqués dans la gestion de la DATA (métier, fonctionnel, techniques, réseaux et infrastructure)
Capacité à évoluer dans un écosystème intégrant des technologies variées et systèmes anciens
Lieu : Idf – 93 - 15min de Paris en RER A (TT possible 2 à 3 jours)
Compétences exigées/attendues ⚠️ :
Environnements et Outils
Langages : Python (exigé), Shell
Écosystème : JupyterHub, Git, GitLab
Bases de données et stockage : MinIO, Datalake
Compétences Techniques
Conception et développement de bibliothèques Python robustes et modulaires
Optimisation de code pour le traitement de données
Traitement et optimisation des pipelines de données avec PySpark
Expériences sur les Fonctionnalités suivantes :
Fonctionnalités d’analyse de qualité de données (pandera / great expectations)
Fonctionnalité de traitement de données textuelles ( NLP / Regex)
Fonctionnalité de Matching de séquences de textes ( Leveinstein / Fuzzy / Word2vec)
Environnement de travail
Compétences EXIGÉES ⚠️
Python, Git, GitLab, Fonctionnalité de traitement de données textuelles ( NLP / Regex)
Postulez à cette offre !
Trouvez votre prochaine mission parmi +8 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.