Le poste data lake engineer - anglais
Partager cette offre
Ce département ou interviendra le Prestataire est de la gestion des données & de la business intelligence des systèmes d’informations : maintenance & alimentation du datawarehouse, conception de rapports, calculs et visualisation de KPI.
La Prestation s’effectuera au sein de l’équipe d’une vingtaine de personnes composée de :
ü Data Engineer, travaillant majoritaire à l’alimentation du Datawarehouse d’entreprise
ü Data Architect travaillant sur les évolutions de la gestion des données au sein de l’entreprise.
Les données sont principalement gérées au sein
- D’un datawarehouse d’entreprise organisé autour de plusieurs instances de base de données ORACLE
- D’un Datalake s’appuyant sur l’offre cloudera on premise
L’équipe est en charge des évolutions, du support et de la maintenance du datawarehouse.
Dans ce contexte, la prestation consiste à intervenir sur le POC (Proof of concept) en étroite collaboration avec l’administrateur du Data Lakehouse et à mettre en œuvre et valider l’infrastructure de plateforme de données.
Dans ce cadre, le Prestataire contribuera et aura la responsabilité de :
Ø POC Developpement :
o Conception et développement du POC pour notre Data Lakehouse ouvert en utilisant les dernières technologies (Cloudera, NoSQL, NiFi, Apache Iceberg, DBT, Superset, etc.) pour répondre aux exigences de l’entreprise,
Ø L’intégration des données :
o Mise en œuvre des pipelines d’ingestion et d’intégration de données à partir de diverses sources tout en s’assurant la qualité et la cohérence des données.
Ø Du processus ETL/ELT:
o Développement et optimisation des processus ETL/ELT pour soutenir les besoins de data warehousing et d’analyse.
Ø L’optimisation de la performance:
o Analyse et optimisation de la performance des flux de données et des requêtes.
Ø La collaboration :
o Travail en étroite collaboration avec l’administrateur du Data Lakehouse pour assurer l’intégration et la fonctionnalité de l’infrastructure du Data Lakehouse.
Ø La documentation :
o Création et maintenance de documents techniques sur les pipelines de données,
o l’architecture
o les flux de travail.
Ø L’innovation:
o Rester à jour avec les technologies émergentes et les meilleures pratiques pour améliorer continuellement la plateforme de données.
Profil recherché
Ø Environnement anglophone qui nécessite la maitrise de l’anglais à l’oral et à l’écrit
Ø Expérience prouvée en ingénierie des données, avec un focus sur la conception et la construction de pipelines de données,
Ø Expertise solide avec les outils et processus ETL/ELT,
Ø Maîtrise des technologies big data telles que Hadoop, Spark et Hive,
Ø Compréhension des architectures Data Lakehouse ouvertes, spécifiquement Apache Iceberg ou Delta Lake.
Ø Compétences de programmation avec la maîtrise des langages de programmation tels que Python, SQL et Java/Scala.
Ø Outils d’intégration de données avec expérience des outils d’intégration de données comme Apache NiFi, ou Kafka
Ø Modélisation des données avec une compréhension solide des modélisations et de l’entreposage des données.
Ø Optimisation de la performance avec l’expérience en optimisation et en amélioration de la performance des pipelines de données et des requêtes.
Ø Excellentes compétences de collaboration pour travailler efficacement avec des équipes croisées, y compris des ingénieurs de données, des scientifiques des données et des administrateurs système.
Ø • Autonomie au travail: Capacité à travailler de manière autonome et à prendre possession des projets.
Ø • Compétences de documentation: Bonnes compétences de documentation pour assurer la clarté et la maintenabilité des flux de travail de données
Environnement de travail
Calendrier
Livrables
Tout au long de la mission
- Mise à disposition d’un environnement Data Science avec la Données
- Transformation des données (dans le Datalake interne Cloudera) :
- Lister les différentes transformation par source (Adobe Campaign, Google Analytics).
- Créer les scripts de transformation, les tester et les mettre en production
- Intégration entre Internal DataLake Cloudera et nos instances Oracle (MDA) (loop back) pour les données Adobe Campaign (transformées)
- Phase d’enrichissement de la donnée basée sur nos Use Case au sein de l’internal Datalake
- Mise à disposition des données transformées pour la Data Science
- Mise à disposition des environnements pour exploiter de la donnée :
- Requête adhoc
- Machine Learning
- Analyses
Postulez à cette offre !
Trouvez votre prochaine mission parmi +7 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
data lake engineer - anglais
Innov and Co