Le poste DATA ENGINEER SPARK/SCALA
Partager cette offre
Conception et développement de pipelines de données :
Concevoir et développer des pipelines de données robustes et évolutifs utilisant Apache Spark et d’autres outils Big Data.
Intégrer et transformer des données en temps réel ou en batch à partir de sources variées (bases de données, APIs, fichiers plats, etc.).
Implémenter des solutions de traitement de données massives, principalement avec Spark (Scala et Python).
Optimisation et maintenance :
Assurer l'optimisation des performances des pipelines de données (gestion des ressources Spark, optimisation des requêtes, réduction des latences, etc.).
Maintenir et améliorer la fiabilité des processus de traitement de données et des infrastructures associées.
Automatisation des processus :
Mettre en place et gérer des workflows d’automatisation des tâches avec Apache Airflow.
Automatiser le déploiement et l'exécution des pipelines de données à l'aide de Jenkins.
Collaboration avec les équipes de data science et d’infrastructure :
Collaborer avec les data scientists pour comprendre les besoins en données et optimiser leur accès.
Travailler étroitement avec les équipes d’infrastructure pour assurer la stabilité et la scalabilité des pipelines de données.
Veille technologique :
Se tenir informé des évolutions des technologies Big Data et des bonnes pratiques pour intégrer de nouvelles fonctionnalités dans les pipelines.
Langages de programmation :
Scala et Python : Expérience confirmée dans la programmation de pipelines de données en Scala (pour Spark) et en Python.
Technologies Big Data :
Apache Spark : Maîtrise de Spark pour le traitement de données massives, avec une compréhension approfondie de ses API en Scala et Python.
Apache Airflow : Expérience avec la gestion et l'orchestration de workflows de données dans un environnement de production.
Outils de CI/CD :
Jenkins : Expérience avec Jenkins pour l’automatisation des déploiements et des tests des pipelines de données.
Bases de données et gestion des données :
Connaissances solides des bases de données relationnelles (SQL, PostgreSQL, etc.) et NoSQL (Cassandra, MongoDB, etc.).
Profil recherché
Conception et développement de pipelines de données :
Concevoir et développer des pipelines de données robustes et évolutifs utilisant Apache Spark et d’autres outils Big Data.
Intégrer et transformer des données en temps réel ou en batch à partir de sources variées (bases de données, APIs, fichiers plats, etc.).
Implémenter des solutions de traitement de données massives, principalement avec Spark (Scala et Python).
Optimisation et maintenance :
Assurer l'optimisation des performances des pipelines de données (gestion des ressources Spark, optimisation des requêtes, réduction des latences, etc.).
Maintenir et améliorer la fiabilité des processus de traitement de données et des infrastructures associées.
Automatisation des processus :
Mettre en place et gérer des workflows d’automatisation des tâches avec Apache Airflow.
Automatiser le déploiement et l'exécution des pipelines de données à l'aide de Jenkins.
Collaboration avec les équipes de data science et d’infrastructure :
Collaborer avec les data scientists pour comprendre les besoins en données et optimiser leur accès.
Travailler étroitement avec les équipes d’infrastructure pour assurer la stabilité et la scalabilité des pipelines de données.
Veille technologique :
Se tenir informé des évolutions des technologies Big Data et des bonnes pratiques pour intégrer de nouvelles fonctionnalités dans les pipelines.
Langages de programmation :
Scala et Python : Expérience confirmée dans la programmation de pipelines de données en Scala (pour Spark) et en Python.
Technologies Big Data :
Apache Spark : Maîtrise de Spark pour le traitement de données massives, avec une compréhension approfondie de ses API en Scala et Python.
Apache Airflow : Expérience avec la gestion et l'orchestration de workflows de données dans un environnement de production.
Outils de CI/CD :
Jenkins : Expérience avec Jenkins pour l’automatisation des déploiements et des tests des pipelines de données.
Bases de données et gestion des données :
Connaissances solides des bases de données relationnelles (SQL, PostgreSQL, etc.) et NoSQL (Cassandra, MongoDB, etc.).
Environnement de travail
Conception et développement de pipelines de données :
Concevoir et développer des pipelines de données robustes et évolutifs utilisant Apache Spark et d’autres outils Big Data.
Intégrer et transformer des données en temps réel ou en batch à partir de sources variées (bases de données, APIs, fichiers plats, etc.).
Implémenter des solutions de traitement de données massives, principalement avec Spark (Scala et Python).
Optimisation et maintenance :
Assurer l'optimisation des performances des pipelines de données (gestion des ressources Spark, optimisation des requêtes, réduction des latences, etc.).
Maintenir et améliorer la fiabilité des processus de traitement de données et des infrastructures associées.
Automatisation des processus :
Mettre en place et gérer des workflows d’automatisation des tâches avec Apache Airflow.
Automatiser le déploiement et l'exécution des pipelines de données à l'aide de Jenkins.
Collaboration avec les équipes de data science et d’infrastructure :
Collaborer avec les data scientists pour comprendre les besoins en données et optimiser leur accès.
Travailler étroitement avec les équipes d’infrastructure pour assurer la stabilité et la scalabilité des pipelines de données.
Veille technologique :
Se tenir informé des évolutions des technologies Big Data et des bonnes pratiques pour intégrer de nouvelles fonctionnalités dans les pipelines.
Langages de programmation :
Scala et Python : Expérience confirmée dans la programmation de pipelines de données en Scala (pour Spark) et en Python.
Technologies Big Data :
Apache Spark : Maîtrise de Spark pour le traitement de données massives, avec une compréhension approfondie de ses API en Scala et Python.
Apache Airflow : Expérience avec la gestion et l'orchestration de workflows de données dans un environnement de production.
Outils de CI/CD :
Jenkins : Expérience avec Jenkins pour l’automatisation des déploiements et des tests des pipelines de données.
Bases de données et gestion des données :
Connaissances solides des bases de données relationnelles (SQL, PostgreSQL, etc.) et NoSQL (Cassandra, MongoDB, etc.).
Postulez à cette offre !
Trouvez votre prochaine mission parmi +7 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
DATA ENGINEER SPARK/SCALA
UCASE CONSULTING