Trouvez votre prochaine offre d’emploi ou de mission freelance Apache Spark

23/03/2025

CELAD

🚀 Contexte du poste Dans le cadre d’une migration vers Google Cloud Platform (GCP) et de plusieurs projets d’expansion, nous recherchons un développeur Python/Spark/GCP (F/H) pour intervenir sur un projet dans le domaine bancaire. Au sein d’une équipe Data et en collaboration avec les Data Scientists, votre rôle sera de concevoir, industrialiser et optimiser les pipelines de données tout en intégrant et déployant les modèles de Machine Learning développés par l’équipe. 🎯 Vos missions Concevoir et développer des pipelines de données optimisés sur Google Cloud Platform (GCP) Industrialiser et déployer des modèles de Machine Learning via Spark et d’autres services GCP (BigQuery, Dataproc, Vertex AI) Optimiser la gestion des alertes LCB-FT et contribuer à l’amélioration des modèles de scoring Assurer la migration des données et traitements de PHG vers GCP Travailler sur des architectures scalables et performantes pour l’extension du moteur de scoring Automatiser et superviser les traitements pour garantir un fort niveau de fiabilité et de performance 🛠 Stack technique Google Cloud Platform (GCP) : BigQuery, Dataflow, Dataproc, Cloud Storage, Pub/Sub Spark (PySpark / Scala) pour le traitement distribué Python (pandas, scikit-learn, airflow) CI/CD & Infra : Terraform, Kubernetes, GitLab CI/CD Bases de données : SQL, NoSQL

Démarrage Dès que possible

Durée 6 mois

Salaire 38k-44k €⁄an

TJM 370-480 €⁄j

Télétravail Télétravail partiel

Lieu Toulouse, Occitanie

Freelance

Ingénieur BigData GCP Hadoop Spark-KARMA MoveToCloud

BigQuery

+4

BigQuery

18/03/2025

CONSULT IT

En tant qu’Ingénieur(e) Move To Cloud, vous intégrerez l’équipe KARMA Move To Cloud pour piloter la migration du système de Revenue Management KARMA, vers Google Cloud Platform (GCP). Vos missions incluront : Migration des workloads Hadoop /Spark vers GCP ( Dataproc, BigQuery, GCS ). Développement et optimisation de pipelines de données. Mise en œuvre d’infrastructures avec Terraform et automatisation via Github Actions. Collaboration avec l’équipe pour assurer une transition fluide et performante..

Démarrage Dès que possible

Durée 12 mois

TJM 550-600 €⁄j

Télétravail Télétravail partiel

Lieu Valbonne, Provence-Alpes-Côte d'Azur

Freelance

Data Engineer Python, Spark, Databricks

+1

12/03/2025

HIGHTEAM

Pour l’un de nos clients, nous recherchons un Data Engineer / Développeur Python passionné(e) pour contribuer à la création de pipelines d'orchestration des modèles ML (préparation des features, entraînement, tuning et inférence). Missions : Développer et optimiser des pipelines de données pour industrialiser l'utilisation des modèles ML avancés . Collaborer avec les Quants & Data Scientists pour automatiser et améliorer le cycle de vie des modèles de Machine Learning. Participer à la modernisation et la digitalisation du SI , en intégrant des solutions innovantes basées sur l’IA, le big data et les données météorologiques . Concevoir et déployer des solutions sur Azure Databricks pour améliorer la gestion des risques et la performance énergétique.

Démarrage Dès que possible

Durée 3 ans

TJM 450-600 €⁄j

Télétravail Télétravail partiel

Lieu Île-de-France, France

Freelance

Data Engineer Spark

Big Data

31/01/2025

Focustribes

Dans le cadre de sa transformation digitale et de l’optimisation de son exploitation des données, notre client, un acteur bancaire majeur, recherche un Data Engineer Spark . Votre mission consistera à concevoir, développer et optimiser des pipelines de données massives en exploitant Apache Spark sur une infrastructure distribuée. Vous serez chargé(e) de garantir la robustesse, la performance et la scalabilité des traitements de données tout en assurant leur intégration fluide avec les autres composants du data lake . En lien avec les équipes Data Science et IT , vous interviendrez sur l’optimisation des traitements distribués, l’industrialisation des flux et l’automatisation des processus, afin d’améliorer la qualité et la disponibilité des données en production. Vous contribuerez également à la mise en place des meilleures pratiques en matière de Big Data Engineering et de gestion des performances des architectures distribuées.

Démarrage Dès que possible

Durée 6 mois

TJM 400-800 €⁄j

Télétravail Télétravail partiel

Lieu Finistère, France

Freelance

CDI

Data Engineer Spark Scala Kafka- Monitoring Datalake Finance

Hadoop

Scala

30/01/2025

VISIAN

Contexte & Objectifs Au sein du service Gouvernance, Administration et Monitoring de la DSI Finance, la mission vise à développer et optimiser une brique applicative de monitoring des flux et traitements de données , en lien avec le programme GASPARD . L’objectif est d’assurer la qualité de service et le respect des délais de mise à disposition des données, notamment face à l’augmentation des volumes prévue en 2024-2025. D’une durée de 6 mois , cette mission doit finaliser les travaux en cours et garantir les performances pour les futurs déploiements. L’équipe est basée à Paris , avec des interactions quotidiennes avec les équipes GASPARD à Paris et Porto . L’anglais est donc indispensable. Description & Activités Collecte et mise à disposition des données pour l’entreprise. Industrialisation et mise en production des traitements (tableaux de bord, intégration de modèles). Développement et optimisation des pipelines d’ingestion (streaming & batch). Mise en production de modèles statistiques et traitements Spark . Développement de scripts et jobs de traitement (mapping, normalisation, agrégation). Développement d’API et dashboards pour la restitution des données. Administration et configuration de clusters Hadoop et Spring Boot pour l’extraction et l’intégration des données via Kafka et Data Lake . Profil & Informations Expérience requise : 6 à 9 ans. Localisation : paris 13. Début souhaité : 03/03/2025. Mode de travail : hybride ( 2 jours sur site minimum / 10 jours de télétravail max si convention).

Démarrage Dès que possible

Durée 6 mois

Salaire 40k-45k €⁄an

TJM 400-580 €⁄j

Télétravail Télétravail partiel

Lieu Paris, France

Freelance

CDI

Datascientist - GCP - Python - Spark

27/02/2025

4 Impact

Dans le cadre d'une migration vers la nouvelle plateforme Data Groupe , nous recherchons un Datascientist Python - GCP , pour renforcer les équipes de notre client. Missions : Réalisation des modèles mathématiques Réalisation des cas d’usage métiers en intelligence artificielle prédictive Entrainement des modèles Machine et Deep learning Réalisation des cas d’usages IA générative Rédaction de documentation technique Réalisation des études de performance et les tracer avant d’implémenter un quelconque modèle. Contribution à l’assistance aux utilisateurs (formation, transmission de connaissances, assistance au support de Niveau 3) et aux équipes en charge du suivi de la production.

Démarrage Dès que possible

Durée 12 mois

Lieu Hauts-de-Seine, France

Freelance

CDI

Data Engineer Python/Spark/Deltalake

09/03/2025

VISIAN

Bonjour, Dans le cadre de ses projets clients, Visian est à la recherche d'un Data Engineer Python/Spark/Deltalake. Tâches: Conception, développement et déploiement des pipelines de données efficaces pour l’extraction, la transformation et le chargement (ETL) des données, - Collaboration avec les équipes métier pour comprendre les besoins en matière de données et proposer une solution adaptée, - Etablissement des spécifications techniques à partir des besoins, - Mise en place de la collecte et la mise à disposition des données, - Garantie de la sécurisation des pipelines de données déployés, - Analyse et transformation des données pour répondre aux besoins des métiers, - Industrialisation et automatisation de la transformation des données suivants les spécifications définies, - Développement et maintien des batchs d’automatisations de traitement, - Suivi de la production et la maintenance, - Développement de l’industrialisation de modèles statistiques, - Développement des dashboards en lien avec les attentes du métier, - Rédaction et maintien de la documentation relative aux bases de données et à leur exploitation, - Accompagnement des citizens developers dans leur prise en main de la plateforme data in-house. Si vous êtes actuellement à l'écoute du marché, je vous invite à m'envoyer votre candidature. Bien à vous, Nadia

Démarrage Dès que possible

Durée 2 ans

Salaire 40k-70k €⁄an

TJM 400-630 €⁄j

Télétravail Télétravail partiel

Lieu Paris, France

Freelance

Expert Big Data - Technologies Cloudera / Hadoop / Spark / JEE

+5

09/02/2025

CAT-AMANIA

Expertise développement / outillage / intégration sur des technologies Open Source en environnement Big Data Hadoop (Cloudera). Connaissance de la solution Talend. Maîtrise des solutions de conteneurisation (openshift). Capacité à assurer l'évolution des socle Data et leur enrichissement en fonction de la roadmap stratégique définie. – Aide au diagnostic et à la résolution de problèmes – Analyse et réalisation d’outils d’aide au développement et à l'exploitation - Maintenance et évolution des solutions ETL Light (Socle Générique) et de l'offre Micro-Services Les compétences techniques requises : - Expérience significative(> 5 ans) sur les technologies de la Data - Expertise sur les technologies et API Java / JEE

Démarrage Dès que possible

Durée 3 ans

TJM 520-580 €⁄j

Télétravail Télétravail partiel

Lieu Le Mans, Pays de la Loire

Freelance

Data Engineer (Big Data expert : Hadoop / Spark / JEE)

13/02/2025

STHREE SAS pour HUXLEY

Depuis 20 ans, Huxley est positionné parmi les acteurs principaux du recrutement dans le monde. Spécialisé dans l'IT, la finance et l'assurance nous sommes implantés mondialement dans 15 pays. Nous aidons nos clients à optimiser leur recrutement en adoptant une approche personnalisée et une expertise métiers, délivrant ainsi un service sur mesure. Nous nouons quotidiennement des relations avec les talents et les entreprises les plus dynamiques du marché. Huxley est le spécialiste Banque Finance Assurance du groupe International STHREE côté en bourse au LSE, leader sur le segment STEM (Sciences Technologies Engineering and Mathematics). Détails de la prestation Compétences technologiques requises : Développement : Full Stack JEE, SQL Outillage : Eclipse, SubVersion, Jenkins Environnement : Linux Red Hat, PostGre, ELK, Open Source Apache, OpenShift / Kubernetes Technologies et langages Big Data: Cloudera, Java, Python, Json, GIT, SVN, Shell, Hadoop, Hive, Hbase, Solr, Hue, Kafka, Spark, Talend ... Les compétences fonctionnelles requises : Animation, diffusion de connaissances Rédaction et administration des documentations relatives au développement Communication sur les normes de développement, les guides d'architecture, les bonnes pratiques Contrôles et revues de code Assurance de l'exploitabilité des systèmes sur les différents environnements Aide au diagnostic et à la résolution de problèmes Analyse et réalisation d'outils d'aide au développement et à l'exploitation Maintenance et évolution des solutions ETL Light (Socle Générique) et de l'offre Micro-Services

Démarrage 07/02/2025

Durée 12 mois

TJM 500-570 €⁄j

Télétravail Télétravail partiel

Lieu Le Mans, Pays de la Loire

Freelance

Data Engineer (Big Data expert : Hadoop / Spark / JEE)

13/02/2025

STHREE SAS pour HUXLEY

Depuis 20 ans, Huxley est positionné parmi les acteurs principaux du recrutement dans le monde. Spécialisé dans l'IT, la finance et l'assurance nous sommes implantés mondialement dans 15 pays. Nous aidons nos clients à optimiser leur recrutement en adoptant une approche personnalisée et une expertise métiers, délivrant ainsi un service sur mesure. Nous nouons quotidiennement des relations avec les talents et les entreprises les plus dynamiques du marché. Huxley est le spécialiste Banque Finance Assurance du groupe International STHREE côté en bourse au LSE, leader sur le segment STEM (Sciences Technologies Engineering and Mathematics). Détails de la prestation Compétences technologiques requises : Développement : Full Stack JEE, SQL Outillage : Eclipse, SubVersion, Jenkins Environnement : Linux Red Hat, PostGre, ELK, Open Source Apache, OpenShift / Kubernetes Technologies et langages Big Data: Cloudera, Java, Python, Json, GIT, SVN, Shell, Hadoop, Hive, Hbase, Solr, Hue, Kafka, Spark, Talend ... Les compétences fonctionnelles requises : Animation, diffusion de connaissances Rédaction et administration des documentations relatives au développement Communication sur les normes de développement, les guides d'architecture, les bonnes pratiques Contrôles et revues de code Assurance de l'exploitabilité des systèmes sur les différents environnements Aide au diagnostic et à la résolution de problèmes Analyse et réalisation d'outils d'aide au développement et à l'exploitation Maintenance et évolution des solutions ETL Light (Socle Générique) et de l'offre Micro-Services

Démarrage 07/02/2025

Durée 12 mois

TJM 500-570 €⁄j

Télétravail Télétravail partiel

Lieu Le Mans, Pays de la Loire

Freelance

CDI

DevOps-DataOps(Apache Spark)

+7

08/02/2025

bdevit

Contexte : Dans le cadre d’un projet stratégique pour une banque de renom, nous recherchons un DevOps-DataOps pour automatiser et industrialiser les pipelines de données. Ce rôle exige une expertise avancée dans la gestion des environnements Kubernetes on-premise , ainsi qu’une forte compétence sur Apache Spark pour des traitements de données à grande échelle. Missions Principales : Installer, configurer et gérer des clusters Kubernetes on-premise , en assurant leur haute disponibilité et leur scalabilité ; Intégrer Kubernetes avec des outils de traitement de données tels qu’Apache Spark , en optimisant les performances et la résilience des pipelines de données ; Déployer et gérer des microservices et des workflows complexes sur Kubernetes, en assurant leur intégration fluide dans des pipelines CI/CD ; Automatiser le traitement des données avec Apache Spark (PySpark, Spark SQL, Spark Streaming), tout en optimisant les performances des jobs et leur interaction avec des plateformes comme Databricks ou EMR ; Concevoir et déployer des pipelines CI/CD robustes (Jenkins, GitLab CI, ArgoCD) pour des flux de données critiques, incluant des processus d’automatisation des tests et des déploiements ; Implémenter des solutions de monitoring avancées pour Kubernetes et Spark (Prometheus, Grafana, CloudWatch), en mettant l’accent sur le scaling automatique et la gestion proactive des performances ; Déployer des stratégies de sauvegarde et de restauration des données, en garantissant la résilience des systèmes face aux défaillances.

Démarrage Dès que possible

Durée 36 mois

Salaire 40k-55k €⁄an

TJM 500-520 €⁄j

Télétravail Télétravail partiel

Lieu Île-de-France, France

Freelance

CDI

Data Engineer confirmé (3 à 7 ans d’expérience)

Java

Scala

26/03/2025

Archytas Conseil

Dans le cadre d’un programme de transformation data au sein d’un acteur majeur du secteur de la distribution, nous recherchons un(e) Data Engineer expérimenté(e) pour renforcer les équipes d’une plateforme Data structurée autour d’une architecture « data-centric ». Cette plateforme vise à décloisonner les silos d’information et à fournir des données en temps réel via API à l’ensemble de l’écosystème métier et SI, dans une logique de convergence entre décisionnel et opérationnel. Vos responsabilités Intégré(e) à l’équipe data, vous serez chargé(e) de concevoir, développer et maintenir des pipelines de traitement de données à grande échelle, en environnement cloud. Vous interviendrez à la croisée des enjeux techniques et métiers, dans un environnement résolument agile et orienté performance. Missions principales développer et maintenir des flux de données batch et temps réel (BigQuery, BigTable, Apache Kafka, Apache Spark) concevoir des pipelines évolutifs et robustes en lien étroit avec les équipes techniques optimiser les processus d’acquisition, de transformation et de stockage des données assurer la haute disponibilité et les performances en production dans une démarche DevOps contribuer à la définition de l’architecture microservices et à l’amélioration continue rédiger et maintenir les tests unitaires et d’intégration produire des livrables de qualité et assurer un reporting clair et régulier proposer des pistes d’amélioration (refactoring, simplification, industrialisation) Compétences techniques requises langages : très bonne maîtrise de Java ; la connaissance de Scala est un atout apprécié, mais non bloquant traitement de flux et Big Data : bonne expérience avec Apache Kafka et Apache Spark cloud : expérience sur GCP (BigQuery, Dataproc, Kubernetes...) ou environnement cloud équivalent CI/CD : pratique de Git et des outils d’intégration/déploiement continus (GitLab CI/CD ou similaire) architecture & DevOps : bonne culture des microservices et des pratiques DevOps qualité logicielle : rigueur dans l’écriture de tests et dans le maintien de la qualité du code Soft skills attendus esprit d’équipe et capacité à collaborer dans un environnement distribué communication fluide, écrite comme orale sens de l’analyse et capacité à challenger l’existant avec bienveillance autonomie et proactivité dans la résolution de problèmes

Démarrage 30/03/2025

Durée 12 mois

Salaire 10k-30k €⁄an

TJM 200-400 €⁄j

Télétravail Télétravail 100%

Lieu Casablanca, Casablanca-Settat, Maroc

Freelance

CDI

Développeur Big Data Hadoop/PySpark/Python - 3 à 6 ans

Hadoop

Amazon Elastic Compute Cloud (EC2)

28/03/2025

Digistrat consulting

🏭 Secteurs stratégiques : Banque d’investissement 🗓 Démarrage : ASAP 💡 Contexte /Objectifs : Le département a lancé un programme stratégique, qui comporte plusieurs projets d'harmonisation des processus et outils. L'un de ces streams a pour vocation de constituer un datalake sur une stack Hadoop, afin de servir les besoins en data et reporting. Ce datalake a également pour vocation de devenir la brique centrale de l'architecture du SI . Nous recherchons un profil Hadoop / PySpark qui sera en charge, en lien avec l'équipe de production applicative / devops, de mettre en œuvre techniquement les évolutions du datalake. Passionné par les données, capable de s’adapter à un environnement dynamique et en constante évolution, le prestataire doit faire preuve d'autonomie, d'initiative et d'une forte capacité d'analyse pour résoudre des problèmes complexes. 🤝Principales missions : Les tâches suivantes seront confiés au consultant : • Mettre en œuvre de nouvelles ingestions de données, data prep/transformation • Maintenir et faire évoluer nos outils de gestion des pipeline de données (Pyspark + shell scripting) • Adresser à l'équipe devops les demandes relatives aux évolutions de la plateforme • Eventuellement mettre en œuvre une couche d'APIs afin d'exposer nos données

Démarrage Dès que possible

Durée 3 ans

Salaire 38k-43k €⁄an

TJM 300-400 €⁄j

Télétravail Télétravail partiel

Lieu Paris, France

Freelance

Ingénieur DEVOPS / Spécialiste MLOps

Ansible

Amazon Elastic Compute Cloud (EC2)

+10

27/03/2025

CONSULT IT

Nous recherchons un(e) Ingénieur(e) DEVOPS / Spécialiste MLOps pour rejoindre notre équipe dans le cadre d’une mission stratégique visant à optimiser et déployer des solutions Data au sein du Groupe. Les principales responsabilités incluent : Mise en œuvre opérationnelle et technique des produits Data : Industrialiser et automatiser le déploiement de la plateforme Dataiku. Tester et maintenir la plateforme afin de garantir sa sécurité, sa résilience et sa disponibilité, en respectant les engagements pris avec les différentes entités du Groupe. Documenter les travaux réalisés pour un usage interne ou pour la présentation de l’offre aux entités. Accompagner les métiers dans leur prise en main de la plateforme. Gérer les incidents en respectant les engagements définis dans l’offre. Gestion de projet : Être le point de contact opérationnel privilégié pour les clusters et/ou entités. Participer à l’élaboration des formations et des présentations destinées aux référents des clusters et entités consommatrices (ou potentiellement consommatrices) de l’offre. Contribuer aux réunions de co-construction de la roadmap et à sa mise en œuvre. Prendre le lead sur des aspects ou fonctionnalités techniques identifiés de l’offre. Participer ou réaliser des démonstrations et des WebTech autour de la plateforme MLOps. S’impliquer dans l’ensemble des rituels de la Squad, de la plateforme et du socle technique.

Démarrage Dès que possible

Durée 12 mois

TJM 300-350 €⁄j

Télétravail Télétravail partiel

Lieu Montpellier, Occitanie

Freelance

Data Engineer Big Data (H/F)