Trouvez votre prochaine offre d’emploi ou de mission freelance Apache Spark
Astuce
Utilisez des virgules pour rechercher plusieurs termes en même temps.
Exemple : sql, php correspond à sql OU php
Ingénieur Full Stack JAVA/Spark

Cherry Pick est à la recherche d'un Ingénieur Full Stack JAVA/Spark pour un client dans le secteur de l'Edition. En ce sens, vos missions seront : Expérience requise (obligatoire): Expérience confirmée en développement Java Expérience confirmée en développement Spark Conception et développement de traitements batchs pour des traitements volumineux et critiques. Développement d’API REST et de services en Java (Spring Boot) Maîtrise des bases de données relationnelles Compétences appréciées: Connaissances en sécurité cloud et réseaux (Linux, Redhat) Expérience en migration de données Réalisation de tests unitaires et d’intégration Connaissance des pratiques DevOps (CI/CD, Docker, Kubernetes est un plus) Soft Skills: Encourager la coopération et le partage de connaissances, contribuant ainsi à une dynamique positive au sein de l'équipe. Autonomie et capacité à implémenter/résoudre des problématiques techniques complexes Esprit d’analyse et de synthèse, capacité à documenter les processus techniques Capacité à travailler efficacement en équipe, en communiquant avec les différentes parties prenantes (DEV, OPS, produit) Être proactif dans l'apport d'idées et de solutions, tout en respectant les contraintes de l'équipe et du projet Responsabilités: Expérience en développement front-end Angular Implémenter, développer et maintenir les fonctionnalités en JAVA Solide maîtrise des technologies Java/Spark et des traitements batch. Réaliser les tests unitaires et les tests de bout en bout avec l’appui du PO Produire les documents techniques correspondants (spécifications techniques) Travail dans un cadre agile et participation aux rituels (PI planning, démo, …) Participer à l’animation de l’équipe (daily meeting, atelier de partage)
Développeur Python/Spark/GCP (F/H) – Domaine bancaire – Toulouse

🚀 Contexte du poste Dans le cadre d’une migration vers Google Cloud Platform (GCP) et de plusieurs projets d’expansion, nous recherchons un développeur Python/Spark/GCP (F/H) pour intervenir sur un projet dans le domaine bancaire. Au sein d’une équipe Data et en collaboration avec les Data Scientists, votre rôle sera de concevoir, industrialiser et optimiser les pipelines de données tout en intégrant et déployant les modèles de Machine Learning développés par l’équipe. 🎯 Vos missions Concevoir et développer des pipelines de données optimisés sur Google Cloud Platform (GCP) Industrialiser et déployer des modèles de Machine Learning via Spark et d’autres services GCP (BigQuery, Dataproc, Vertex AI) Optimiser la gestion des alertes LCB-FT et contribuer à l’amélioration des modèles de scoring Assurer la migration des données et traitements de PHG vers GCP Travailler sur des architectures scalables et performantes pour l’extension du moteur de scoring Automatiser et superviser les traitements pour garantir un fort niveau de fiabilité et de performance 🛠 Stack technique Google Cloud Platform (GCP) : BigQuery, Dataflow, Dataproc, Cloud Storage, Pub/Sub Spark (PySpark / Scala) pour le traitement distribué Python (pandas, scikit-learn, airflow) CI/CD & Infra : Terraform, Kubernetes, GitLab CI/CD Bases de données : SQL, NoSQL
Ingénieur BigData GCP Hadoop Spark-KARMA MoveToCloud
En tant qu’Ingénieur(e) Move To Cloud, vous intégrerez l’équipe KARMA Move To Cloud pour piloter la migration du système de Revenue Management KARMA, vers Google Cloud Platform (GCP). Vos missions incluront : Migration des workloads Hadoop /Spark vers GCP ( Dataproc, BigQuery, GCS ). Développement et optimisation de pipelines de données. Mise en œuvre d’infrastructures avec Terraform et automatisation via Github Actions. Collaboration avec l’équipe pour assurer une transition fluide et performante..
Data Engineer Python, Spark, Databricks

Pour l’un de nos clients, nous recherchons un Data Engineer / Développeur Python passionné(e) pour contribuer à la création de pipelines d'orchestration des modèles ML (préparation des features, entraînement, tuning et inférence). Missions : Développer et optimiser des pipelines de données pour industrialiser l'utilisation des modèles ML avancés . Collaborer avec les Quants & Data Scientists pour automatiser et améliorer le cycle de vie des modèles de Machine Learning. Participer à la modernisation et la digitalisation du SI , en intégrant des solutions innovantes basées sur l’IA, le big data et les données météorologiques . Concevoir et déployer des solutions sur Azure Databricks pour améliorer la gestion des risques et la performance énergétique.
Data Engineer Spark

Dans le cadre de sa transformation digitale et de l’optimisation de son exploitation des données, notre client, un acteur bancaire majeur, recherche un Data Engineer Spark . Votre mission consistera à concevoir, développer et optimiser des pipelines de données massives en exploitant Apache Spark sur une infrastructure distribuée. Vous serez chargé(e) de garantir la robustesse, la performance et la scalabilité des traitements de données tout en assurant leur intégration fluide avec les autres composants du data lake . En lien avec les équipes Data Science et IT , vous interviendrez sur l’optimisation des traitements distribués, l’industrialisation des flux et l’automatisation des processus, afin d’améliorer la qualité et la disponibilité des données en production. Vous contribuerez également à la mise en place des meilleures pratiques en matière de Big Data Engineering et de gestion des performances des architectures distribuées.
Data Engineer Spark Scala Kafka- Monitoring Datalake Finance

Contexte & Objectifs Au sein du service Gouvernance, Administration et Monitoring de la DSI Finance, la mission vise à développer et optimiser une brique applicative de monitoring des flux et traitements de données , en lien avec le programme GASPARD . L’objectif est d’assurer la qualité de service et le respect des délais de mise à disposition des données, notamment face à l’augmentation des volumes prévue en 2024-2025. D’une durée de 6 mois , cette mission doit finaliser les travaux en cours et garantir les performances pour les futurs déploiements. L’équipe est basée à Paris , avec des interactions quotidiennes avec les équipes GASPARD à Paris et Porto . L’anglais est donc indispensable. Description & Activités Collecte et mise à disposition des données pour l’entreprise. Industrialisation et mise en production des traitements (tableaux de bord, intégration de modèles). Développement et optimisation des pipelines d’ingestion (streaming & batch). Mise en production de modèles statistiques et traitements Spark . Développement de scripts et jobs de traitement (mapping, normalisation, agrégation). Développement d’API et dashboards pour la restitution des données. Administration et configuration de clusters Hadoop et Spring Boot pour l’extraction et l’intégration des données via Kafka et Data Lake . Profil & Informations Expérience requise : 6 à 9 ans. Localisation : paris 13. Début souhaité : 03/03/2025. Mode de travail : hybride ( 2 jours sur site minimum / 10 jours de télétravail max si convention).
Datascientist - GCP - Python - Spark

Dans le cadre d'une migration vers la nouvelle plateforme Data Groupe , nous recherchons un Datascientist Python - GCP , pour renforcer les équipes de notre client. Missions : Réalisation des modèles mathématiques Réalisation des cas d’usage métiers en intelligence artificielle prédictive Entrainement des modèles Machine et Deep learning Réalisation des cas d’usages IA générative Rédaction de documentation technique Réalisation des études de performance et les tracer avant d’implémenter un quelconque modèle. Contribution à l’assistance aux utilisateurs (formation, transmission de connaissances, assistance au support de Niveau 3) et aux équipes en charge du suivi de la production.
Data Engineer Python/Spark/Deltalake

Bonjour, Dans le cadre de ses projets clients, Visian est à la recherche d'un Data Engineer Python/Spark/Deltalake. Tâches: Conception, développement et déploiement des pipelines de données efficaces pour l’extraction, la transformation et le chargement (ETL) des données, - Collaboration avec les équipes métier pour comprendre les besoins en matière de données et proposer une solution adaptée, - Etablissement des spécifications techniques à partir des besoins, - Mise en place de la collecte et la mise à disposition des données, - Garantie de la sécurisation des pipelines de données déployés, - Analyse et transformation des données pour répondre aux besoins des métiers, - Industrialisation et automatisation de la transformation des données suivants les spécifications définies, - Développement et maintien des batchs d’automatisations de traitement, - Suivi de la production et la maintenance, - Développement de l’industrialisation de modèles statistiques, - Développement des dashboards en lien avec les attentes du métier, - Rédaction et maintien de la documentation relative aux bases de données et à leur exploitation, - Accompagnement des citizens developers dans leur prise en main de la plateforme data in-house. Si vous êtes actuellement à l'écoute du marché, je vous invite à m'envoyer votre candidature. Bien à vous, Nadia
Expert Big Data - Technologies Cloudera / Hadoop / Spark / JEE

Expertise développement / outillage / intégration sur des technologies Open Source en environnement Big Data Hadoop (Cloudera). Connaissance de la solution Talend. Maîtrise des solutions de conteneurisation (openshift). Capacité à assurer l'évolution des socle Data et leur enrichissement en fonction de la roadmap stratégique définie. – Aide au diagnostic et à la résolution de problèmes – Analyse et réalisation d’outils d’aide au développement et à l'exploitation - Maintenance et évolution des solutions ETL Light (Socle Générique) et de l'offre Micro-Services Les compétences techniques requises : - Expérience significative(> 5 ans) sur les technologies de la Data - Expertise sur les technologies et API Java / JEE
Data Engineer (Big Data expert : Hadoop / Spark / JEE)

Depuis 20 ans, Huxley est positionné parmi les acteurs principaux du recrutement dans le monde. Spécialisé dans l'IT, la finance et l'assurance nous sommes implantés mondialement dans 15 pays. Nous aidons nos clients à optimiser leur recrutement en adoptant une approche personnalisée et une expertise métiers, délivrant ainsi un service sur mesure. Nous nouons quotidiennement des relations avec les talents et les entreprises les plus dynamiques du marché. Huxley est le spécialiste Banque Finance Assurance du groupe International STHREE côté en bourse au LSE, leader sur le segment STEM (Sciences Technologies Engineering and Mathematics). Détails de la prestation Compétences technologiques requises : Développement : Full Stack JEE, SQL Outillage : Eclipse, SubVersion, Jenkins Environnement : Linux Red Hat, PostGre, ELK, Open Source Apache, OpenShift / Kubernetes Technologies et langages Big Data: Cloudera, Java, Python, Json, GIT, SVN, Shell, Hadoop, Hive, Hbase, Solr, Hue, Kafka, Spark, Talend ... Les compétences fonctionnelles requises : Animation, diffusion de connaissances Rédaction et administration des documentations relatives au développement Communication sur les normes de développement, les guides d'architecture, les bonnes pratiques Contrôles et revues de code Assurance de l'exploitabilité des systèmes sur les différents environnements Aide au diagnostic et à la résolution de problèmes Analyse et réalisation d'outils d'aide au développement et à l'exploitation Maintenance et évolution des solutions ETL Light (Socle Générique) et de l'offre Micro-Services
Data Engineer (Big Data expert : Hadoop / Spark / JEE)

Depuis 20 ans, Huxley est positionné parmi les acteurs principaux du recrutement dans le monde. Spécialisé dans l'IT, la finance et l'assurance nous sommes implantés mondialement dans 15 pays. Nous aidons nos clients à optimiser leur recrutement en adoptant une approche personnalisée et une expertise métiers, délivrant ainsi un service sur mesure. Nous nouons quotidiennement des relations avec les talents et les entreprises les plus dynamiques du marché. Huxley est le spécialiste Banque Finance Assurance du groupe International STHREE côté en bourse au LSE, leader sur le segment STEM (Sciences Technologies Engineering and Mathematics). Détails de la prestation Compétences technologiques requises : Développement : Full Stack JEE, SQL Outillage : Eclipse, SubVersion, Jenkins Environnement : Linux Red Hat, PostGre, ELK, Open Source Apache, OpenShift / Kubernetes Technologies et langages Big Data: Cloudera, Java, Python, Json, GIT, SVN, Shell, Hadoop, Hive, Hbase, Solr, Hue, Kafka, Spark, Talend ... Les compétences fonctionnelles requises : Animation, diffusion de connaissances Rédaction et administration des documentations relatives au développement Communication sur les normes de développement, les guides d'architecture, les bonnes pratiques Contrôles et revues de code Assurance de l'exploitabilité des systèmes sur les différents environnements Aide au diagnostic et à la résolution de problèmes Analyse et réalisation d'outils d'aide au développement et à l'exploitation Maintenance et évolution des solutions ETL Light (Socle Générique) et de l'offre Micro-Services
DevOps-DataOps(Apache Spark)

Contexte : Dans le cadre d’un projet stratégique pour une banque de renom, nous recherchons un DevOps-DataOps pour automatiser et industrialiser les pipelines de données. Ce rôle exige une expertise avancée dans la gestion des environnements Kubernetes on-premise , ainsi qu’une forte compétence sur Apache Spark pour des traitements de données à grande échelle. Missions Principales : Installer, configurer et gérer des clusters Kubernetes on-premise , en assurant leur haute disponibilité et leur scalabilité ; Intégrer Kubernetes avec des outils de traitement de données tels qu’Apache Spark , en optimisant les performances et la résilience des pipelines de données ; Déployer et gérer des microservices et des workflows complexes sur Kubernetes, en assurant leur intégration fluide dans des pipelines CI/CD ; Automatiser le traitement des données avec Apache Spark (PySpark, Spark SQL, Spark Streaming), tout en optimisant les performances des jobs et leur interaction avec des plateformes comme Databricks ou EMR ; Concevoir et déployer des pipelines CI/CD robustes (Jenkins, GitLab CI, ArgoCD) pour des flux de données critiques, incluant des processus d’automatisation des tests et des déploiements ; Implémenter des solutions de monitoring avancées pour Kubernetes et Spark (Prometheus, Grafana, CloudWatch), en mettant l’accent sur le scaling automatique et la gestion proactive des performances ; Déployer des stratégies de sauvegarde et de restauration des données, en garantissant la résilience des systèmes face aux défaillances.
Data Engineer confirmé (3 à 7 ans d’expérience)

Dans le cadre d’un programme de transformation data au sein d’un acteur majeur du secteur de la distribution, nous recherchons un(e) Data Engineer expérimenté(e) pour renforcer les équipes d’une plateforme Data structurée autour d’une architecture « data-centric ». Cette plateforme vise à décloisonner les silos d’information et à fournir des données en temps réel via API à l’ensemble de l’écosystème métier et SI, dans une logique de convergence entre décisionnel et opérationnel. Vos responsabilités Intégré(e) à l’équipe data, vous serez chargé(e) de concevoir, développer et maintenir des pipelines de traitement de données à grande échelle, en environnement cloud. Vous interviendrez à la croisée des enjeux techniques et métiers, dans un environnement résolument agile et orienté performance. Missions principales développer et maintenir des flux de données batch et temps réel (BigQuery, BigTable, Apache Kafka, Apache Spark) concevoir des pipelines évolutifs et robustes en lien étroit avec les équipes techniques optimiser les processus d’acquisition, de transformation et de stockage des données assurer la haute disponibilité et les performances en production dans une démarche DevOps contribuer à la définition de l’architecture microservices et à l’amélioration continue rédiger et maintenir les tests unitaires et d’intégration produire des livrables de qualité et assurer un reporting clair et régulier proposer des pistes d’amélioration (refactoring, simplification, industrialisation) Compétences techniques requises langages : très bonne maîtrise de Java ; la connaissance de Scala est un atout apprécié, mais non bloquant traitement de flux et Big Data : bonne expérience avec Apache Kafka et Apache Spark cloud : expérience sur GCP (BigQuery, Dataproc, Kubernetes...) ou environnement cloud équivalent CI/CD : pratique de Git et des outils d’intégration/déploiement continus (GitLab CI/CD ou similaire) architecture & DevOps : bonne culture des microservices et des pratiques DevOps qualité logicielle : rigueur dans l’écriture de tests et dans le maintien de la qualité du code Soft skills attendus esprit d’équipe et capacité à collaborer dans un environnement distribué communication fluide, écrite comme orale sens de l’analyse et capacité à challenger l’existant avec bienveillance autonomie et proactivité dans la résolution de problèmes
Développeur Big Data Hadoop/PySpark/Python - 3 à 6 ans

🏭 Secteurs stratégiques : Banque d’investissement 🗓 Démarrage : ASAP 💡 Contexte /Objectifs : Le département a lancé un programme stratégique, qui comporte plusieurs projets d'harmonisation des processus et outils. L'un de ces streams a pour vocation de constituer un datalake sur une stack Hadoop, afin de servir les besoins en data et reporting. Ce datalake a également pour vocation de devenir la brique centrale de l'architecture du SI . Nous recherchons un profil Hadoop / PySpark qui sera en charge, en lien avec l'équipe de production applicative / devops, de mettre en œuvre techniquement les évolutions du datalake. Passionné par les données, capable de s’adapter à un environnement dynamique et en constante évolution, le prestataire doit faire preuve d'autonomie, d'initiative et d'une forte capacité d'analyse pour résoudre des problèmes complexes. 🤝Principales missions : Les tâches suivantes seront confiés au consultant : • Mettre en œuvre de nouvelles ingestions de données, data prep/transformation • Maintenir et faire évoluer nos outils de gestion des pipeline de données (Pyspark + shell scripting) • Adresser à l'équipe devops les demandes relatives aux évolutions de la plateforme • Eventuellement mettre en œuvre une couche d'APIs afin d'exposer nos données
Ingénieur DEVOPS / Spécialiste MLOps
Nous recherchons un(e) Ingénieur(e) DEVOPS / Spécialiste MLOps pour rejoindre notre équipe dans le cadre d’une mission stratégique visant à optimiser et déployer des solutions Data au sein du Groupe. Les principales responsabilités incluent : Mise en œuvre opérationnelle et technique des produits Data : Industrialiser et automatiser le déploiement de la plateforme Dataiku. Tester et maintenir la plateforme afin de garantir sa sécurité, sa résilience et sa disponibilité, en respectant les engagements pris avec les différentes entités du Groupe. Documenter les travaux réalisés pour un usage interne ou pour la présentation de l’offre aux entités. Accompagner les métiers dans leur prise en main de la plateforme. Gérer les incidents en respectant les engagements définis dans l’offre. Gestion de projet : Être le point de contact opérationnel privilégié pour les clusters et/ou entités. Participer à l’élaboration des formations et des présentations destinées aux référents des clusters et entités consommatrices (ou potentiellement consommatrices) de l’offre. Contribuer aux réunions de co-construction de la roadmap et à sa mise en œuvre. Prendre le lead sur des aspects ou fonctionnalités techniques identifiés de l’offre. Participer ou réaliser des démonstrations et des WebTech autour de la plateforme MLOps. S’impliquer dans l’ensemble des rituels de la Squad, de la plateforme et du socle technique.
Data Engineer Big Data (H/F)

Contexte : 3 jours sur site en périphérie lyonnaise + 2 jours télétravail Les missions attendues par le Data Engineer Big Data (H/F) : Notre domaine fournit les services IT pour l’activité Professional Coffee Machine (PCM) : Digital Platform PCM, un datalake Azure dédié et des reportings pour nos clients et équipes internes (hors scope de la recherche) Back-office process (ERP et Field Service Management) : des reportings corporate et locaux sous SAP BW, Analysis for Office ou encore Qlik Sense DATA ENGINEER CONFIRME Dans le cadre de la Digital Platform PCM, nous recherchons un·e Data Engineer confirmé·e qui aura pour missions de prendre en charge des tâches de développement sur des projets de build pour fournir les data pipelines du Datalake et d’intervenir sur le maintien en condition opérationnelle du Datalake. Les développements réalisés permettent aux développeurs Qlik Sense et Azure Dashboard de construire les reports adéquates pour nos clients. Une expérience requise dans ce type d’environnement de 3 ans minimum est pré-requise. Contexte de la mission La mission s’opère en 3 jours sur site et 2 jours en télétravail. Le site est situé à Ecully dont 2 jours au campus et 1 journée au 4M. La mission est un remplacement temporaire d'un membre de l'équipe actuellement composée de 2 Data Engineer et pour une durée de 6 mois minimum. Démarrage souhaitée fin avril/début mai pour une date de fin prévisionnelle fin novembre 2025.
Déposez votre CV
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Derniers posts sur le forum
- Proposition de CDI en tant que freelanceil y a une heure
- SASU IR : Hiway et versement résultatsil y a 2 heures
- Présentation du projet : Levée de fonds pour l’acquisition et le développement d’un gîte 2.0 dans le Varil y a 6 heures
- Prime de partage de la valeur (ex Prime Macron)il y a 7 heures
- Trésorerie SASU : Comment gérer les premiers mois ?il y a 11 heures
- Questionnement Client final /Apporteur d'affaires / Salarié portéil y a 14 heures