Trouvez votre prochaine offre d’emploi ou de mission freelance PySpark
Senior Data Analyst / Fin Ops H/F
Streamlink propose des solutions sur mesure et innovantes sur l’ensemble du cycle de développement des solutions Data, CRM / SAP, Dév & APPS, Cybersécurité, Cloud & infrastructures. Grâce à un réseau d’excellence à travers le Monde, basé entre Tunis (Tunisie) – Paris (France) – Port Louis (Maurice) , Streamlink favorise l'innovation digitale de ses clients. Streamlink, un environnement très agile et en forte croissance recherche pour un client dans le secteur BFA un Senior Data Engineer - Lead / Dev Lead Pyspark / Fin Ops Prestation attendues : • Analyser et cartographier, avec les experts métiers et l'équipe de développement, le pipeline de données actuel : les modèles de données des différentes base de données utilisées; les flux de données qui existent entre les différentes sources de données (lignage des données); les règles de validation, de filtrage de calcul actuellement en place lors des transferts de données • Assister les architectes dans la définition du nouveau pipeline de données en s'appuyant sur les service cloud • Appuyer l'équipe de développement dans la réalisation de la nouvelle solution : Mise en place en place de la solution et des bonnes pratiques associées ; Culture du data engineering ; Expertise sur l'outillage data mise en place (ETL, base de données, PySpark , Glue) • Être un métronome de l'agilité Compétences Techniques : • Catalogue des données consommées et produites et des règles de transformation associées • Solution pour alimenter Pluri en données provenant de plusieurs SI partenaires Compétences techniques requises : • Expertise dans l'outillage de stockage des données (base de données, fichiers) et le traitement des données (ETL, Spark) • Expertise Spark, quelque soit le langage de prédilection (Python, Scala , Python). • Maitrise des bonnes pratiques de développements et de la mise en oeuvre des outils liées à la data. • Maîtrise des technologies du Big Data, des problématiques liées à la volumétrie et aux performances • Maîtrise des outils de gestion de code (Git) et de déploiement projet (Terraform) • Connaissance de DataBricks • Connaissance du cloud Azure Savoir Faire: • Esprit analytique, rigueur et aisance relationnelle • Appétence et curiosité pour les nouvelles technologies, le Système d’Information et l’Agilité. Expériences professionnelles requises : • Plusieurs expertise significatives dans l'analyse de données et la mise en place de pipelines qu'ils soient de type batch/ETL ou événementiel/streaming • Mise en oeuvre des outils disponibles dans le cloud AWS pour stocker et traiter de la données: Glue, Spark, Airflow, RDS, OpenSearch, S3 Parquet Ce poste est ouvert aux personnes en situation de Handicap
Developpeur Python - Expertise Pyspark

Nous recherchons un Développeur Python expérimenté pour rejoindre notre client dans le secteur de l'énergie. En tant que développeur Python, vous serez chargé de participer à plusieurs projets innovants et stratégiques dans un environnement technique de haut niveau. Vous travaillerez en étroite collaboration avec les équipes internes et externes pour développer des solutions logicielles permettant d'optimiser les processus énergétiques. Le poste est à pourvoir dès début mai , avec un démarrage flexible en fonction de la disponibilité du candidat.
Data Engineer / Data Scientist (Expert Python)

Pour une startup dans le domaine de l'énérgie fialiale d'un grand groupe, Le projet vise à consommer des modèles ML sur des données structurées, les transformer, et les intégrer dans des bases relationnelles ou des stockages type S3. Nous recherchons un profil hybride Data Engineer / Data Scientist , avec une expertise forte en Python , capable d’intégrer des algorithmes de Machine Learning dans des traitements batch. Le projet vise à consommer des modèles ML sur des données structurées, les transformer, et les intégrer dans des bases relationnelles ou des stockages type S3. Python (expertise avancée) PySpark , en particulier pour l'exécution de traitements ML batch Bonne compréhension des algorithmes de Machine Learning et de leur mise en production Bases de données relationnelles (PostgreSQL, MySQL, etc.) Stockage cloud : S3 ou équivalent Connaissance des bonnes pratiques de développement (structuration du code, logging, tests, performance)
Data Engineer Palantir
Orcan Intelligence recherche pour l’un de ses clients un consultant Data Engineer Palantir expérimenté (+5 ans) pour intervenir sur les missions suivantes: Développer des pipelines de données pour nos fondations dans Palantir Foundry Construire, maintenir et documenter des pipelines, notamment pour l'intégration de données dans notre modèle analytique (architecture medallion). Etablir des Contrôles de qualité, tests,........etc
Développeur Big Data Hadoop/PySpark/Python - 3 à 6 ans

🏭 Secteurs stratégiques : Banque d’investissement 🗓 Démarrage : ASAP 💡 Contexte /Objectifs : Le département a lancé un programme stratégique, qui comporte plusieurs projets d'harmonisation des processus et outils. L'un de ces streams a pour vocation de constituer un datalake sur une stack Hadoop, afin de servir les besoins en data et reporting. Ce datalake a également pour vocation de devenir la brique centrale de l'architecture du SI . Nous recherchons un profil Hadoop / PySpark qui sera en charge, en lien avec l'équipe de production applicative / devops, de mettre en œuvre techniquement les évolutions du datalake. Passionné par les données, capable de s’adapter à un environnement dynamique et en constante évolution, le prestataire doit faire preuve d'autonomie, d'initiative et d'une forte capacité d'analyse pour résoudre des problèmes complexes. 🤝Principales missions : Les tâches suivantes seront confiés au consultant : • Mettre en œuvre de nouvelles ingestions de données, data prep/transformation • Maintenir et faire évoluer nos outils de gestion des pipeline de données (Pyspark + shell scripting) • Adresser à l'équipe devops les demandes relatives aux évolutions de la plateforme • Eventuellement mettre en œuvre une couche d'APIs afin d'exposer nos données
DEV LEAD DATA ENGINEER PYSPARK / DATABRICKS / AZURE

Bonjour, Pour le compte de notre client, nous recherchons un Tech lead data engineer Pyspark / Azure / Databricks. La mission est constituée à 50% de Scrum / agilité et à 50% d'expertise technique. Il faut à la fois maitriser absolument la méthodologie agile et une première expérience en tant que Dev Lead. Ci-après les tâches à maitriser et à réaliser : Gestion de l’équipe de développement et suivi opérationnel Le Dev Lead Data Engineer est plus orienté gestion d’équipe et suivi du delivery . Il assure que les projets avancent et que les objectifs sont atteints. 🎯 Principales responsabilités : ✅ Superviser le travail des Data Engineers et assurer leur productivité ✅ Organiser les cérémonies Agile (Daily, Sprint Planning, Retro, Review) ✅ Prioriser les tâches en lien avec le Product Owner ou les Business Units ✅ Assurer le suivi des deadlines et de la vélocité de l’équipe ✅ Identifier les risques et blocages techniques ✅ Collaborer avec le Tech Lead pour aligner les objectifs techniques et business Ci-après les tâches à maitriser côté technique : 1️⃣ Analyse et Conception Étudier les besoins métiers et concevoir l’architecture des pipelines de données en intégrant des modèles adaptés aux cas d’usage. Définir la stratégie technique, valider les choix d’architecture et assurer leur cohérence avec les exigences métier et techniques. 2️⃣ Développement des Pipelines Développer et optimiser des pipelines ETL/ELT avec PySpark , intégrer diverses sources de données (SQL, NoSQL, APIs, fichiers) et garantir leur performances Assurer les bonnes pratiques de développement, réaliser des revues de code et encadrer les développeurs juniors. 3️⃣ Gestion des Environnements Cloud Configurer et gérer les clusters Databricks , orchestrer les flux de données avec Azure Data Factory / Databricks Workflows et stocker les données dans Azure Data Lake . Optimiser la gestion des ressources cloud, mettre en place des standards pour le provisioning des environnements et superviser les décisions liées aux coûts et performances. 4️⃣ Optimisation et Performance Améliorer l’exécution des jobs avec Delta Lake , optimiser le code PySpark (partitioning, caching, joins...) et mettre en place du monitoring. Définir et promouvoir les meilleures pratiques d’optimisation et de monitoring, analyser les bottlenecks et proposer des solutions adaptées à grande échelle.
développeur pyspark

Le Data Engineer est un développeur au sein de l’équipe Data Delivery de la Data Factory, qui regroupe l’ensemble des expertises technologiques liées à l’ingénierie de la donnée. Cette Factory est dédiée au service du clientet de ses équipes (Data and AI office, Tribus, Business, Transformation Office etc.), afin de fournir, les plateformes Data et les données nécessaires aux équipes chargées de délivrer les cas d’usages, puis les déployer et les maintenir en conditions opérationnelles. Vous serez directement rattaché(e) au Responsable de l’équipe Data Delivery au sein du Data and AI Office Vous allez contribuer directement aux projets des directions métier (ex : Fraude santé, Pricing IARD, Optimisation du lead management, Fragilité Auto, …) La Direction Transformation Digital Tech : - Une organisation agile en feature teams : tribus, guildes, squads - Des projets sur des applications innovantes à fort trafic (web, mobile…) - Des méthodologies craft (TDD, BDD, clean code, code review…) et DevOps - Une communauté de partage de bonnes pratiques (BBL, dojo, meetup, conf…) Votre rôle et vos missions : Initiation au développement de projets Big Data demandés par le métier en mode Agile, et notamment : • Passer de la donnée brute à de la donnée exploitable, exposée sous forme de tables requêtables dans le Datalake • Consolider ces données au fur et à mesure de leur alimentation récurrente dans le Datalake • Les exploiter pour atteindre la finalité business (exposition de Business View, réintégration des résultats dans le SI, service de scoring, …) • De mettre en place et de garantir le respect dans la durée d'un processus qualité sur l'ensemble du cycle de DEV (documents, tests unitaires / intégration / fonctionnels, commentaires, versionning, etc.)
Data Engineer GCP (H/F)

Contexte de la mission : Nous recherchons un(e) Data Engineer confirmé(e) pour intégrer une équipe agile dédiée à la mise en place et à l’industrialisation de pipelines de données sur la plateforme GCP. Vous interviendrez sur des projets stratégiques autour de la valorisation des données métiers (finance, risque, conformité, etc.). Vos missions : Conception, développement et optimisation de pipelines de données scalables sur Google Cloud Platform (GCP) Intégration et transformation des données issues de diverses sources (BigQuery, Pub/Sub, Cloud Storage, etc.) Utilisation de Apache Spark pour le traitement de gros volumes de données Orchestration des workflows avec Apache Airflow (Cloud Composer) Collaboration avec les Data Analysts, Data Scientists et les équipes métiers pour répondre aux besoins data Mise en place de bonnes pratiques de développement (CI/CD, tests, monitoring, documentation) Participation à l’évolution de la plateforme data et contribution à l’amélioration continue des process Compétences techniques attendues : Langage : Python (maîtrise indispensable) Traitement de données : Apache Spark (PySpark) Orchestration : Airflow (Cloud Composer) Cloud : GCP (BigQuery, Cloud Storage, Dataflow, Pub/Sub...) Outils : Git, Docker, Terraform (atout), CI/CD (GitLab CI, Jenkins...) Méthodologie : Agile/Scrum, DevOps
Test Lead Pyspark / Python
Nous recherchons un Test Lead Senior pour travailler au sein de la Tribu Finance / Domaines Risques pour intervenir sur l’outil Extractor. Extractor est un outil de construction des models points d’actifs, qui sert pour les travaux d’arrêtés Solvabilité 2 ainsi que pour diverses études et demandes internes émanant du Groupe et du régulateur. A son arrivée, le testeur commencera par travailler sur la refonte d'Extractor qui permettra de sortir d'un client lourd accessible via citrix pour basculer vers une solution datalake (les développements sont réalisés par une équipe interne). Une fois cette bascule mise en œuvre, des versions seront agendées pour faire évoluer l'application en fonction des besoins métiers, du réglementaire, … Nous souhaiterions également que le Test Lead (au-delà de ses activités de testeur) puisse endosser le rôle de Scrum Master pour mettre en place et suivre les bonnes pratiques Agile (participation au découpage des versions, à la mise en place des rituels Agile, des livrables, …). Il devra être également un référent pour acculturer son équipe aux bonnes pratiques de test. == Activités prises en charge : Mise en place des stratégies de test Conception des tests et exécution Gestion des anomalies Production des KPI de suivi de l’activité de test Rédaction des PV de fin de phase Respect des processus de test définis par la Guilde et utilisation de l’outillage de test préconisé (ex : X-Ray) Organisation des campagnes de tests en pilotant / intégrant des acteurs métier Être force de proposition sur une automatisation éventuelle de tests et sur une amélioration continue des pratiques de test Mise en place et suivi des pratiques Agile Mise en place d’une documentation pour capitaliser sur le périmètre de test Expertise souhaitée == Compétences techniques minimales requises : Maitrise d’Excel Connaissances en Python/Pyspark, Azure, Datalake… Maitrise de JIRA et X-Ray
Data Engineer Palantir

Le Data Engineer sera chargé de construire, livrer et maintenir des produits de données (pipelines de données, services, API...). Il travaillera en étroite collaboration avec les équipes de produits pour développer de nouvelles fonctionnalités liées à ces produits, notamment des fonctionnalités liées à l'acheminement des données au sein ou entre plusieurs produits, aux capacités analytiques et d'entreposage pour l'exploration des données, la science des données, le BI, le calcul parallèle sur de grands volumes de données.
DEV LEAD DATA ENGINEER PYSPARK / DATABRICKS / AZURE

Bonjour, Pour le compte de notre client, nous recherchons un Tech lead data engineer Pyspark / Azure / Databricks. La mission est constituée à 50% de Scrum / agilité et à 50% d'expertise technique. Il faut à la fois maitriser absolument la méthodologie agile et une première expérience en tant que Dev Lead. Ci-après les tâches à maitriser et à réaliser : Gestion de l’équipe de développement et suivi opérationnel Le Dev Lead Data Engineer est plus orienté gestion d’équipe et suivi du delivery . Il assure que les projets avancent et que les objectifs sont atteints. 🎯 Principales responsabilités : ✅ Superviser le travail des Data Engineers et assurer leur productivité ✅ Organiser les cérémonies Agile (Daily, Sprint Planning, Retro, Review) ✅ Prioriser les tâches en lien avec le Product Owner ou les Business Units ✅ Assurer le suivi des deadlines et de la vélocité de l’équipe ✅ Identifier les risques et blocages techniques ✅ Collaborer avec le Tech Lead pour aligner les objectifs techniques et business Ci-après les tâches à maitriser côté technique : 1️⃣ Analyse et Conception Étudier les besoins métiers et concevoir l’architecture des pipelines de données en intégrant des modèles adaptés aux cas d’usage. (Tech Lead) Définir la stratégie technique, valider les choix d’architecture et assurer leur cohérence avec les exigences métier et techniques. 2️⃣ Développement des Pipelines Développer et optimiser des pipelines ETL/ELT avec PySpark , intégrer diverses sources de données (SQL, NoSQL, APIs, fichiers) et garantir leur performance. (Tech Lead) Assurer les bonnes pratiques de développement, réaliser des revues de code et encadrer les développeurs juniors. 3️⃣ Gestion des Environnements Cloud Configurer et gérer les clusters Databricks , orchestrer les flux de données avec Azure Data Factory / Databricks Workflows et stocker les données dans Azure Data Lake . (Tech Lead) Optimiser la gestion des ressources cloud, mettre en place des standards pour le provisioning des environnements et superviser les décisions liées aux coûts et performances. 4️⃣ Optimisation et Performance Améliorer l’exécution des jobs avec Delta Lake , optimiser le code PySpark (partitioning, caching, joins...) et mettre en place du monitoring. (Tech Lead) Définir et promouvoir les meilleures pratiques d’optimisation et de monitoring, analyser les bottlenecks et proposer des solutions adaptées à grande échelle.
Expert Teradata / Pyspark
Bonjour, Pour un de mes clients, je suis à la recherche Profil Teradata & PySpark | Pour une Mission Long Terme. 📍 Lieu : 2 jours de déplacement par semaine à Tours (reste en télétravail) 📅 Durée : 6 mois renouvelables (long terme) 🕒 Disponibilité : ASAP 🌍 Langue : Bon niveau d’ anglais requis 🔹 Compétences requises : ✔ Expertise Teradata ✔ Maîtrise de PySpark ✔ Expérience en traitement et manipulation de données à grande échelle ✔ Capacité à travailler en environnement international Je reste à disposition pour toutes informations complémentaires. Bien cdt,
DEV LEAD DATA ENGINEER PYSPARK / DATABRICKS / AZURE

Bonjour, Pour le compte de notre client, nous recherchons un Tech lead data engineer Pyspark / Azure / Databricks. La mission est constituée à 50% de Scrum / agilité et à 50% d'expertise technique. Il faut à la fois maitriser absolument la méthodologie agile et une première expérience en tant que Dev Lead. Ci-après les tâches à maitriser et à réaliser : Gestion de l’équipe de développement et suivi opérationnel Le Dev Lead Data Engineer est plus orienté gestion d’équipe et suivi du delivery . Il assure que les projets avancent et que les objectifs sont atteints. 🎯 Principales responsabilités : ✅ Superviser le travail des Data Engineers et assurer leur productivité ✅ Organiser les cérémonies Agile (Daily, Sprint Planning, Retro, Review) ✅ Prioriser les tâches en lien avec le Product Owner ou les Business Units ✅ Assurer le suivi des deadlines et de la vélocité de l’équipe ✅ Identifier les risques et blocages techniques ✅ Collaborer avec le Tech Lead pour aligner les objectifs techniques et business Ci-après les tâches à maitriser côté technique : 1️⃣ Analyse et Conception Étudier les besoins métiers et concevoir l’architecture des pipelines de données en intégrant des modèles adaptés aux cas d’usage. (Tech Lead) Définir la stratégie technique, valider les choix d’architecture et assurer leur cohérence avec les exigences métier et techniques. 2️⃣ Développement des Pipelines Développer et optimiser des pipelines ETL/ELT avec PySpark , intégrer diverses sources de données (SQL, NoSQL, APIs, fichiers) et garantir leur performance. (Tech Lead) Assurer les bonnes pratiques de développement, réaliser des revues de code et encadrer les développeurs juniors. 3️⃣ Gestion des Environnements Cloud Configurer et gérer les clusters Databricks , orchestrer les flux de données avec Azure Data Factory / Databricks Workflows et stocker les données dans Azure Data Lake . (Tech Lead) Optimiser la gestion des ressources cloud, mettre en place des standards pour le provisioning des environnements et superviser les décisions liées aux coûts et performances. 4️⃣ Optimisation et Performance Améliorer l’exécution des jobs avec Delta Lake , optimiser le code PySpark (partitioning, caching, joins...) et mettre en place du monitoring. (Tech Lead) Définir et promouvoir les meilleures pratiques d’optimisation et de monitoring, analyser les bottlenecks et proposer des solutions adaptées à grande échelle.
Data Engineer

Descriptif de la mission Notre Client recherche pour cette mission un data Engineer Le Client évolue dans un environnement technique Microsoft cloud Azure avec une architecture orientée Big Data avec un Data Lake (Sparks) alimentant des cubes tabulaires. Power BI est l’outil de reporting du groupe. Les tâches au quotidien seront : - Réaliser les projets BI de bout en bout sous la supervision du Tech lead - Assurer les projets pour l'ensemble de l'activité Client, Finance, Ticketing, Salesforce etc... - Assurer du support utilisateur - Documenter ses réalisations et procédures support Les compétences requises pour cette mission sont : - Justifier d'une expérience d'au moins 4 ans dans ce domaine - Disposer d'une bonne connaissance de la Stack AZURE - Azure Data FACTORY - AZure Databricks - Azure Analysis Services et modélisation de cubes (Tabulaires principalement) - Justifier d'une bonne connaissance du langage SQL - Avoir une excellente connaissance de Python et de PySpark - Avoir de bonnes connaissances de POWER BI et de DAX - Justifier d'une expérience de méthodologie DevOps / CI/CD
data scientist pyspark et pandas

Il définit les politiques de l’IT et coordonne leur mise en place. GIT regroupe l’ensemble des DSI en charge du développement et de la production des systèmes d’information et des infrastructures technologiques de la Banque. Afin de répondre aux exigences réglementaires de lutte anti blanchiment la l'équipe mène un programme de déploiement de son dispositif de monitoring. Mission au sein, qui intervient sur le Programme AML, notamment à travers de solutions editeurs framework IA et des solutions packagées d’AML intégrant des capacités de machine learning. Mission à Montrouge
DATA ENGINEER DATAMARTS F/H | NANTES (44)

VOTRE QUOTIDIEN RESSEMBLERA A… Vous rejoignez notre client et interviendrez sur l'alimentation des datamarts. A ce titre, vous serez en charge de : Comprendre l’activité et les attentes des utilisateurs, en lien avec la MOA et les équipes métiers. Appréhender le SI de production et échanger avec les équipes techniques pour assurer une bonne intégration des solutions. Structurer les données via des modèles adaptés (ex : schéma en étoile, tables de dimensions). Développer des traitements d’alimentation Concevoir et modéliser des schémas de données. Créer et alimentation des datamarts (ex : via DBT). Mettre en place de processus CDC. Gérer les anomalies et assurer la maintenance Accompagner les équipes métiers et rédiger la documentation technique. Environnement Technique : Business Object, BI, Semarchy, Talend, AWS, Amazon RedShift, PySpark, SQL, Power Designer Le poste est basé à Nantes (44) . Dans le cadre de vos fonctions, vous pourrez bénéficier de 1 jour de télétravail par semaine après votre période d'intégration.
Déposez votre CV
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
Derniers posts sur le forum
- Comment trouver un expert comptable ?il y a 37 minutes
- Blacklist de freelances ??il y a 39 minutes
- L'impact de l'immigration sur les TJMil y a 40 minutes
- Pourquoi choisir une ESN ?il y a 2 heures
- micro entreprise en IT mais déclaré en activité commercialil y a 3 heures
- Comment trouver un bon expert comptable ?il y a 13 heures