Trouvez votre prochaine offre d’emploi ou de mission freelance Apache Airflow

PySpark

08/04/2025

BK CONSULTING

Contexte de la mission : Nous recherchons un(e) Data Engineer confirmé(e) pour intégrer une équipe agile dédiée à la mise en place et à l’industrialisation de pipelines de données sur la plateforme GCP. Vous interviendrez sur des projets stratégiques autour de la valorisation des données métiers (finance, risque, conformité, etc.). Vos missions : Conception, développement et optimisation de pipelines de données scalables sur Google Cloud Platform (GCP) Intégration et transformation des données issues de diverses sources (BigQuery, Pub/Sub, Cloud Storage, etc.) Utilisation de Apache Spark pour le traitement de gros volumes de données Orchestration des workflows avec Apache Airflow (Cloud Composer) Collaboration avec les Data Analysts, Data Scientists et les équipes métiers pour répondre aux besoins data Mise en place de bonnes pratiques de développement (CI/CD, tests, monitoring, documentation) Participation à l’évolution de la plateforme data et contribution à l’amélioration continue des process Compétences techniques attendues : Langage : Python (maîtrise indispensable) Traitement de données : Apache Spark (PySpark) Orchestration : Airflow (Cloud Composer) Cloud : GCP (BigQuery, Cloud Storage, Dataflow, Pub/Sub...) Outils : Git, Docker, Terraform (atout), CI/CD (GitLab CI, Jenkins...) Méthodologie : Agile/Scrum, DevOps

Démarrage Dès que possible

Salaire 40k-54k €⁄an

Télétravail Télétravail partiel

Lieu Paris, France

Freelance

CDI

CDD

Expert Infra Cloud et Big Data

Cloud

08/04/2025

OMICRONE

Au sein d'une organisation dynamique dans le domaine du numérique, vous interviendrez sur la gestion et l’optimisation d’infrastructures cloud, ainsi que sur la gestion de plateformes de données à grande échelle. Vous serez responsable de l’industrialisation et de l’automatisation des services cloud pour garantir leur performance et leur évolutivité. Compétences techniques requises : Expertise dans les environnements cloud public (AWS, GCP, OVH) avec une préférence pour GCP . Maîtrise des outils d’automatisation et d'industrialisation des infrastructures ( Puppet , Ansible , Terraform ). Solides compétences en Big Data et technologies associées (notamment Spark , Python , Hadoop , SQL ). Expérience avec des solutions de déploiement et d’orchestration ( Jenkins , GitLab , Airflow ). Bonne culture des systèmes Unix/Linux et des environnements virtualisés. Compétences complémentaires appréciées : Expérience avec des architectures Data telles que Lakehouse et Datalake . Connaissance des solutions de stockage et traitement des données (ex : Delta , Parquet , DBT , BigQuery ). Bonne maîtrise des concepts systèmes , réseaux et virtualisation . Expérience sur des sites web à fort trafic .

Démarrage Dès que possible

Durée 1 an

Salaire 40k-45k €⁄an

TJM 400-620 €⁄j

Télétravail Télétravail partiel

Lieu Paris, France

Freelance

Senior Data Analyst / Fin Ops H/F

PySpark

18/04/2025

Streamlink

Streamlink propose des solutions sur mesure et innovantes sur l’ensemble du cycle de développement des solutions Data, CRM / SAP, Dév & APPS, Cybersécurité, Cloud & infrastructures. Grâce à un réseau d’excellence à travers le Monde, basé entre Tunis (Tunisie) – Paris (France) – Port Louis (Maurice) , Streamlink favorise l'innovation digitale de ses clients. Streamlink, un environnement très agile et en forte croissance recherche pour un client dans le secteur BFA un Senior Data Engineer - Lead / Dev Lead Pyspark / Fin Ops Prestation attendues : • Analyser et cartographier, avec les experts métiers et l'équipe de développement, le pipeline de données actuel : les modèles de données des différentes base de données utilisées; les flux de données qui existent entre les différentes sources de données (lignage des données); les règles de validation, de filtrage de calcul actuellement en place lors des transferts de données • Assister les architectes dans la définition du nouveau pipeline de données en s'appuyant sur les service cloud • Appuyer l'équipe de développement dans la réalisation de la nouvelle solution : Mise en place en place de la solution et des bonnes pratiques associées ; Culture du data engineering ; Expertise sur l'outillage data mise en place (ETL, base de données, PySpark , Glue) • Être un métronome de l'agilité Compétences Techniques : • Catalogue des données consommées et produites et des règles de transformation associées • Solution pour alimenter Pluri en données provenant de plusieurs SI partenaires Compétences techniques requises : • Expertise dans l'outillage de stockage des données (base de données, fichiers) et le traitement des données (ETL, Spark) • Expertise Spark, quelque soit le langage de prédilection (Python, Scala , Python). • Maitrise des bonnes pratiques de développements et de la mise en oeuvre des outils liées à la data. • Maîtrise des technologies du Big Data, des problématiques liées à la volumétrie et aux performances • Maîtrise des outils de gestion de code (Git) et de déploiement projet (Terraform) • Connaissance de DataBricks • Connaissance du cloud Azure Savoir Faire: • Esprit analytique, rigueur et aisance relationnelle • Appétence et curiosité pour les nouvelles technologies, le Système d’Information et l’Agilité. Expériences professionnelles requises : • Plusieurs expertise significatives dans l'analyse de données et la mise en place de pipelines qu'ils soient de type batch/ETL ou événementiel/streaming • Mise en oeuvre des outils disponibles dans le cloud AWS pour stocker et traiter de la données: Glue, Spark, Airflow, RDS, OpenSearch, S3 Parquet Ce poste est ouvert aux personnes en situation de Handicap

Démarrage Dès que possible

Durée 1 an

TJM 490-650 €⁄j

Télétravail Télétravail partiel

Lieu Paris, France

Freelance

CDI

Data engineer

+1

SQL

01/04/2025

OMICRONE

📢 Offre d’Emploi – Data Engineer (Freelance) 🔎 Nous recherchons un Data Engineer expérimenté pour une mission passionnante au sein d’une équipe technique innovante dans un environnement Google Cloud Platform (GCP) . 🎯 Missions principales : ✔️ Développement et optimisation de pipelines de données (ETL/ELT) ✔️ Modélisation et industrialisation des données ✔️ Mise en place et évolution des indicateurs de performance ✔️ Optimisation des coûts et des performances sur BigQuery ✔️ Collaboration avec les équipes Data et Ops pour améliorer la plateforme 🛠 Stack technique : 🔹 Cloud : Google Cloud Platform (GCP) 🔹 Orchestration : Airflow 🔹 Modélisation : DBT (gestion de tables incrémentales) 🔹 CI/CD & Infra : GitLab CI/CD, Terraform, Terragrunt, Docker 🔹 Langages : SQL, Python 💡 Profil recherché : ✅ +5 ans d’expérience en Data Engineering ✅ Maîtrise des environnements GCP, BigQuery, Airflow et DBT ✅ Solides compétences en SQL et Python ✅ Expérience avec l’ industrialisation de pipelines et l’optimisation des performances ✅ Bonne connaissance des méthodes Agile (Scrum, Kanban) ✅ Esprit d’analyse, capacité à vulgariser et à collaborer avec les équipes métier 📍 Localisation : Paris (Présence sur site 50%) 📅 Démarrage : mi-avril

Démarrage Dès que possible

Durée 1 an

Salaire 40k-45k €⁄an

TJM 400-550 €⁄j

Télétravail Télétravail partiel

Lieu Paris, France

CDI

Freelance

Analytics Engineer / Data Engineer GCP | Télétravail Hybride

BigQuery

+1

BigQuery

Microsoft SQL Server

31/03/2025

skiils

Nous recherchons un Data Engineer pour rejoindre une équipe technique travaillant sur un produit data clé permettant la mise à disposition des données pour les dashboards internes. Ce projet s’appuie sur la Google Cloud Platform (GCP) et une stack moderne orientée DBT, Airflow, BigQuery et Terraform . Missions Concevoir, développer et maintenir les pipelines de données Développer des modèles de données optimisés pour l’analyse et le reporting Assurer la qualité et la fiabilité des indicateurs et métriques utilisés par les équipes métier Auditer, cartographier et optimiser les données existantes pour une meilleure performance et gouvernance Collaborer avec les équipes techniques et fonctionnelles pour améliorer la stack et les performances Participer aux phases de cadrage, planification et veille technologique

Démarrage Dès que possible

Durée 2 ans

Télétravail Télétravail partiel

Lieu France

Freelance

Architect Data ( H/F)

+1

19/03/2025

ALLEGIS GROUP

🔎 Opportunité Freelance – Architecte Data (Snowflake / AWS / Airflow / Hadoop) 🔎 Missions: 🔹 Architecturer la migration Hadoop → Snowflake , en garantissant l'intégrité des données et en minimisant les interruptions 🔹 Concevoir un nouveau modèle de données optimisé pour Snowflake (passage de la 3NF à un modèle dimensionnel) 🔹 Mettre en œuvre et optimiser les processus de transformation des données avec DBT 🔹 Orchestrer les flux de données à l'aide d' Apache Airflow 🔹 Collaborer avec les équipes métiers et techniques pour s’assurer que la nouvelle architecture répond aux besoins de l’entreprise 🔹 Documenter l’ architecture des données, les processus de migration et les modèles de données 🔹 Assurer la gouvernance, la sécurité et la conformité des données

Démarrage Dès que possible

Durée 3 mois

TJM 560-730 €⁄j

Télétravail Télétravail partiel

Lieu Seine-et-Marne, France

CDI

Data Engineer GCP Confirmé

Méthode Agile

28/03/2025

DATSUP

Nous recherchons un Data Engineer GCP pour un client dans le secteur média pour renforcer une équipe data. Votre mission : optimiser l’exploitation des données pour améliorer les offres digitales, assurer une collecte conforme, enrichir l’expérience utilisateur et fournir des outils analytiques aux équipes internes. Adossée à une plateforme cloud, l’équipe développe un produit centralisant les données avec une stack moderne ( SQL, DBT, Airflow, GCP, Python ) en visant performance, qualité et industrialisation.

Démarrage Dès que possible

Durée 12 mois

Salaire 10k-50k €⁄an

TJM 100-500 €⁄j

Télétravail Télétravail partiel

Lieu Île-de-France, France

Freelance

Data Ingénieur/Data Ops (H/F) 75

DevOps

Kubernetes

17/04/2025

Mindquest

Vous serez en charge de : * Concevoir, implémentez et fournir des solutions pour les problématiques data. * L’intégration et la collecte des données issues des applications tierces (CRM, réseaux sociaux, etc.) ; * La conception, le développement et déploiement de nouveaux flux Spark pour les différents besoin métiers (finance, support, industrie…) * La caractérisation des architectures des produits technologiques ; Choix d’architecture en anticipant les besoins de scalabilité * La planification et l’orchestration des flux afin d’optimiser la mise à disposition de données. * Détecter les points bloquants ou les chaînons manquants dans le cycle de traitement des données, et à proposer des solutions à soumettre à leurs collaborateurs. * D’assurer la continuité de service et le monitoring des flux développés. * Documentation : capitalisation des savoirs, retours d'expérience et fiches de best practices pour aider à la montée en compétencesdes équipes métier. * De la veille technologique : proposer de nouvelles solutions techniques pour challenger le fonctionnement actuel et optimiser les temps de traitements tout en réduisant les coûts. * Évangéliser les meilleures pratiques dans le traitement de la data. Vous travaillerez en relation avec les équipes responsables des infrastructures et des bases de données ainsi qu’avec les équipes de data analystes et de data scientistes, avec l'appui du chef de projet et en relation directe avec les équipes métiers. Environnement technique : * Spark , PySpark , Scala * HDFS, YARN, Hive, SQL Server, Airflow, Postgresql, kafka * Python, Java, Shell * API, Web services * Git Stash, Ansible, YAML * Puppet * Ansible * CI/CD * Docker / Kubernetes * Agilité / Scrum * la gestion de l’environnement, des tests unitaires, de l’automatisation et des versions ; Savoir être * Autonome & Résilient * Force de proposition * Rigoureux & Capable de gérer plusieurs sujets en parallèle * Faire preuve d’adaptabilité * Pédagogue, vous avez la capacité de vulgariser votre savoir technique pour le mettre au service des autres. * Organisé , vous avez le sens des responsabilités. * État d'esprit orienté utilisateur. Vous avez l’esprit d’équipe, vous participez et êtes acteur des différents rituels agiles

Démarrage 14/05/2025

Durée 3 mois

TJM 200-420 €⁄j

Télétravail Télétravail partiel

Lieu Paris, France

Freelance

207342 : Consultant CI/CD Gitlab/Google Cloud (5XP ou plus) - 539

22/04/2025

ISUPPLIER

Contexte : Dans le cadre de l’amélioration de ses pratiques DevOps et DataOps sur Google Cloud Platform, le client recherche un(e) Consultant(e) Expert(e) CI/CD capable d’auditer l’existant et de concevoir une chaîne d’intégration et de déploiement continue unifiée pour les environnements Data et Applicatifs. Cette mission s’inscrit dans un contexte technique exigeant, mêlant infrastructure as code, déploiement multi-stack (Java, JS/React, BigQuery), conteneurisation, automatisation avancée avec GitLab CI, et supervision via Splunk. L’objectif est d’industrialiser et de fiabiliser les livraisons tout en accompagnant la montée en compétences des équipes internes. Missions : Auditer les pratiques actuelles et proposer une architecture cible détaillée pour la chaîne CI/CD Data & App sur GCP. Concevoir et implémenter les pipelines dans GitLab CI pour automatiser : Le build, le test et le déploiement de l'Infrastructure as Code avec Terraform. Le déploiement et les tests des transformations BigQuery (SQL). Le build, le test et le déploiement d’applications JS et ReactJS (SFCC). Le build, le test et le déploiement d’applications Java (Mulesoft). Le build (via Cloud Build), le stockage (sur Artifact Registry) et le déploiement d'applications conteneurisées (Cloud Run, GKE si nécessaire). L'intégration de tests automatisés (unitaires, intégration, qualité des données. Proposer et implémenter le plus souvent possible de l’IA (Gemini 2.5 ou autre) pour simplifier et accélérer la CI/CD dans les domaines du code, du débug, des tests, de la documentation ou d’autres usages. Configurer et optimiser l'intégration entre GitLab CI et GCP (Runners sur GCE/GKE, gestion des secrets avec Secret Manager). Intégrer les fonctionnalités de Splunk Cloud pour assurer la visibilité et l'alerting sur les pipelines CI/CD et les assets déployés. Promouvoir et mettre en oeuvre les meilleures pratiques DevOps / DataOps (gestion des environnements dev/staging/prod, sécurité, reproductibilité). Accompagner et former les équipes internes (Data Engineers, Data Scientists) à l'utilisation et à la maintenance de la chaîne CI/CD. Documenter l'architecture, les processus et les configurations mis en place sur Atlassian Confluence. Compétences : Expertise confirmée en conception et mise en oeuvre de chaînes CI/CD complexes, avec une maîtrise approfondie de GitLab CI/CD. Solide expérience pratique sur Google Cloud, notamment avec les services suivants : Compute/Containers : GCE, GKE, Cloud Run, Cloud Build, Artifact Registry. Stockage/Base de données : GCS, BigQuery, Cloud SQL. Traitement/Orchestration : Dataform, Airflow, Pub/Sub. Opérations & Sécurité : Splunk, IAM, Secret Manager. Maîtrise indispensable de Terraform pour l'Infrastructure as Code sur Google Cloud.. Excellentes compétences en scripting, particulièrement en Python. La connaissance de Shell est également nécessaire. Expérience significative avec la conteneurisation (Docker). Compréhension solide des principes et enjeux du Data Engineering et du DataOps. Habitué(e) aux outils de développement modernes : Git, VS Code. Excellentes capacités de communication, d'analyse et de résolution de problèmes. Autonomie, proactivité et capacité à travailler en collaboration avec des équipes techniques

Démarrage 15/04/2025

Durée 10 mois

TJM 500-570 €⁄j

Télétravail Télétravail partiel

Lieu Paris, France

Freelance

SAP Technical Administrator

Full stack

19/03/2025

EBMC

Nous recherchons un Développeur Full Stack Data pour intégrer un projet stratégique axé sur l’ optimisation des flux de données et la visualisation analytique . Le consultant interviendra sur la création et l’amélioration de dashboards Power BI et Looker , l’ automatisation des flux ETL , ainsi que sur la mise en place et l’optimisation des data products en exploitant des technologies comme Snowflake, BigQuery et AWS RDS . Il aura également pour mission d’ assurer la scalabilité et la performance des traitements de données , en développant des pipelines robustes et automatisés via Airflow et Dataflow .

Démarrage Dès que possible

Durée 6 mois

TJM 100-550 €⁄j

Télétravail Télétravail partiel

Lieu Vélizy-Villacoublay, Île-de-France

Freelance

Gestionnaire d'Application