Le poste MLOPS (H/F)
Partager cette offre
Vous êtes passionné(e) par les technologies de l'intelligence artificielle générative et maîtrisez les outils modernes d’orchestration et de distribution ? Nous recherchons un(e) LLM Ops Engineer pour optimiser et déployer des modèles de langage (LLM) à grande échelle en environnement distribué.
Vous jouerez un rôle clé dans la mise en production et la gestion des pipelines complexes, en exploitant des frameworks tels que TGI (Text Generation Inference), VLLM, et BentoML, dans un contexte basé sur Docker, Kubernetes, et le cloud computing.
Gestion et optimisation des LLM :
Implémenter et déployer des modèles d'IA générative (GPT, BERT, autres LLM).
Optimiser les performances des modèles grâce à des frameworks comme TGI ou VLLM.
Assurer la scalabilité des services d’inférence via des architectures distribuées.
Infrastructure et conteneurisation :
Construire, tester et déployer des conteneurs Docker pour les environnements IA.
Configurer et maintenir des clusters Kubernetes pour l’orchestration des services d’inférence.
Automatiser les workflows CI/CD pour la mise en production rapide des modèles.
Distribution parallélisée :
Gérer la parallélisation des charges de travail LLM sur des architectures multi-nœuds.
Optimiser l’utilisation des GPU/TPU pour maximiser les performances.
Implémenter des solutions de streaming et de traitement par lots pour les données d'entrée/sortie des modèles.
Observabilité et monitoring :
Déployer des outils de monitoring (Prometheus, Grafana) pour surveiller les performances des LLM.
Identifier les goulots d'étranglement et proposer des améliorations continues.
Profil recherché
Formation supérieure en informatique, mathématiques appliquées ou IA.
Expérience significative dans le déploiement d’applications IA à grande échelle.
Forte appétence pour les technologies émergentes et l’innovation.
Capacité à travailler en équipe dans un environnement Agile/DevOps.
Environnement de travail
Technologies IA :
Expérience avec les frameworks de LLM : TGI, VLLM, Hugging Face Transformers, TensorFlow Serving.
Connaissance des outils d’inférence rapide comme ONNX Runtime, Triton Inference Server.
Conteneurisation et orchestration :
Maîtrise de Docker et Kubernetes.
Expérience avec Helm Charts et la gestion de clusters K8s.
Langages et scripting :
Solide maîtrise de Python (PyTorch, TensorFlow) et de Bash.
Connaissance des API REST/GraphQL pour interfacer les modèles.
Infrastructure :
Expérience avec des plateformes cloud (AWS, Azure, GCP) et outils associés (EKS, AKS, GKE).
Connaissance des environnements distribués pour le calcul parallèle (Ray, Dask).
Atouts supplémentaires :
Familiarité avec BentoML pour le packaging et le déploiement des modèles.
Expérience dans la gestion des bases de données vectorielles (Pinecone, Weaviate, FAISS).
Connaissance en sécurité des données (chiffrement, GDPR).
Postulez à cette offre !
Trouvez votre prochaine mission parmi +7 000 offres !
-
Fixez vos conditions
Rémunération, télétravail... Définissez tous les critères importants pour vous.
-
Faites-vous chasser
Les recruteurs viennent directement chercher leurs futurs talents dans notre CVthèque.
-
100% gratuit
Aucune commission prélevée sur votre mission freelance.
MLOPS (H/F)
SCALIAN