nous recherchons

Senior ML-focused Backend Engineer (Realtime/Inference) A distance Temps plein

Notre client :

Notre client est une entreprise axée sur la technologie qui construit des systèmes d'inférence ML en temps réel et à haute performance. L'équipe développe des moteurs à très faible latence qui traitent des milliards de requêtes par jour, intégrant des modèles de ML avec des pipelines de prise de décision critiques pour l'entreprise. Nous sommes à la recherche d'un ingénieur backend expérimenté pour gérer et mettre à l'échelle des services de ML de niveau production en mettant l'accent sur la latence, la fiabilité et l'observabilité.

Vos tâches :

  • Diriger la conception et le développement de services d'inférence ML à faible latence traitant des volumes massifs de demandes.
  • Construire et mettre à l'échelle des moteurs de prise de décision en temps réel, en intégrant des modèles de ML à la logique d'entreprise dans le cadre d'accords de niveau de service (SLA) stricts.
  • Collaborer étroitement avec les scientifiques des données pour déployer des modèles de ML de manière transparente et fiable en production.
  • Concevoir des systèmes pour la version des modèles, le shadowing et les tests A/B au moment de l'exécution.
  • Assurer la haute disponibilité, l'évolutivité et l'observabilité des systèmes de production.
  • Optimiser en permanence la latence, le débit et la rentabilité à l'aide d'outils et de techniques modernes.
  • Travailler de manière autonome tout en collaborant avec des équipes interfonctionnelles, y compris les parties prenantes Algo, Infrastructure, Produit, Ingénierie et Business.

Expérience et compétences requises :

  • B.Sc. ou M.Sc. en informatique, génie logiciel ou dans un domaine technique connexe.
  • Plus de 5 ans d'expérience dans la construction de systèmes d'inférence ML ou backend de haute performance.
  • Expert en Python et expérience des API à faible latence et des cadres de service en temps réel (par exemple, FastAPI, Triton Inference Server, TorchServe, BentoML).
  • Expérience des architectures de services évolutives, des files d'attente de messages (Kafka, Pub/Sub) et du traitement asynchrone.
  • Forte compréhension du déploiement de modèles, de la parité des fonctionnalités en ligne/hors ligne et de la surveillance en temps réel.
  • Expérience des environnements cloud (AWS, GCP, OCI) et de l'orchestration de conteneurs (Kubernetes).
  • Familiarité avec les bases de données en mémoire et NoSQL (Aerospike, Redis, Bigtable) pour un accès ultra-rapide aux données.
  • Expérience des piles d'observabilité (Prometheus, Grafana, OpenTelemetry) et des meilleures pratiques d'alerte/diagnostic.
  • Un fort esprit d'appropriation et une capacité à fournir des solutions de bout en bout.
  • Passion pour la performance, l'architecture propre et les systèmes percutants.

Ce serait un plus :

  • Expérience préalable de la gestion en production de systèmes de ML à haut débit et à faible latence.
  • Connaissance des pipelines de fonctionnalités en temps réel et des plateformes de données en continu.
  • Familiarité avec les techniques avancées de surveillance et de profilage des services de ML.

Conditions de travail

Semaine de travail de 5 jours, journée de travail de 8 heures, horaire flexible

Semaine de travail de 5 jours, journée de travail de 8 heures ;

Travailler à domicile avec du café

Travail à distance.

Nous contacter
S'abonner aux offres d'emploi

    Contact Nous
    Bureau au Royaume-Uni :
    Téléphone :
    Suivez-nous :
    A-listware est prêt à devenir votre solution stratégique d'externalisation des technologies de l'information.

      Consentement au traitement des données personnelles
      Télécharger le fichier