Unser Kunde:
Unser Kunde ist ein technologieorientiertes Unternehmen, das hochleistungsfähige ML-Inferenzsysteme in Echtzeit entwickelt. Das Team entwickelt Engines mit extrem niedriger Latenz, die Milliarden von Anfragen pro Tag verarbeiten und ML-Modelle in geschäftskritische Entscheidungspipelines integrieren. Gesucht wird ein erfahrener Backend-Ingenieur, der ML-Dienste in Produktionsqualität mit Schwerpunkt auf Latenz, Zuverlässigkeit und Beobachtbarkeit entwickelt und skaliert.
Ihre Aufgaben:
- Leitung des Entwurfs und der Entwicklung von ML-Inferenzdiensten mit geringer Latenz, die ein großes Anfragevolumen verarbeiten.
- Aufbau und Skalierung von Echtzeit-Entscheidungsmaschinen, Integration von ML-Modellen mit Geschäftslogik unter strengen SLAs.
- Arbeiten Sie eng mit Datenwissenschaftlern zusammen, um ML-Modelle nahtlos und zuverlässig in der Produktion einzusetzen.
- Entwerfen Sie Systeme für Modellversionierung, Shadowing und A/B-Tests zur Laufzeit.
- Gewährleistung einer hohen Verfügbarkeit, Skalierbarkeit und Beobachtbarkeit von Produktionssystemen.
- Optimieren Sie kontinuierlich Latenz, Durchsatz und Kosteneffizienz mit modernen Tools und Techniken.
- Selbstständiges Arbeiten bei gleichzeitiger Zusammenarbeit mit funktionsübergreifenden Teams wie Algo, Infrastruktur, Produkt, Technik und Geschäftsinteressenten.
Erforderliche Erfahrungen und Qualifikationen:
- B.Sc. oder M.Sc. in Informatik, Softwaretechnik oder einem verwandten technischen Fachgebiet.
- Mehr als 5 Jahre Erfahrung in der Entwicklung von leistungsstarken Backend- oder ML-Inferenzsystemen.
- Experte in Python und Erfahrung mit latenzarmen APIs und Echtzeit-Serving-Frameworks (z. B. FastAPI, Triton Inference Server, TorchServe, BentoML).
- Erfahrung mit skalierbaren Dienstarchitekturen, Nachrichtenwarteschlangen (Kafka, Pub/Sub) und asynchroner Verarbeitung.
- Ausgeprägtes Verständnis von Modellbereitstellung, Online/Offline-Funktionsparität und Echtzeitüberwachung.
- Erfahrung mit Cloud-Umgebungen (AWS, GCP, OCI) und Container-Orchestrierung (Kubernetes).
- Vertrautheit mit In-Memory- und NoSQL-Datenbanken (Aerospike, Redis, Bigtable) für ultraschnellen Datenzugriff.
- Erfahrung mit Observability-Stacks (Prometheus, Grafana, OpenTelemetry) und Best Practices für Warnungen/Diagnosen.
- Ausgeprägtes Verantwortungsbewusstsein und die Fähigkeit, Lösungen von Anfang bis Ende zu liefern.
- Leidenschaft für Leistung, saubere Architektur und wirkungsvolle Systeme.
Das wäre ein Plus:
- Frühere Erfahrung in der Leitung von ML-Systemen mit hohem Durchsatz und niedriger Latenz in der Produktion.
- Kenntnisse über Echtzeit-Funktionspipelines und Streaming-Datenplattformen.
- Vertrautheit mit fortgeschrittenen Überwachungs- und Profiling-Techniken für ML-Dienste.
Arbeitsbedingungen
5-Tage-Woche, 8-Stunden-Arbeitstag;