Наш клієнт:
Наш клієнт - технологічна компанія, що створює високопродуктивні системи машинного навчання в реальному часі. Команда розробляє двигуни з наднизькою затримкою, які обробляють мільярди запитів на день, інтегруючи ML-моделі з критично важливими для бізнесу конвеєрами прийняття рішень. Вони шукають досвідченого бекенд-інженера для створення та масштабування сервісів ML виробничого рівня з акцентом на затримки, надійність та спостережливість.
Ваші завдання:
- Керувати проектуванням та розробкою сервісів ML-виведення з низькою затримкою, що працюють з великими обсягами запитів.
- Створюйте та масштабуйте механізми прийняття рішень у реальному часі, інтегруючи ML-моделі з бізнес-логікою в рамках суворих SLA.
- Тісно співпрацюйте з аналітиками даних, щоб безперешкодно та надійно впроваджувати моделі ML у виробництво.
- Проектувати системи для версійності моделей, тінізації та A/B-тестування під час виконання.
- Забезпечити високу доступність, масштабованість і спостережливість виробничих систем.
- Постійно оптимізуйте затримки, пропускну здатність та економічну ефективність, використовуючи сучасні інструменти та методи.
- Працюйте самостійно, співпрацюючи з крос-функціональними командами, включаючи алго, інфраструктуру, продукт, інженерію та бізнес-зацікавлені сторони.
Необхідний досвід та навички:
- Ступінь бакалавра або магістра в галузі комп'ютерних наук, програмної інженерії або суміжних технічних галузях.
- 5+ років досвіду створення високопродуктивних бекенд-систем або систем машинного виводу.
- Експерт з Python та досвід роботи з API з низькою затримкою та фреймворками для обслуговування в реальному часі (наприклад, FastAPI, Triton Inference Server, TorchServe, BentoML).
- Досвід роботи з масштабованими сервісними архітектурами, чергами повідомлень (Kafka, Pub/Sub) та асинхронною обробкою.
- Глибоке розуміння розгортання моделі, паритету онлайн/офлайн функцій та моніторингу в реальному часі.
- Досвід роботи з хмарними середовищами (AWS, GCP, OCI) та оркестровкою контейнерів (Kubernetes).
- Знайомство з базами даних в пам'яті та NoSQL (Aerospike, Redis, Bigtable) для надшвидкого доступу до даних.
- Досвід роботи зі стеками спостережливості (Prometheus, Grafana, OpenTelemetry) та найкращими практиками оповіщення/діагностики.
- Сильне мислення власника та здатність надавати комплексні рішення.
- Пристрасть до продуктивності, чистої архітектури та ефективних систем.
Було б добре:
- Попередній досвід керівництва високопродуктивними системами ML з низькою затримкою у виробництві.
- Знання конвеєрів функцій у реальному часі та платформ потокової передачі даних.
- Ознайомлення з передовими методами моніторингу та профілювання послуг з ВК.
Умови праці
5-денний робочий тиждень, 8-годинний робочий день;