Делаем Такси надёжнее и доступнее для пользователей

Служба надёжности отвечает за стабильность работы Яндекс Такси: проверяет сервис на готовность к внештатным ситуациям, предотвращает инциденты и быстро восстанавливает системы после сбоев. Всё ради того, чтобы пользователи могли добраться в нужное место в любое время

Задачи распределены между двумя командами, каждая из которых отвечает за свою область: улучшает инфраструктуру продакшена, разрабатывает инструменты для учений, проверяет надежность сервиса и оперативно устраняет проблемы

Александр Фишер
Руководитель Службы
надежности Такси
Развивал «Почту@mail.ru», Delivery Club, Вконтакте, занимался общей инфраструктурой. Считает, что можно верить только проведённым учениям, а надежда — плохая стратегия надёжности
«Надёжность — это научиться лежать 3 минуты, чтобы не лежать 2 часа. Мы придумываем и разрабатываем инструменты, позволяющие быстро подниматься, быстро находить причину поломок, плавно деградировать сервис, не прерывая обслуживания, поддерживать требуемый уровень надёжности — и масштабировать это на 1000+ микросервисов и сотни разработчиков продукта»
читать далее
О нас

Команды в Надёжности проектируют и внедряют новые технологии и подходы, участвуют в проведении учений, анализируют постмортемы и разрабатывают решения, которые влияют на аптайм всего Такси и используются в других сервисах Яндекса

Наши инженеры ставят и проверяют гипотезы, снижают число инцидентов в продакшене и проектируют важные отказоустойчивые решения, готовые к высоким нагрузкам, чтобы обеспечить безотказную работу Такси для всех пользователей

> 1000 микросервисов
> 500 СУБД
500 тыс. RPS на самых нагруженных сервисах

Максимальная доступность Такси
Отслеживаем метрику SLO и стремится к тому, чтобы сервис был доступен > 99,99% времени
Минимальное время восстановления
За счет автоматизации сокращаем время на восстановления после инцидентов до минимума
Прямое влияние на аптайм Такси
Отвечаем за Chaos engineering, эмуляторы заказов, инструменты observability, запланированные деградации, congestion control и многое другое
Задачи направления
Chaos engineering
Сознательно внедряем ошибки, чтобы получить дополнительные знания о системе и найти скрытые угрозы надёжности. Собираем статистику и отслеживаем деградацию сервисов, чтобы сохранять качество системы и осознанно подходить к потреблению ресурсов
Александр Ильин
Лид хаоса
«Идеальная система — это та, что ломается вовремя»
читать далее
Автовосста­новление
Создаём автоматику, которая реагирует на начало инцидента, снимает нагрузку с системы и откатывает потенциально опасные изменения
Вадим Мартынов
Разработчик надёжности
«Это похоже на canary deploy для всех типов изменений на основе бизнес-метрик. Сложность здесь в правильной интерпретации метрик, определения возможных причин и откат изменений с уведомлением всех, кто должен узнать об этом откате»
читать далее
Лента событий
Такси — это тысячи микросервисов, баз данных, изменяющихся конфигов и частые релизы
Для повышения observability и поиска коренных причин инцидентов нам важно видеть полную картину, что изменилось до начала инцидента. Мы расширяем набор источников изменений и улучшаем инструменты для анализа
Кирилл Хомик
Руководитель группы эксплуатации
«Добавляем новые источники событий — будь то хранилище секретов, система управления подами сервисов или сервис с информацией об учениях наших зависимостей. Дописываем функциональность, которая позволяет отменять или откатывать все наблюдаемые изменения. А ещё — улучшаем UX ленты»
читать далее
Виртуальные заказы
Определяем ёмкость системы с учётом конфигурации железа, сервисов и баз данных
Андрей Матвеев
Лид стрима виртуальных заказов
«Симулируем разные сценарии и находим узкие места, которые влияют на работу системы при пиковых нагрузках. Для этого виртуальные водители возят виртуальных пассажиров по реальным маршрутам»
читать далее
Эксплуатация
Обеспечиваем бесперебойную работу сервисов
Отвечаем за стабильность сервисов: проводим стресс-тесты инфраструктуры, автоматизируем устранение сбоев и тренируем реакцию на инциденты. Разрабатываем инструменты для быстрой диагностики проблем в сложной микросервисной архитектуре. Внедряем технические улучшения без снижения доступности, пробуем создавать свой Service Mesh и автоматизируем планирование ресурсов для бесперебойной работы всех систем
Стек

backend

  • Более 1000 микросервисов и баз данных
  • Сами выбираем стек и регулярно внедряем инструменты и технологии
    для решения новых задач
  • Logbroker
  • gRPC
Читайте и смотрите
про наши технологии

Вакансии

Fri May 16 2025 18:42:00 GMT+0300 (Moscow Standard Time)