Делаем Такси надёжнее и доступнее для пользователей

Служба надёжности отвечает за стабильность работы Яндекс Такси: проверяет сервис на готовность к внештатным ситуациям, предотвращает инциденты и быстро восстанавливает системы после сбоев. Всё ради того, чтобы пользователи могли добраться в нужное место в любое время

Задачи распределены между двумя командами, каждая из которых отвечает за свою область: улучшает инфраструктуру продакшена, разрабатывает инструменты для учений, проверяет надежность сервиса и оперативно устраняет проблемы

Александр Фишер

Руководитель Службы
надежности Такси

Развивал «Почту@mail.ru», Delivery Club, Вконтакте, занимался общей инфраструктурой. Считает, что можно верить только проведённым учениям, а надежда — плохая стратегия надёжности

«Надёжность — это научиться лежать 3 минуты, чтобы не лежать 2 часа. Мы придумываем и разрабатываем инструменты, позволяющие быстро подниматься, быстро находить причину поломок, плавно деградировать сервис, не прерывая обслуживания, поддерживать требуемый уровень надёжности — и масштабировать это на 1000+ микросервисов и сотни разработчиков продукта»

О нас

Команды в Надёжности проектируют и внедряют новые технологии и подходы, участвуют в проведении учений, анализируют постмортемы и разрабатывают решения, которые влияют на аптайм всего Такси и используются в других сервисах Яндекса

Наши инженеры ставят и проверяют гипотезы, снижают число инцидентов в продакшене и проектируют важные отказоустойчивые решения, готовые к высоким нагрузкам, чтобы обеспечить безотказную работу Такси для всех пользователей

> 1000 микросервисов

> 500 СУБД

500 тыс. RPS на самых нагруженных сервисах

Максимальная доступность Такси

Отслеживаем метрику SLO и стремится к тому, чтобы сервис был доступен > 99,99% времени

Минимальное время восстановления

За счет автоматизации сокращаем время на восстановления после инцидентов до минимума

Прямое влияние на аптайм Такси

Отвечаем за Chaos engineering, эмуляторы заказов, инструменты observability, запланированные деградации, congestion control и многое другое

Задачи направления

Chaos engineering

Сознательно внедряем ошибки, чтобы получить дополнительные знания о системе и найти скрытые угрозы надёжности. Собираем статистику и отслеживаем деградацию сервисов, чтобы сохранять качество системы и осознанно подходить к потреблению ресурсов

«Идеальная система — это та, что ломается вовремя»

Автовосстановление

Создаём автоматику, которая реагирует на начало инцидента, снимает нагрузку с системы и откатывает потенциально опасные изменения

«Это похоже на canary deploy для всех типов изменений на основе бизнес-метрик. Сложность здесь в правильной интерпретации метрик, определения возможных причин и откат изменений с уведомлением всех, кто должен узнать об этом откате»

Лента событий

Такси — это тысячи микросервисов, баз данных, изменяющихся конфигов и частые релизы

Для повышения observability и поиска коренных причин инцидентов нам важно видеть полную картину, что изменилось до начала инцидента. Мы расширяем набор источников изменений и улучшаем инструменты для анализа

«Добавляем новые источники событий — будь то хранилище секретов, система управления подами сервисов или сервис с информацией об учениях наших зависимостей. Дописываем функциональность, которая позволяет отменять или откатывать все наблюдаемые изменения. А ещё — улучшаем UX ленты»

Виртуальные заказы

Определяем ёмкость системы с учётом конфигурации железа, сервисов и баз данных

«Симулируем разные сценарии и находим узкие места, которые влияют на работу системы при пиковых нагрузках. Для этого виртуальные водители возят виртуальных пассажиров по реальным маршрутам»

Эксплуатация

Обеспечиваем бесперебойную работу сервисов

Отвечаем за стабильность сервисов: проводим стресс-тесты инфраструктуры, автоматизируем устранение сбоев и тренируем реакцию на инциденты. Разрабатываем инструменты для быстрой диагностики проблем в сложной микросервисной архитектуре. Внедряем технические улучшения без снижения доступности, пробуем создавать свой Service Mesh и автоматизируем планирование ресурсов для бесперебойной работы всех систем

Стек

backend