SRE под другим углом: концепция Safety-II в обеспечении надежности

Что, если взглянуть на Site Reliability Engineering (SRE) и само понятие «надежность» с нестандартной точки зрения? Сегодня мы отойдем от чисто технических инструкций и погрузимся в философию управления сложными системами.

Safety-I vs Safety-II: смена парадигмы

Существует модель под названием Safety-II. В отличие от традиционного подхода (Safety-I), который фокусируется на минимизации негативных факторов и поиске причин сбоев, Safety-II предлагает сосредоточиться на развитии позитивных аспектов. Речь идет о повседневной работе инженеров, которая раз за разом предотвращает аварии, часто оставаясь при этом незамеченной.

Вместо привычного вопроса «Почему всё пошло не так?», стоит спрашивать: «Как сделать так, чтобы всё работало правильно?». Мы измеряем доступность систем «девятками» (99.9% или 99.99%), но при этом тратим почти всё время на изучение тех ничтожных долей процента времени, когда система была недоступна.

Проблема восприятия надежности

Для многих инженеров эта концепция кажется непривычной. Мы часто живем с установкой, что надежность — вещь пассивная: система якобы должна работать стабильно по умолчанию, а авария происходит только тогда, когда кто-то совершает ошибку. В такой парадигме любые активные действия людей внутри системы воспринимаются скорее как потенциальная угроза стабильности.

Если рассматривать адаптивность сотрудников только в контексте инцидента и пытаться повысить надежность через запреты, это будет напоминать попытку понять, как выиграть в лотерею, изучая только поведение победителей. Мы игнорируем огромное количество случаев, когда люди действовали так же, но система осталась стабильной благодаря их опыту. Качественный анализ инцидентов должен учитывать не только ошибки, но и успешные практики предотвращения катастроф.

Для тех, кто хочет глубже погрузиться в тему, рекомендуем книгу Эрика Холльнагеля «Safety-I and Safety-II: The Past and Future of Safety Management».

Почему внедрить Safety-II так сложно?

  • Отсутствие привычки изучать «норму»: Компании редко анализируют свою повседневную деятельность. Вопрос «Что у нас получается особенно хорошо и как масштабировать этот успех?» часто остается без должного внимания.
  • Дефицит внимания: В организации внимание — ограниченный ресурс. Если мониторинг показывает «зеленую зону», это воспринимается как сигнал, что бюджет внимания можно переключить на другие задачи.
  • Невидимость интеллектуального труда: В сфере IT большая часть работы инженеров не видна со стороны — это сложный процесс взаимодействия человека и компьютерных систем.

Специалисты по устойчивости ПО уже пытаются направить индустрию в сторону Safety-II, переосмысляя ценность анализа сбоев и повседневной эксплуатации. Впереди еще долгий путь, но переход к изучению того, «почему всё работает», открывает новые горизонты для SRE-команд.