🛠️ Отчет об инциденте: превращаем проблемы в опыт

Инциденты случаются даже в лучших сервисах. Итог падения определяется нашей реакцией: это может быть паника и поиск виновных или шанс стать лучше и сделать систему надежнее. В основе ITSM лежит создание непрерывного потока ценности - даже ошибки должны работать на развитие. Поэтому главное правило разбора таково: Мы разбираем систему, а не людей. Задача руководителя - понять, где защита дала сбой, и направить усилия на укрепление сервиса.

🔎 Как проходит разбор

Мы исследуем каждый инцидент - от краткого описания и момента обнаружения до проверки бэклога и фиксации опыта с корректировками, уделяя особое внимание пяти ключевым факторам. Они раскрывают корневые причины и формируют план действий, задавая направление дальнейших улучшений.

⚠️ Последствие

Что увидели пользователи и бизнес: масштаб сбоя, количество обращений, финансовые потери. Чем точнее цифры, тем выше приоритет контрмер.

🛠️ Восстановление

Пошагово фиксируем, как мы вернули сервис в норму. В итоге получается сценарий оперативного восстановления на случай повторения: скрипты, плейбуки, резервные инструменты.

🔁 Повторение

Когда корневая причина найдена, оглядываемся назад: были ли похожие инциденты, вызванные тем же фактором? Если да, анализируем, какие меры уже предпринимались и почему проблема всплыла снова. Важно убедиться, что новые корректировки действительно предотвратят повторение.

🔍 Корневая причина

Метод “пяти почему” приводит к источнику сбоя: пробел в тестах, ручная операция, уязвимость бизнес-процесса и т.д. Найдя корень, определяем, можем ли мы устранить его полностью.

💡 Опыт и корректирующие действия

Фиксируем три параметра: улучшение, ответственный, срок.
Если влияние высокое, а повторение неминуемо - создаем задачу на перманентное решение.
Если влияние низкое, а исправление дорого - описываем обходной способ и переносим задачу в резерв.

🧮 Приоритизация изменений

Мы оцениваем три фактора:

влияние инцидента на бизнес и пользователей;
вероятность повторения;
трудозатраты на перманентное решение.
Если сбой разовый, а стоимость исправления высока, ресурсы направляем на более критичные улучшения.

🌱 Культура без обвинений

Ошибка в коде - расширяем тесты и усиливаем код-ревью.
Человеческий фактор - обновляем чек-листы и проводим дополнительное обучение.
Недостаточный мониторинг - расширяем метрики и настраиваем алерты.
Так каждое событие становится кирпичиком зрелости. Мы уходим со встречи без чувства вины и с четким пониманием, как сделать сервис надежнее.