🛠️ Отчет об инциденте: превращаем проблемы в опыт
Инциденты случаются даже в лучших сервисах. Итог падения определяется нашей реакцией: это может быть паника и поиск виновных или шанс стать лучше и сделать систему надежнее. В основе ITSM лежит создание непрерывного потока ценности - даже ошибки должны работать на развитие. Поэтому главное правило разбора таково: Мы разбираем систему, а не людей. Задача руководителя - понять, где защита дала сбой, и направить усилия на укрепление сервиса.
🔎 Как проходит разбор
Мы исследуем каждый инцидент - от краткого описания и момента обнаружения до проверки бэклога и фиксации опыта с корректировками, уделяя особое внимание пяти ключевым факторам. Они раскрывают корневые причины и формируют план действий, задавая направление дальнейших улучшений.
⚠️ Последствие
Что увидели пользователи и бизнес: масштаб сбоя, количество обращений, финансовые потери. Чем точнее цифры, тем выше приоритет контрмер.
🛠️ Восстановление
Пошагово фиксируем, как мы вернули сервис в норму. В итоге получается сценарий оперативного восстановления на случай повторения: скрипты, плейбуки, резервные инструменты.
🔁 Повторение
Когда корневая причина найдена, оглядываемся назад: были ли похожие инциденты, вызванные тем же фактором? Если да, анализируем, какие меры уже предпринимались и почему проблема всплыла снова. Важно убедиться, что новые корректировки действительно предотвратят повторение.
🔍 Корневая причина
Метод “пяти почему” приводит к источнику сбоя: пробел в тестах, ручная операция, уязвимость бизнес-процесса и т.д. Найдя корень, определяем, можем ли мы устранить его полностью.
💡 Опыт и корректирующие действия
Фиксируем три параметра: улучшение, ответственный, срок.
Если влияние высокое, а повторение неминуемо - создаем задачу на перманентное решение.
Если влияние низкое, а исправление дорого - описываем обходной способ и переносим задачу в резерв.
🧮 Приоритизация изменений
Мы оцениваем три фактора:
- влияние инцидента на бизнес и пользователей;
- вероятность повторения;
- трудозатраты на перманентное решение.
Если сбой разовый, а стоимость исправления высока, ресурсы направляем на более критичные улучшения.
🌱 Культура без обвинений
Ошибка в коде - расширяем тесты и усиливаем код-ревью.
Человеческий фактор - обновляем чек-листы и проводим дополнительное обучение.
Недостаточный мониторинг - расширяем метрики и настраиваем алерты.
Так каждое событие становится кирпичиком зрелости. Мы уходим со встречи без чувства вины и с четким пониманием, как сделать сервис надежнее.
