🔥 Пятничное: Инцидент дешевле бесконечного аптайма
Одна лишняя “девятка” в SLA звучит круто, но за нее платят не клиенты, а ваш бюджет и скорость изменений.
🎯 Почему доступность 100 % почти всегда неоправданна
- Чем ближе к идеалу, тем экспоненциальнее растут затраты: резервирование, дублирование, 24 × 7 on‑call.
- Риск все равно остается: человеческий фактор, внешние зависимости, форс‑мажоры.
- Бизнес‑ущерб от редкого падения зачастую ниже, чем цена “вечной готовности”.
📊 Экономика аптайма
- 99 % - ≈ 88 ч простоя в год; базовый CAPEX; дежурство в рабочие часы; скорость изменений 100 %.
- 99.99 % - ≈ 53 мин простоя; CAPEX×1.5; + дежурный SRE; скорость изменений -10 %.
- 99.999 %* - ≈ 5 мин простоя; CAPEX× 3-5; 24 × 7 on‑call; скорость изменений -30 %.
99.999 % возможны лишь при строгих условиях: дежурные могут вручную мгновенно переключить сервис на резерв или откатить релиз, и на критичных системах действует жесткий “код‑фриз” - минимум изменений, только проверенные патчи.
⚙️ Инцидент как бесплатный аудит
- RCA без сантиментов вскрывает самые болезненные места.
- Жесткий план: у каждого провала появляется владелец и дедлайн.
- Финансовый эффект: устраненный класс проблем экономит месяцы бессонных дежурств.
🛠 Бюджет ошибок - альтернатива бесконечного аптайма
- Лимит боли: определяем лимит суммарного простоя за квартал - ровно столько, сколько бизнес готов “заплатить” за инновации. ⚠️ Если вы не банк или центр управления полетами, то, скорее всего, можете позволить себе такой лимит.
- Условие игры: каждая упавшая минута “откупается” только после полного RCA и четкого плана действий с владельцем и сроком.
- Зачем считать: простои становятся прозрачным KPI; когда “банк” ошибок пуст, и бизнес, и ИТ получают сигнал - пора совместно вкладываться в надежность (резервы, автоматизацию, тесты).
- Реинвестируем экономию: деньги, не сгоревшие на лишних “девятках”, вкладываем в автоматизацию, тесты и мониторинг - падаем реже, поднимаемся быстрее.
🤔 Контрольные вопросы для фанатов 99.999 %
- Цена минуты: когда вы последний раз показали бизнесу, сколько стоит одна минута простоя вашего сервиса?
- Замороженные фичи: сколько релизов вы отменили или отложили ради еще одной “девятки” - и кто оплатил эту задержку?
- Реальный RCA: сколько денег вы уже сожгли на круглосуточные дежурства, потому что один критичный патч все еще не в проде?
- On‑call vs падение: есть ли цифры, что ваш 24 × 7 дежурный обходится дешевле, чем пять минут падения раз в квартал?
💡 Итог
Полное отсутствие сбоев - дорогое и неоправданное удовольствие. Грамотно разобранный инцидент дешевле “стерильного” аптайма и движет систему к зрелости. Вместо гонки за лишней “девяткой” инвестируйте в культуру RCA, автоматизацию и тесты - ROI будет выше.
