все фреймворки
07 · Framework

SRE Maturity

От героев on-call до error budgets и chaos
L1Reactive
Что измеряем:uptime
Как реагируем:геройство
Как учимся:тушим пожары
L2Managed
Что измеряем:SLA
Как реагируем:runbooks
Как учимся:постмортемы
L3Proactive
Что измеряем:SLO + error budget
Как реагируем:автоматизация
Как учимся:blameless-разборы
L4Resilient
Что измеряем:user-journey SLO
Как реагируем:саморемонт
Как учимся:game-days
L5Antifragile
Что измеряем:business SLI
Как реагируем:auto-rollback
Как учимся:chaos в проде

SRE-зрелость — это не «есть ли у нас дежурный», а на каком уровне дисциплина встроена в продукт. Лестница из 5 ступеней: Reactive → Managed → Proactive → Resilient → Antifragile.

На каждом уровне меняются три вещи: что измеряем (uptime → SLO → user journey SLO → бизнес-SLI), как реагируем (геройство → runbooks → автоматизация → саморемонт) и как учимся (тушим → постмортемы → game-days → chaos в проде).

Лестница помогает честно сказать команде, на какой ступени мы стоим и какие 2-3 практики нужно встроить, чтобы шагнуть на следующую — без карго-культа «давайте как в Google».

Как использовать модель
01

Назовите текущий уровень зрелости без попытки выглядеть лучше.

02

Сравните, что команда измеряет, как реагирует и как учится после инцидентов.

03

Выберите 2-3 практики, которые переводят команду на следующий уровень.

Источник в докладах
Поделиться
TelegramLinkedIn