все фреймворки
    07 · Framework

    SRE Maturity

    От героев on-call до error budgets и chaos
    L1Reactive
    Что измеряем:uptime
    Как реагируем:геройство
    Как учимся:тушим пожары
    L2Managed
    Что измеряем:SLA
    Как реагируем:runbooks
    Как учимся:постмортемы
    L3Proactive
    Что измеряем:SLO + error budget
    Как реагируем:автоматизация
    Как учимся:blameless-разборы
    L4Resilient
    Что измеряем:user-journey SLO
    Как реагируем:саморемонт
    Как учимся:game-days
    L5Antifragile
    Что измеряем:business SLI
    Как реагируем:auto-rollback
    Как учимся:chaos в проде

    SRE-зрелость — это не «есть ли у нас дежурный», а на каком уровне дисциплина встроена в продукт. Лестница из 5 ступеней: Reactive → Managed → Proactive → Resilient → Antifragile.

    На каждом уровне меняются три вещи: что измеряем (uptime → SLO → user journey SLO → бизнес-SLI), как реагируем (геройство → runbooks → автоматизация → саморемонт) и как учимся (тушим → постмортемы → game-days → chaos в проде).

    Лестница помогает честно сказать команде, на какой ступени мы стоим и какие 2-3 практики нужно встроить, чтобы шагнуть на следующую — без карго-культа «давайте как в Google».

    Источник в докладах