Собрали для вас самые полезные статьи по Site Reliability Engineering. В материалах ниже вы найдете полезные кейсы, информацию о внедрении SRE и применении отдельных практик ⤵️1️⃣ Error Budget, SLO и мониторинг: советы для начинающих SRE-инженеровКнига Google о SRE, статьи экспертов, документация и обучающие курсы дают исчерпывающие знания о том, как в идеале должен работать SRE в компаниях.
Правда, ключевое здесь – «в идеале». В этой статье мы поговорим о выстраивании рабочего процесса на старте, когда вам нужно выставить первый SLO, рассчитать error budget и мирно обо всем договориться с командой разработки и бизнесом.📋 Читать статью 2️⃣ Проверяем реалистичность SLO и анализируем риски, как настоящие SRE-инженерыУстановка SLO (Service Level Objective, целевых уровней обслуживания) — одна из базовых задач SRE.
По этим показателям удобно оценивать надежность службы. Противоположность SLO — бюджет на ошибки, то есть какой уровень ненадежности считать допустимым.
Читать на habr.com