происшествия самит google
/ habr.com

Site Reliability Engineering: подборка полезных материалов

Собрали для вас самые полезные статьи по Site Reliability Engineering. В материалах ниже вы найдете полезные кейсы, информацию о внедрении SRE и применении отдельных практик ⤵️1️⃣ Error Budget, SLO и мониторинг: советы для начинающих SRE-инженеровКнига Google о SRE, статьи экспертов, документация и обучающие курсы дают исчерпывающие знания о том, как в идеале должен работать SRE в компаниях.

Правда, ключевое здесь – «в идеале». В этой статье мы поговорим о выстраивании рабочего процесса на старте, когда вам нужно выставить первый SLO, рассчитать error budget и мирно обо всем договориться с командой разработки и бизнесом.📋 Читать статью 2️⃣ Проверяем реалистичность SLO и анализируем риски, как настоящие SRE-инженерыУстановка SLO (Service Level Objective, целевых уровней обслуживания) — одна из базовых задач SRE.

По этим показателям удобно оценивать надежность службы. Противоположность SLO — бюджет на ошибки, то есть какой уровень ненадежности считать допустимым.

Читать на habr.com
Сайт imag.one - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Сейчас читают

DMCA