ИНЖЕНЕР ПО НАДЕЖНОСТИ САЙТА (SRE): что это такое и как они работают?

ИНЖЕНЕР ПО НАДЕЖНОСТИ САЙТА
Содержание Спрятать
  1. Инженер по надежности сайта
    1. Индикаторы уровня обслуживания (SLI)
    2. SLO, или цели уровня обслуживания
    3. Ошибочные бюджеты
  2. Должностная инструкция инженера по надежности сайта
    1. Как написать должностную инструкцию инженера по надежности сайта
  3. Роль инженера по надежности сайта
    1. №1. Опыт разработки программного обеспечения
    2. № 2. Способность поддерживать эскалацию инцидентов и устранение неполадок
    3. №3. Запись процедур и информации
    4. № 4. Оценка инцидентов после разрешения 
    5. № 5. Управление нагрузкой
    6. № 6. Знание систем обработки данных
    7. № 7. Опыт проектирования конфигураций
    8. №8. Способность перебалансировать рабочие нагрузки 
  4. Зарплата инженера по надежности сайта
  5. Сертификация инженера по надежности объекта
  6. Какое место SRE занимает в вашей команде?
  7. Является ли SRE высокооплачиваемой работой?
  8. Кодируют ли инженеры по надежности сайта?
  9. Вам нужна степень для SRE?
  10. Обзор
    1. Статьи по теме
    2. Ссылки:

Инженерия надежности сайта (SRE) использует разработку программного обеспечения для автоматизации задач ИТ-операций, таких как управление производственной системой, управление изменениями, реагирование на инциденты и реагирование на чрезвычайные ситуации, которые в противном случае системные администраторы (сисадмины) выполняли бы вручную. Читайте дальше, чтобы узнать больше об описании работы, роли, зарплате и сертификации инженера по надежности сайта.

Основная идея SRE заключается в том, что автоматизация наблюдения за массивными программными системами с использованием программного кода является более масштабируемым и долгосрочным решением, чем ручное вмешательство, особенно если такие системы растут или перемещаются в облако.

SRE также может значительно уменьшить или устранить конфликт, который естественным образом возникает между командами разработчиков, которые хотят постоянно выпускать новое или обновленное программное обеспечение в производственную среду, и операционными группами, которые не хотят выпускать какое-либо новое программное обеспечение или обновления, если они не уверены, что выиграют. не вызывать перебоев в работе или других операционных проблем. В результате, даже если SRE не требуется для DevOps, он тесно связан с концепциями DevOps и может помочь DevOps добиться успеха.

Бену Трейнору Слоссу, вице-президенту по инженерным вопросам Google, приписывают разработку идеи SRE. Он известен тем, что сказал: «SRE — это то, что происходит, когда вы просите инженера-программиста спроектировать операционную группу».

Инженер по надежности сайта

Инженер по надежности сайта — это разработчик программного обеспечения со знанием ИТ-операций, человек, умеющий программировать и знающий, как «поддерживать свет» в большой ИТ-системе.

Инженеры по надежности сайтов тратят большую часть своего времени на создание кода, который автоматизирует ручные ИТ-операции и задачи системного администрирования, такие как анализ журналов, настройка производительности, применение исправлений, тестирование производственных сред, реагирование на инциденты и проведение постмортемов. Со временем они надеются тратить намного больше времени на второе и намного меньше на первое.

На более высоком уровне команда SRE действует как связующее звено между командами разработки и эксплуатации, позволяя группе разработчиков как можно быстрее выпускать новое программное обеспечение или новые функции, а также обеспечивая согласованный приемлемый уровень производительности ИТ-операций и риска ошибок. в соответствии с соглашениями об уровне обслуживания (SLA), которые компания заключает со своими клиентами. Команда SRE помогает группам разработки и эксплуатации в установлении операционных стандартов на основе их опыта и множества операционных данных.

Индикаторы уровня обслуживания (SLI)

Уровни обслуживания систем измеряются с помощью таких показателей, как доступность (время безотказной работы) и задержка.

SLO, или цели уровня обслуживания

Показатели для измерения уровней обслуживания, которые были согласованы, включают:

Ошибочные бюджеты

В течение самого длительного периода система может работать со сбоями или работать не так, как ожидалось, без нарушения договорных обязательств по SLA. Группа инженеров по надежности сайта использует бюджет ошибок, который представляет собой нечто большее, чем просто показатель, чтобы автоматически сбалансировать уровень инноваций компании с надежностью ее услуг.

Должностная инструкция инженера по надежности сайта

Описание работы инженера по надежности сайта часто поощряет заявки от людей с различным опытом, таких как инженеры-программисты с опытом эксплуатации, системные администраторы с опытом программирования, специалисты по ИТ-операциям с опытом программирования, системные архитекторы и менеджеры по автоматизации производства.

Мониторинг, автоматизация и повышение производительности, доступности и надежности программных систем внутри организации являются обязанностями SRE. Им поручено предотвращать проблемы, управлять инфраструктурой, разрабатывать эффективные методы мониторинга и обеспечивать бесперебойную работу компьютерных систем.

Как написать должностную инструкцию инженера по надежности сайта

Описание работы инженера по надежности объекта проще составить после того, как будут определены общие обязанности и компетенции этой функции.

‍Было бы полезно, если бы вы сосредоточились на сообщении важнейших элементов позиции, таких как:

  • Ротация дежурного персонала для активного реагирования на инциденты
  • Создавайте журналы действий после происшествий, чтобы можно было разработать автоматизированные решения для реагирования на инциденты.
  • Инструменты SRE используются для мониторинга инфраструктуры, и инструменты рекомендуются по мере необходимости.
  • Создайте механизмы для реагирования на инциденты и мониторинга сигналов тревоги.
  • Улучшение командной работы и операционных процедур
  • Автоматизация инфраструктуры конвейера CI/CD посредством кодирования
  • Поддерживайте надежность, планируя, создавая и обновляя базовую инфраструктуру по мере масштабирования решения.
  • Должны быть показаны сильные способности программирования и глубокое понимание системы.
  • Внесите изменения в культуру, чтобы заложить основу для реформ процесса.

Технические требования должности должны быть сбалансированы с мягкими способностями, необходимыми для достижения успеха в должности, как описано в описании должности.

Роль инженера по надежности сайта

Важно отметить, что роль инженера по надежности сайта редко привлекает первокурсников и что требуется некоторый практический опыт. Позиция требует стратегического и практического понимания многочисленных различных функций, которые не могут быть достигнуты посредством чисто академического обучения.

В должностной обязанности инженера по надежности объекта будут упомянуты следующие задачи и обязанности:

№1. Опыт разработки программного обеспечения

Традиционные менеджеры по ИТ и продуктам, которые зависят от ручных и итерационных процедур, могут найти более устойчивую и интеллектуальную замену в лице SRE. Им необходимо создать полезное и специально разработанное программное обеспечение для улучшения существующей системы. Например, инженеру по надежности сайта может быть поручено создать с нуля платформу для автоматических предупреждений на носимых устройствах. В конце концов, операции — это программная проблема — основной принцип проектирования надежности сайта. Из-за этого SRE должны хорошо разбираться в разработке программного обеспечения и уметь работать с популярными языками сценариев.

№ 2. Способность поддерживать эскалацию инцидентов и устранение неполадок

Автоматизация или служба поддержки с базовыми навыками, как правило, способны справиться с инцидентами в ИТ-инфраструктуре на первом уровне. Команды инженеров по обеспечению надежности должны быть готовы к эскалации и более сложному устранению неполадок, поскольку не все проблемы могут быть устранены быстро. Когда вмешательства первого и второго уровня не могут решить проблему производственной среды, инцидент перерастает в эскалацию. SRE выходят на более высокий уровень, чтобы внедрять передовые решения насущных проблем. Чтобы избежать подобных эскалаций в будущем, они также должны зафиксировать инцидент и создать автоматические ответы.

№3. Запись процедур и информации

Кросс-функциональные эксперты из различных отделов, включая разработку программного обеспечения, ИТ-эксплуатацию, службу поддержки первого и второго уровней поддержки и т. д., часто будут сотрудничать с инженерами по надежности объектов. Это означает, что со временем люди накапливают значительный объем информации, которая часто не документируется. Без документации отделы продолжают работать обособленно, и только определенные люди имеют квалификацию для выполнения определенных работ. В результате на SRE была возложена обязанность по созданию внутренней документации, сборников сценариев и других централизованных хранилищ знаний, которые могут помочь текущим командам и будущим нанятым ресурсам.

№ 4. Оценка инцидентов после разрешения 

«Постмортемная культура» — один из ключевых принципов инженера по надежности сайта. Это означает, что проблема или инцидент не закрываются автоматически после того, как они были решены. Вместо этого SRE изучают детали и обстоятельства, которые привели к инциденту, не возлагая вину, чтобы улучшить инфраструктуру в будущем и избежать простоев, вызванных основной причиной. Для проведения вскрытия необходим хорошо написанный документ вскрытия, включающий важные детали. Время и даты, имена заинтересованных сторон, влияние на пользователей и доходы, основные причины, извлеченные уроки и действия будут включены в документ.

№ 5. Управление нагрузкой

Процессы и методы, используемые для балансировки предложения ресурсов центра обработки данных с трафиком и спросом на услуги, называются управлением нагрузкой. Различные обстоятельства, такие как всплеск спроса, вызванный неожиданными рыночными тенденциями или физическими авариями, могут привести к прерыванию доступности услуг в любое время. Понимая, что 100% работоспособность никогда не может быть достигнута физически, эксперты по надежности сайтов стремятся обеспечить как можно большую доступность услуг. Они должны использовать стратегии, которые будут действовать в случае сбоя автоматического решения, такие как аварийные выключатели и ручные обходы. SRE часто отвечают за систему управления нагрузкой, состоящую из трех частей, которая включает балансировку нагрузки, сброс нагрузки и автоматическое масштабирование.

№ 6. Знание систем обработки данных

Эффективные конвейеры обработки данных необходимы для удовлетворения трех потребностей, связанных с большим объемом трафика и услугами с высокой пропускной способностью. Современный бизнес будет использовать данные из многочисленных источников, включая большие данные. Чтобы усилить функции приложения или направить процесс принятия решений, инженеры по обеспечению надежности должны создать конвейеры обработки данных, которые преобразуют эти фрагментированные и неупорядоченные наборы данных в упорядоченную информацию. Проблемы с использованием могут возникать из-за задержек или дефектов конвейера, и их устранение требует много времени и усилий. В обязанности SRE входит снижение этих рисков и обеспечение высочайшего уровня доступности сервисов для приложений, использующих конвейеры обработки данных.

№ 7. Опыт проектирования конфигураций

Программные системы необходимо регулярно правильно настраивать, потому что они не являются жесткими и постоянно меняются в соответствии с потребностями трафика и бизнеса. Управление конфигурацией программных продуктов, наборов данных и производственных систем, на которых выполняются службы, является частью должности SRE. Два элемента должны иметь первостепенное значение при проектировании конфигурации: простота для будущих групп SRE для настройки системы с наименьшим объемом работы и надежность для пользователей, чтобы они могли наслаждаться высокой доступностью и бесперебойными службами приложений. Инженеры по надежности сайта могут создать инструменты, которые помогут в создании конфигурации и управлении ею в этой ситуации.

№8. Способность перебалансировать рабочие нагрузки 

У каждого инженера в команде SRE ровно столько работы, сколько нужно, чтобы использовать свои навыки и способности. Поэтому никто не перегружен. Однако дисбаланс задач может возникнуть из-за изменений в ресурсах, отпусков и других перерывов. Поскольку SRE управляют критически важной для бизнеса инфраструктурой, которая не может выдержать даже дня перерыва, это является серьезной проблемой. Инженеры часто перенапрягаются, отвлекаются на черную работу и тратят меньше времени на разработку, добавляющую ценность, в условиях нехватки рабочей силы. Для управления рабочими нагрузками они должны иметь возможность реструктурировать команды, настраивать инструменты или делать и то, и другое одновременно.

Зарплата инженера по надежности сайта

Мы можем с уверенностью заявить, что инженеры по надежности сайтов не только несут ответственность за многое, но и любая организация, которая хочет избежать полной цифровой катастрофы, должна воспользоваться их талантом и навыками. Другой способ сказать, что инженер по надежности сайта может зарабатывать много денег в качестве зарплаты. Как и в любом споре о заработной плате, факторы, оказывающие наибольшее влияние на то, сколько вы можете заработать, — это ваш опыт, местонахождение и компания.

По данным ZipRecruiter, средняя годовая зарплата инженера по надежности сайтов в США составляет 130,238 XNUMX долларов.
Средняя цифра, включая другие доходы, составляет 236,000 450,000 долларов, согласно одному выбросу. Доход Гремлина достигает XNUMX XNUMX долларов в год.

Сертификация инженера по надежности объекта

Свидетельством навыков и знаний SRE является сертификат инженера по надежности объекта, который предлагает GSDC. Это доказывает, что заявитель способен использовать методы, практики и концепции SRE для решения проблем в реальном мире.

Для профессионалов, которые хотят улучшить свои шансы на трудоустройство и развить свою карьеру в области проектирования надежности объектов, сертификация инженера по надежности объектов имеет решающее значение. Это дает кандидату конкурентное преимущество на рынке труда и демонстрирует его приверженность непрерывному обучению и росту.

Сертификация инженера по надежности сайта также может быть полезна для организаций, которые хотят убедиться, что их SRE способны управлять сложными системами и обслуживать их. Это гарантирует, что кандидат может создавать, конструировать и эксплуатировать надежные системы, которые соответствуют или превышают необходимые цели уровня обслуживания.

В сегодняшней быстро меняющейся и сложной технологической среде сертификация инженера по надежности объектов от GSDC является большим преимуществом как для частных лиц, так и для предприятий.

Он проверяет способности и знания SRE и демонстрирует приверженность надежности, масштабируемости и производительности.

Какое место SRE занимает в вашей команде?

Роли и обязанности инженеров по надежности объектов необходимы для постоянного улучшения персонала, процессов и технологий любой организации. Проектирование надежности сайта предлагает множество преимуществ с точки зрения скорости и надежности, вне зависимости от того, внедрила ли ваша команда полноценную культуру DevOps или вы все еще работаете над изменениями.

SRE, естественно, находится на стыке разработки программного обеспечения, эксплуатации и поддержки. SRE — это идеальное сочетание возможностей для укрепления связи между ИТ-отделом и разработчиками, что приводит к более быстрым циклам обратной связи, лучшей командной работе и более надежному программному обеспечению.

Является ли SRE высокооплачиваемой работой?

По данным Glassdoor [103,480], средняя годовая зарплата инженера по надежности сайтов в США составляет 1 22,321 долларов. SRE также могут получить дополнительную компенсацию в размере 125,801 XNUMX долл. США, например, бонусы или участие в прибылях, при годовой зарплате в размере XNUMX XNUMX долл. США.

Кодируют ли инженеры по надежности сайта?

SRE будут уделять много времени написанию кода и созданию инструментов, позволяющих инженерам взаимодействовать с инфраструктурой. Например, SRE может создавать отчеты о надежности, в которых учитывается долгосрочная производительность.

Вам нужна степень для SRE?

Вы должны закончить программу бакалавриата, если хотите работать инженером по надежности сайта. Работодатели обычно отдают предпочтение тем, кто имеет степень в области компьютерных наук. Это означает, что основное внимание в вашем доуниверситетском образовании будет уделяться компьютерам и компьютерным знаниям.

Обзор

Какие преимущества может предложить проектирование надежности объекта? Мы думаем, что это сплоченная мета-команда, межкомандное сотрудничество, которое заставляет всех работать вместе для достижения одной цели. Мы живем в связанном обществе, где технологии улучшают нас, а не отчуждают. В разработке программного обеспечения все по-другому.

Инженеры по надежности объектов будут иметь определенную степень свободы и независимости, которую они не часто видят в других профессиях, что является еще одним важным аспектом SRE. Эта профессия для вас, если вам нравится экспериментировать или изменять организационные структуры для повышения надежности системы. Кроме того, вы, скорее всего, существенно измените жизнь своих коллег, а это немалое достижение.

Кроме того, вы узнаете обо всем спектре ИТ-операций и дисциплин разработки программного обеспечения. Это означает, что помимо объединения различных команд вы также будете постоянно расширять свой набор навыков. В результате вы станете лучше не только как разработчик, но и как менеджер.

Ссылки:

Оставьте комментарий

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *

Вам также может понравиться