ІНЖЕНЕР З НАДІЙНОСТІ САЙТУ (SRE): що це таке та як вони працюють?

ІНЖЕНЕР З НАДІЙНОСТІ САЙТУ
Зміст приховувати
  1. Інженер з надійності сайту
    1. Індикатори рівня обслуговування (SLI)
    2. SLO, або цілі рівня обслуговування
    3. Помилкові бюджети
  2. Посадова інструкція інженера з надійності сайту
    1. Як написати посадову інструкцію інженера з надійності сайту
  3. Роль інженера з надійності сайту
    1. #1. Експертиза розробки програмного забезпечення
    2. #2. Можливість підтримки ескалації інцидентів і усунення несправностей
    3. #3. Запис процедур та інформації
    4. #4. Оцінка інцидентів після вирішення 
    5. #5. Управління навантаженням
    6. #6. Знання систем обробки даних
    7. #7. Експертиза проектування конфігурації
    8. #8. Можливість перебалансувати навантаження 
  4. Зарплата інженера з надійності сайту
  5. Сертифікація інженера з надійності сайту
  6. Яке місце SRE у вашій команді?
  7. Чи є SRE високооплачуваною роботою?
  8. Чи кодують інженери надійності сайту?
  9. Чи потрібен вам ступінь для SRE?
  10. Підсумки
    1. Статті по темі
    2. Список використаної літератури:

Розробка надійності сайту (SRE) використовує розробку програмного забезпечення для автоматизації завдань ІТ-операцій, таких як керування виробничою системою, керування змінами, реагування на інциденти та реагування на надзвичайні ситуації, які системні адміністратори (системні адміністратори) інакше вирішували б вручну. Читайте далі, щоб дізнатися більше про опис посади, роль, зарплату та сертифікацію інженера з надійності сайту.

Основна ідея SRE полягає в тому, що автоматизація нагляду за масивними програмними системами за допомогою програмного коду є більш масштабованим і довгостроковим рішенням, ніж ручне втручання, особливо якщо такі системи розростаються або переходять у хмару.

SRE також може значно зменшити або усунути конфлікт, який природним чином виникає між командами розробників, які хочуть постійно випускати нове або оновлене програмне забезпечення у виробництво, та командами операцій, які не хочуть випускати нове програмне забезпечення чи оновлення, якщо вони не впевнені, що виграли не спричиняє збоїв чи інших операційних проблем. Як наслідок, навіть якщо SRE не є необхідним для DevOps, воно тісно дотримується концепцій DevOps і може допомогти DevOps досягти успіху.

Бену Трейнору Слоссу, віце-президенту з розробки Google, належить розробка ідеї SRE. Він відомий тим, що сказав, що «SRE — це те, що відбувається, коли ви просите інженера-програміста розробити команду операцій».

Інженер з надійності сайту

Інженер з надійності сайту — це розробник програмного забезпечення зі знанням ІТ-операцій — той, хто вміє кодувати, а також знає, як «тримати світло» у великій ІТ-системі.

Інженери з надійності сайтів витрачають більшу частину свого часу на створення коду, який автоматизує ручні ІТ-операції та завдання системного адміністрування, такі як аналіз журналів, налаштування продуктивності, застосування виправлень, тестування виробничих середовищ, реагування на інциденти та проведення посмертних досліджень. Згодом вони сподіваються витрачати на останнє набагато більше часу, а на перше — набагато менше.

На більш високому рівні команда SRE діє як сполучна ланка між командами розробки та операцій, дозволяючи групі розробників якнайшвидше випускати нове програмне забезпечення або нові функції, одночасно забезпечуючи узгоджений прийнятний рівень продуктивності ІТ-операцій і ризик помилок. відповідно до угод про рівень обслуговування (SLA), які компанія укладає зі своїми клієнтами. Команда SRE допомагає групам розробки та експлуатації у встановленні операційних стандартів на основі їх досвіду та великої кількості операційних даних.

Індикатори рівня обслуговування (SLI)

Рівні обслуговування систем вимірюються за допомогою таких показників, як доступність (час безвідмовної роботи) і затримка.

SLO, або цілі рівня обслуговування

Узгоджені показники для вимірювання рівня обслуговування включають:

Помилкові бюджети

Протягом найдовшого періоду система може працювати неправильно або працювати нижче очікуваного, не порушуючи договірних зобов’язань SLA. Команда розробки надійності сайту використовує бюджет помилок, який є не просто показником, щоб автоматично балансувати рівень інновацій компанії та надійність її послуг.

Посадова інструкція інженера з надійності сайту

Інструкція про посаду інженера з надійності сайту часто заохочує подавати заявки від людей із різним досвідом, наприклад інженерів програмного забезпечення з досвідом операцій, системних адміністраторів із досвідом програмування, спеціалістів із ІТ-операцій із досвідом кодування, системних архітекторів та менеджерів з автоматизації виробництва.

Моніторинг, автоматизація та підвищення продуктивності, доступності та надійності систем програмного забезпечення всередині організації є обов’язками SRE. Їм доручено запобігати проблемам, керувати інфраструктурою, розробляти ефективні методи моніторингу та гарантувати, що комп’ютерні системи працюють без збоїв.

Як написати посадову інструкцію інженера з надійності сайту

Простіше скласти посадову інструкцію інженера з надійності об’єкта після того, як визначено загальні обов’язки та компетенцію функції.

Було б корисно, якби ви зосередилися на передачі критичних елементів позиції, таких як:

  • Ротація чергового персоналу для проактивного реагування на інциденти
  • Створюйте журнали дій після випадків, щоб можна було розробити автоматизовані рішення для реагування на інциденти.
  • Інструменти SRE використовуються для моніторингу інфраструктури, і інструменти рекомендуються за потреби.
  • Створення механізмів реагування на інциденти та моніторингу тривог.
  • Поліпшення командної роботи та операційних процедур
  • Автоматизація конвеєрної інфраструктури CI/CD через кодування
  • Підтримуйте надійність, плануючи, будуючи та оновлюючи фундаментальну інфраструктуру в міру масштабування рішення.
  • Необхідно продемонструвати сильні здібності до програмування та глибоке розуміння системи.
  • Зробіть культурні зміни, щоб закласти основу для реформ процесу.

Технічні вимоги до посади повинні бути збалансовані з навичками, необхідними для досягнення успіху на посаді, як описано в посадовій інструкції.

Роль інженера з надійності сайту

Важливо відзначити, що роль інженера з надійності сайту рідко вимагає першокурсників і потрібен певний практичний досвід. Посада вимагає стратегічного та практичного розуміння численних різних функцій, чого неможливо досягти за допомогою суто академічного навчання.

Посадова роль інженера з надійності сайту включатиме такі завдання та обов’язки:

#1. Експертиза розробки програмного забезпечення

Традиційні ІТ-менеджери та керівники сайтів із продуктами, які залежать від ручних та ітераційних процедур, мають більш стійку та розумну заміну в SRE. Їм потрібно створити корисне та спеціально розроблене програмне забезпечення для вдосконалення поточної системи. Наприклад, інженеру з надійності сайту може бути доручено створити з нуля платформу для автоматизованих попереджень на переносних пристроях. Зрештою, операції — це проблема програмного забезпечення — основний принцип розробки надійності сайту. Через це SRE повинні бути обізнаними з розробкою програмного забезпечення та добре працювати з популярними мовами сценаріїв.

#2. Можливість підтримки ескалації інцидентів і усунення несправностей

Автоматизація або довідкова служба з базовими навичками зазвичай здатна впоратися з інцидентами ІТ-інфраструктури на першому рівні. Інженерні групи з надійності сайтів повинні бути готові до ескалації та складнішого усунення несправностей, оскільки не всі проблеми можна вирішити швидко. Коли втручання першого та другого рівнів не вдається вирішити проблему виробничого середовища, інцидент посилюється. SRE виходять на вищий рівень, щоб вони могли впроваджувати найсучасніші рішення нагальних проблем. Щоб уникнути подібних ескалацій у майбутньому, вони також повинні зафіксувати випадок і створити автоматичні відповіді.

#3. Запис процедур та інформації

Міжфункціональні експерти з різних відділів, включаючи розробку програмного забезпечення, ІТ-операції, службу підтримки першого та другого рівнів тощо, часто співпрацюватимуть з інженерами з надійності сайту. Це означає, що з часом люди накопичують значну кількість інформації, яка часто є незадокументованою. Без документації відділи продовжують працювати в силосах, і лише певні люди мають кваліфікацію для виконання певної роботи. У результаті на SRE покладено обов’язок створювати внутрішню документацію, посібники та інші централізовані сховища знань, які можуть допомогти поточним командам і майбутнім найнятим ресурсам.

#4. Оцінка інцидентів після вирішення 

«Посмертна культура» є одним із ключових принципів інженера з надійності сайту. Це означає, що проблема чи інцидент не закриваються автоматично після їх вирішення. Натомість SRE вивчають деталі та обставини, які призвели до інциденту, не приписуючи винних, щоб покращити інфраструктуру надалі та уникнути збоїв, спричинених першопричиною. Для проведення посмертного огляду необхідний добре написаний посмертний документ, який містить важливі деталі. Час і дати, імена зацікавлених сторін, вплив на користувачів і доходи, першопричини, отримані уроки та дії будуть включені в документ.

#5. Управління навантаженням

Процеси та методи, які використовуються для балансування ресурсів центру обробки даних із трафіком і попитом на послуги, називаються керуванням навантаженням. Різні обставини, як-от сплеск попиту, викликаний неочікуваними ринковими тенденціями або фізичними випадками, можуть призвести до переривання надання послуг у будь-який час. Розуміючи, що 100% часу безвідмовної роботи неможливо досягти фізично, експерти з надійності сайтів прагнуть забезпечити якомога більшу доступність послуг. Вони повинні використовувати стратегії, які втручаються, якщо автоматичне рішення не вдасться, наприклад, перемикачі вимкнення та ручні перевизначення. SRE часто відповідають за трикомпонентну систему керування навантаженням, яка включає балансування навантаження, відкидання навантаження та автоматичне масштабування.

#6. Знання систем обробки даних

Щоб задовольнити три потреби великого обсягу трафіку та послуг із високою пропускною здатністю, важливі ефективні конвеєри обробки даних. Сучасний бізнес використовуватиме дані з багатьох джерел, у тому числі великих даних. Щоб забезпечити функції додатків або керувати прийняттям рішень, інженери з надійності сайтів повинні створити конвеєри обробки даних, які перетворюють ці фрагментовані та невпорядковані набори даних в упорядковану інформацію. Проблеми з використанням можуть бути результатом затримок або дефектів у конвеєрі, і для їх усунення потрібно багато часу та роботи. Відповідальність SRE полягає в зменшенні цих ризиків і забезпеченні найвищого рівня доступності послуг для програм, які покладаються на конвеєри обробки даних.

#7. Експертиза проектування конфігурації

Системи програмного забезпечення необхідно регулярно налаштовувати належним чином, оскільки вони не є жорсткими та постійно змінюються відповідно до потреб трафіку та бізнесу. Управління конфігурацією для програмних продуктів, наборів даних і виробничих систем, які запускають служби, є частиною посади SRE. У розробці конфігурації необхідно віддати першочергову увагу двом елементам: простоті для майбутніх команд SRE, щоб налаштувати систему з найменшою кількістю роботи, і надійності, щоб користувачі могли насолоджуватися високою доступністю та безперебійними послугами додатків. Інженери з надійності сайту можуть створити інструменти, які допоможуть створити конфігурацію та керувати нею в цій ситуації.

#8. Можливість перебалансувати навантаження 

Кожен інженер у команді SRE має потрібний обсяг роботи, щоб використати свої навички та вміння. Тому ніхто не переобтяжений. Однак дисбаланс завдань може бути результатом змін у ресурсах, відпусток та інших перерв. Оскільки SRE керують критично важливою для бізнесу інфраструктурою, яка не витримує навіть дня перерви, це серйозна проблема. Інженери часто перенапружуються, відволікаються на дрібні клопоти та витрачають менше часу на розробку, яка додає цінність, коли не вистачає робочої сили. Щоб керувати робочим навантаженням, вони повинні мати можливість реструктурувати команди, налаштовувати інструменти або робити те й інше одночасно.

Зарплата інженера з надійності сайту

Ми можемо з упевненістю заявити, що інженери з надійності сайтів не тільки відповідальні за багато, але й що будь-яка організація, яка хоче уникнути повної цифрової катастрофи, повинна скористатися їхнім талантом і навичками. Інший спосіб сказати, що інженер з надійності сайту може заробити багато грошей як зарплату. Як і в будь-якій дискусії про зарплату, факторами, які найбільше впливають на те, скільки ви можете заробити, є ваш досвід, місцезнаходження та компанія.

За даними ZipRecruiter, середня річна зарплата інженера з надійності сайту в США становить 130,238 XNUMX доларів.
Середня цифра, включаючи інший дохід, становить 236,000 450,000 доларів, згідно з одним викидом. Доходи Гремліна досягають XNUMX XNUMX доларів на рік.

Сертифікація інженера з надійності сайту

Свідченням навичок і знань SRE є сертифікація інженера з надійності сайту, яку пропонує GSDC. Це доводить, що заявник здатний використовувати методи, практики та концепції SRE для вирішення проблем у реальному світі.

Для професіоналів, які бажають покращити свої шанси на працевлаштування та розвивати свою кар’єру в галузі розробки надійності об’єктів, сертифікація інженера з надійності об’єктів має вирішальне значення. Це дає кандидату конкурентну перевагу на ринку праці та демонструє його відданість навчанню та зростанню протягом усього життя.

Сертифікація інженера з надійності сайту також може бути корисною для організацій, які хочуть переконатися, що їхні SRE здатні керувати та підтримувати складні системи. Це гарантує, що кандидат може створювати, будувати та запускати надійні системи, які відповідають або перевищують необхідні цілі щодо рівня обслуговування.

У сучасному швидкоплинному та складному технологічному середовищі сертифікація інженера з надійності об’єкта від GSDC є великою перевагою як для окремих осіб, так і для підприємств.

Він перевіряє здібності та знання SRE і демонструє прихильність до надійності, масштабованості та продуктивності.

Яке місце SRE у вашій команді?

Ролі та обов’язки інженерів з надійності сайтів є важливими для постійного вдосконалення персоналу, процесів і технологій будь-якої організації. Розробка надійності сайту пропонує багато переваг у плані швидкості та надійності, незалежно від того, чи ваша команда вже перейняла повноцінну культуру DevOps, чи ви все ще працюєте над змінами.

SRE, природно, знаходиться на ланці розробки програмного забезпечення, операцій і підтримки. SRE — це ідеальне поєднання можливостей для зміцнення зв’язку між ІТ та розробниками, що забезпечує швидші цикли зворотного зв’язку, кращу командну роботу та надійніше програмне забезпечення.

Чи є SRE високооплачуваною роботою?

За даними Glassdoor [103,480], середня річна зарплата інженера з надійності сайту в США становить 1 22,321 доларів США. SRE також може отримати додаткову винагороду в розмірі 125,801 XNUMX долар США, наприклад бонуси або участь у прибутку, при річній зарплаті в XNUMX XNUMX долар США.

Чи кодують інженери надійності сайту?

SRE приділять багато часу написанню коду та створенню інструментів, які дозволять інженерам спілкуватися з інфраструктурою. Наприклад, SRE може створювати звіти про надійність, які враховують довгострокову продуктивність.

Чи потрібен вам ступінь для SRE?

Ви повинні закінчити програму бакалавра, якщо хочете працювати інженером з надійності сайту. Роботодавці зазвичай віддають перевагу тим, хто має дипломи з комп’ютерних наук. Це означає, що наголос у вашій доуніверситетській освіті буде зроблено на комп’ютері та комп’ютерних знаннях.

Підсумки

Які переваги може надати розробка надійності сайту? Ми вважаємо, що це згуртована мета-команда, міжкомандна співпраця, яка змушує всіх працювати разом для досягнення однієї мети. Ми живемо в пов’язаному суспільстві, де технології покращують нас, а не відчужують. У розробці програмного забезпечення немає нічого іншого.

Інженери з надійності об’єктів матимуть певну свободу та незалежність, яку вони не часто бачать в інших професіях, що є ще одним важливим аспектом SRE. Це професія для вас, якщо вам подобається проводити експерименти або змінювати організаційні структури для підвищення надійності системи. Крім того, ви, швидше за все, істотно зміните життя своїх колег, і це не маленьке досягнення.

Крім того, ви дізнаєтеся про весь спектр ІТ-операцій і дисциплін розробки програмного забезпечення. Це означає, що, окрім об’єднання різноманітних команд, ви також постійно розширюватимете свій набір навичок. Завдяки цьому ви вдосконалитесь не лише як розробник, а й як менеджер.

Список використаної літератури:

залишити коментар

Ваша електронна адреса не буде опублікований. Обов'язкові поля позначені * *

Вам також може сподобатися