SITE RELIABILITY ENGINEER (SRE): Was sind sie und wie funktionieren sie?

SITE-RELIABILITY-INGENIEUR

Site Reliability Engineering (SRE) nutzt Software-Engineering, um IT-Betriebsaufgaben wie Produktionssystemmanagement, Änderungsmanagement, Reaktion auf Vorfälle und Notfallreaktionen zu automatisieren, die Systemadministratoren (Systemadministratoren) andernfalls manuell erledigen würden. Lesen Sie weiter, um mehr über die Stellenbeschreibung, die Rolle, das Gehalt und die Zertifizierung eines Site Reliability Engineers zu erfahren.

Die zugrunde liegende Idee von SRE ist, dass die Automatisierung der Überwachung riesiger Softwaresysteme mithilfe von Softwarecode eine skalierbarere und langfristigere Lösung ist als manuelle Eingriffe, insbesondere wenn solche Systeme wachsen oder in die Cloud verlagert werden.

SRE kann auch den Konflikt, der natürlicherweise zwischen Entwicklungsteams, die kontinuierlich neue oder aktualisierte Software in die Produktion bringen möchten, und Betriebsteams, die keine neue Software oder Updates veröffentlichen möchten, wenn sie nicht sicher sind, dass sie gewonnen haben, erheblich verringern oder beseitigen Es kommt nicht zu Ausfällen oder anderen Betriebsproblemen. Auch wenn SRE für DevOps nicht notwendig ist, hält es sich daher eng an die Konzepte von DevOps und kann zum Erfolg von DevOps beitragen.

Ben Treynor Sloss, Vizepräsident für Technik bei Google, wird die Entwicklung der SRE-Idee zugeschrieben. Er ist dafür bekannt, dass er sagt: „SRE ist das, was passiert, wenn man einen Softwareentwickler bittet, ein Betriebsteam zu entwerfen.“

Site Reliability Engineer

Ein Site Reliability Engineer ist ein Softwareentwickler mit Kenntnissen im IT-Betrieb – jemand, der programmieren kann und der auch weiß, wie man in einem großen IT-System „das Licht anhält“.

Site Reliability Engineers verbringen den Großteil ihrer Zeit damit, Code zu erstellen, der manuelle IT-Vorgänge und Systemverwaltungsaufgaben automatisiert, wie z. B. die Analyse von Protokollen, die Durchführung von Leistungsoptimierungen, die Anwendung von Patches, das Testen von Produktionsumgebungen, die Reaktion auf Vorfälle und die Durchführung von Post-Mortem-Analysen. Mit der Zeit hoffen sie, viel mehr Zeit mit Letzterem und viel weniger Zeit mit Ersterem verbringen zu können.

Auf einer höheren Ebene fungiert das SRE-Team als Bindeglied zwischen den Entwicklungs- und Betriebsteams und ermöglicht es dem Entwicklungsteam, neue Software oder neue Funktionen so schnell wie möglich zu veröffentlichen und gleichzeitig ein vereinbartes akzeptables Maß an IT-Betriebsleistung und Fehlerrisiko sicherzustellen im Rahmen der Service Level Agreements (SLAs), die das Unternehmen mit seinen Kunden hat. Das SRE-Team unterstützt die Entwicklungs- und Betriebsteams bei der Festlegung von Betriebsstandards auf der Grundlage seines Fachwissens und einer Fülle von Betriebsdaten.

Service-Level-Indikatoren (SLIs)

Die Servicelevel von Systemen werden anhand von Maßen wie Verfügbarkeit (Betriebszeit) und Latenz gemessen.

SLOs oder Service-Level-Ziele

Zu den vereinbarten Indikatoren zur Messung des Service Levels gehören:

Falsche Budgets

Über einen längeren Zeitraum kann es vorkommen, dass ein System ausfällt oder nicht den Erwartungen entspricht, ohne dass die vertraglichen Verpflichtungen des SLA verletzt werden. Das Site Reliability Engineering-Team nutzt das Fehlerbudget, das mehr als nur eine Kennzahl ist, um automatisch die Innovationsrate eines Unternehmens mit der Zuverlässigkeit seiner Dienste in Einklang zu bringen.

Stellenbeschreibung Site Reliability Engineer

Die Stellenbeschreibung „Standortzuverlässigkeitsingenieur“ ermutigt häufig zu Bewerbungen von Personen mit unterschiedlichem Hintergrund, z. B. Softwareentwicklern mit Betriebserfahrung, Systemadministratoren mit Programmierkenntnissen, IT-Betriebsspezialisten mit Programmiererfahrung, Systemarchitekten und Produktionsautomatisierungsmanagern.

Zu den Aufgaben eines SRE gehören die Überwachung, Automatisierung und Verbesserung der Leistung, Verfügbarkeit und Zuverlässigkeit von Softwaresystemen innerhalb einer Organisation. Ihre Aufgabe ist es, Probleme zu verhindern, die Infrastruktur zu verwalten, effiziente Überwachungsmethoden zu entwickeln und dafür zu sorgen, dass Computersysteme reibungslos funktionieren.

Wie schreibe ich eine Stellenbeschreibung für einen Standortzuverlässigkeitsingenieur?

Es ist einfacher, die Stellenbeschreibung eines Site Reliability Engineers zu erstellen, wenn die allgemeinen Verantwortlichkeiten und Kompetenzen der Funktion identifiziert wurden.

‍Es wäre hilfreich, wenn Sie sich auf die Kommunikation der kritischen Elemente der Position konzentrieren würden, wie zum Beispiel:

  • Rotation des Bereitschaftspersonals für eine proaktive Reaktion auf Vorfälle
  • Erstellen Sie Aktionsprotokolle nach Ereignissen, damit automatisierte Lösungen für die Reaktion auf Vorfälle entwickelt werden können.
  • SRE-Tools werden zur Überwachung der Infrastruktur verwendet und bei Bedarf empfohlen.
  • Erstellen Sie Mechanismen für die Reaktion auf Vorfälle und die Überwachung von Alarmen.
  • Verbessern Sie die Teamarbeit und die Betriebsabläufe
  • Automatisierung der CI/CD-Pipeline-Infrastruktur durch Codierung
  • Sorgen Sie für Zuverlässigkeit, indem Sie die grundlegende Infrastruktur entsprechend der Skalierung der Lösung planen, aufbauen und aktualisieren.
  • Starke Programmierfähigkeiten und ein tiefes Systemverständnis sollten nachgewiesen werden.
  • Nehmen Sie kulturelle Veränderungen vor, um den Grundstein für Prozessreformen zu legen.

Die technischen Anforderungen der Position müssen mit den Soft Skills in Einklang gebracht werden, die für den Erfolg in der Position erforderlich sind, wie in der Stellenbeschreibung beschrieben.

Rolle als Site Reliability Engineer

Es ist wichtig zu beachten, dass für die Rolle eines Standortzuverlässigkeitsingenieurs selten Erstsemester erforderlich sind und dass eine gewisse praktische Erfahrung erforderlich ist. Die Position erfordert ein strategisches und praktisches Verständnis zahlreicher unterschiedlicher Funktionen, die durch rein akademisches Lernen nicht erreicht werden können.

Die Stellenbeschreibung eines Standortzuverlässigkeitsingenieurs umfasst die folgenden Aufgaben und Verantwortlichkeiten:

#1. Fachwissen in der Softwareentwicklung

Traditionelle IT- und Produktstandortmanager, die auf manuelle und iterative Verfahren angewiesen sind, finden in SREs einen nachhaltigeren und intelligenteren Ersatz. Sie müssen nützliche und speziell entwickelte Software entwickeln, um das aktuelle System zu verbessern. Beispielsweise könnte ein Site-Reliability-Ingenieur damit beauftragt werden, eine Plattform für automatisierte Warnungen auf Wearables von Grund auf zu entwickeln. Schließlich handelt es sich beim Betrieb um ein Softwareproblem – ein Grundprinzip des Site Reliability Engineering. Aus diesem Grund müssen SREs über Kenntnisse in der Softwareentwicklung verfügen und mit gängigen Skriptsprachen vertraut sein.

#2. Fähigkeit, die Eskalation und Fehlerbehebung von Vorfällen zu unterstützen

Automatisierung oder ein menschlicher Helpdesk mit Grundkenntnissen sind in der Regel in der Lage, IT-Infrastrukturvorfälle auf Ebene eins zu bearbeiten. Teams für Standortzuverlässigkeitstechnik müssen auf Eskalationen und schwierigere Fehlerbehebungen vorbereitet sein, da nicht alle Probleme sofort behoben werden können. Wenn Interventionen der Stufen eins und zwei ein Problem in der Produktionsumgebung nicht lösen können, eskaliert ein Vorfall. SREs steigen auf einer höheren Ebene ein, sodass sie innovative Lösungen für drängende Probleme umsetzen können. Um ähnliche Eskalationen in Zukunft zu vermeiden, müssen sie außerdem den Vorfall protokollieren und automatisierte Reaktionen erstellen.

#3. Die Aufzeichnung von Abläufen und Informationen

Funktionsübergreifende Experten aus verschiedenen Abteilungen, darunter Softwareentwicklung, IT-Betrieb, Service Help Desk Level XNUMX und Level XNUMX Support usw., arbeiten häufig mit Site Reliability Engineers zusammen. Dies bedeutet, dass Einzelpersonen im Laufe der Zeit einen umfangreichen Informationsbestand entwickeln, der häufig nicht dokumentiert ist. Ohne Dokumentation arbeiten die Abteilungen weiterhin isoliert und nur bestimmte Personen sind für die Ausführung bestimmter Aufgaben qualifiziert. Daher wurde den SREs die Aufgabe übertragen, interne Dokumentationen, Playbooks und andere zentralisierte Wissensspeicher zu erstellen, die aktuelle Teams und künftig eingestellte Ressourcen unterstützen können.

#4. Auswertung von Vorfällen nach deren Lösung 

Eine „Postmortem-Kultur“ ist eines der Grundprinzipien eines Site Reliability Engineers. Dies bedeutet, dass ein Problem oder Vorfall nicht automatisch geschlossen wird, nachdem es gelöst wurde. Stattdessen untersuchen SREs die Details und Umstände, die zu einem Vorfall geführt haben, ohne Schuldzuweisungen vorzunehmen, um die Infrastruktur künftig zu verbessern und durch die Grundursache verursachte Ausfälle zu vermeiden. Für die Durchführung von Obduktionen ist ein gut verfasstes Obduktionsdokument erforderlich, das die wichtigen Details enthält. Uhrzeit und Daten, Namen der Stakeholder, Auswirkungen auf Benutzer und Einnahmen, Grundursachen, gewonnene Erkenntnisse und Aktionspunkte werden alle in das Papier aufgenommen.

#5. Lastmanagement

Die Prozesse und Methoden, mit denen das Angebot an Rechenzentrumsressourcen mit dem Datenverkehr und der Servicenachfrage in Einklang gebracht wird, werden als Lastmanagement bezeichnet. Verschiedene Umstände, wie beispielsweise ein durch unerwartete Markttrends oder physische Unfälle verursachter Nachfrageanstieg, können dazu führen, dass die Serviceverfügbarkeit jederzeit unterbrochen wird. Obwohl wir uns darüber im Klaren sind, dass eine 100-prozentige Betriebszeit physisch nie erreichbar ist, sind Experten für Standortzuverlässigkeit bestrebt, so viel Serviceverfügbarkeit wie möglich sicherzustellen. Sie müssen Strategien anwenden, die eingreifen, wenn eine automatische Lösung fehlschlägt, wie zum Beispiel Notausschalter und manuelle Außerkraftsetzungen. SREs sind häufig für ein dreiteiliges Lastmanagementsystem verantwortlich, das Lastausgleich, Lastabwurf und automatische Skalierung umfasst.

#6. Kenntnisse über Datenverarbeitungssysteme

Um die drei Anforderungen von hohem Datenverkehr und Diensten mit hoher Bandbreite zu erfüllen, sind effiziente Datenverarbeitungspipelines unerlässlich. Ein modernes Unternehmen nutzt Daten aus zahlreichen Quellen, darunter auch Big Data. Um Anwendungsfunktionen zu unterstützen oder die Entscheidungsfindung zu leiten, müssen Standortzuverlässigkeitsingenieure Datenverarbeitungspipelines erstellen, die diese fragmentierten und ungeordneten Datensätze in organisierte Informationen umwandeln. Nutzungsprobleme können aus Verzögerungen oder Defekten in der Pipeline resultieren und deren Behebung viel Zeit und Arbeit erfordern. Die Aufgabe eines SRE besteht darin, diese Risiken zu reduzieren und ein Höchstmaß an Dienstverfügbarkeit für Anwendungen bereitzustellen, die auf Datenverarbeitungspipelines basieren.

#7. Fachwissen im Konfigurationsdesign

Softwaresysteme müssen regelmäßig ordnungsgemäß eingerichtet werden, da sie nicht starr sind und sich ständig ändern, um den Verkehrs- und Geschäftsanforderungen gerecht zu werden. Das Konfigurationsmanagement für Softwareprodukte, Datensätze und die Produktionssysteme, auf denen Dienste ausgeführt werden, ist Teil der SRE-Stelle. Beim Konfigurationsdesign muss zwei Elementen oberste Priorität eingeräumt werden: Einfachheit für zukünftige SRE-Teams, das System mit dem geringsten Arbeitsaufwand anzupassen, und Zuverlässigkeit, damit Benutzer von hoher Verfügbarkeit und unterbrechungsfreien Anwendungsdiensten profitieren können. Site-Reliability-Ingenieure können Tools erstellen, die in dieser Situation bei der Konfigurationserstellung und -verwaltung helfen.

#8. Fähigkeit, Arbeitslasten neu zu verteilen 

Jeder Ingenieur in einem SRE-Team hat genau die richtige Menge an Arbeit, um seine Fähigkeiten und Fertigkeiten einzusetzen. Niemand wird dadurch überlastet. Allerdings kann es aufgrund von Ressourcenänderungen, Urlaub und anderen Unterbrechungen zu einem Ungleichgewicht bei den Aufgaben kommen. Da SREs die geschäftskritische Infrastruktur verwalten, die nicht einmal einen Tag Unterbrechung tolerieren kann, ist dies eine ernsthafte Herausforderung. Ingenieure überfordern sich oft, lassen sich von untergeordneten Aufgaben ablenken und verbringen weniger Zeit mit der wertschöpfenden Entwicklung, wenn es an Arbeitskräften mangelt. Um die Arbeitsbelastung zu bewältigen, müssen sie in der Lage sein, Teams umzustrukturieren, Toolanpassungen vorzunehmen oder beides gleichzeitig zu tun.

Gehalt für Site Reliability Engineer

Wir können mit Sicherheit sagen, dass Site-Reliability-Ingenieure nicht nur für viel verantwortlich sind, sondern dass jedes Unternehmen, das eine vollständige digitale Katastrophe vermeiden möchte, ihre Talente und Fähigkeiten nutzen muss. Anders ausgedrückt: Ein Site Reliability Engineer kann als Gehalt viel Geld verdienen. Wie bei jeder Lohndebatte sind Ihre Erfahrung, Ihr Standort und Ihr Unternehmen die Faktoren, die den größten Einfluss darauf haben, wie viel Sie verdienen können.

Laut ZipRecruiter beträgt das durchschnittliche Jahresgehalt eines Site Reliability Engineers in den USA 130,238 US-Dollar.
Laut einem Ausreißer liegt der Durchschnittswert, einschließlich sonstiger Einkünfte, bei 236,000 US-Dollar. Gremlin verzeichnet jährliche Einkommen von bis zu 450,000 US-Dollar.

Zertifizierung zum Site Reliability Engineer

Ein Beweis für die Fähigkeiten und Kenntnisse eines SRE ist die Site Reliability Engineer-Zertifizierung, die GSDC anbietet. Es beweist, dass der Bewerber in der Lage ist, SRE-Techniken, -Praktiken und -Konzepte zur Lösung von Problemen in der realen Welt einzusetzen.

Für Fachkräfte, die ihre Jobchancen verbessern und ihre Karriere im Bereich Site Reliability Engineering vorantreiben möchten, ist die Zertifizierung als Site Reliability Engineer von entscheidender Bedeutung. Es verschafft dem Kandidaten einen Wettbewerbsvorteil auf dem Arbeitsmarkt und zeigt sein Engagement für lebenslanges Lernen und Wachstum.

Die Zertifizierung eines Site Reliability Engineers kann auch für Organisationen nützlich sein, die sicherstellen möchten, dass ihre SREs in der Lage sind, komplexe Systeme zu verwalten und zu warten. Es garantiert, dass der Kandidat zuverlässige Systeme erstellen, konstruieren und betreiben kann, die die erforderlichen Service-Level-Ziele erreichen oder übertreffen.

Im heutigen schnelllebigen und komplizierten technologischen Umfeld ist die Zertifizierung eines Site Reliability Engineers von GSDC sowohl für Einzelpersonen als auch für Unternehmen ein großer Vorteil.

Es überprüft die Fähigkeiten und Kenntnisse eines SRE und zeigt sein Engagement für Zuverlässigkeit, Skalierbarkeit und Leistung.

Wo passt SRE in Ihr Team?

Die Rollen und Pflichten von Site Reliability Engineers sind für die kontinuierliche Verbesserung der Mitarbeiter, Prozesse und Technologie eines Unternehmens von entscheidender Bedeutung. Site Reliability Engineering bietet viele Vorteile in Bezug auf Geschwindigkeit und Zuverlässigkeit, unabhängig davon, ob Ihr Team bereits eine vollwertige DevOps-Kultur eingeführt hat oder Sie noch an der Änderung arbeiten.

SRE steht naturgemäß an der Schnittstelle von Softwareentwicklung, Betrieb und Support. SRE ist die ideale Kombination von Fähigkeiten zur Stärkung der Bindung zwischen IT und Entwicklern, was zu schnelleren Feedback-Zyklen, besserer Teamarbeit und zuverlässigerer Software führt.

Ist SRE ein hochbezahlter Job?

Laut Glassdoor [103,480] beträgt das durchschnittliche Jahresgehalt eines Site Reliability Engineers in den USA 1 US-Dollar. SREs können bei einem Jahresgehalt von 22,321 US-Dollar außerdem eine zusätzliche Vergütung in Höhe von 125,801 US-Dollar erhalten, beispielsweise in Form von Boni oder Gewinnbeteiligungen.

Programmieren Site Reliability Engineers?

SREs werden viel Zeit darauf verwenden, Code zu schreiben und Tools zu erstellen, die es Ingenieuren ermöglichen, mit der Infrastruktur zu kommunizieren. Beispielsweise kann ein SRE Zuverlässigkeitsberichte erstellen, die die langfristige Leistung berücksichtigen.

Benötigen Sie einen Abschluss für SRE?

Wenn Sie als Standortzuverlässigkeitsingenieur arbeiten möchten, müssen Sie einen Bachelor-Studiengang abschließen. Arbeitgeber bevorzugen in der Regel diejenigen mit einem Abschluss in Informatik. Das bedeutet, dass der Schwerpunkt Ihrer voruniversitären Ausbildung auf Computern und Computerkenntnissen liegt.

Zusammenfassung

Welche Vorteile bietet Site Reliability Engineering? Wir glauben, dass es sich um ein zusammenhängendes Metateam handelt, eine teamübergreifende Zusammenarbeit, die dazu führt, dass alle gemeinsam auf das gleiche Ziel hinarbeiten. Wir leben in einer vernetzten Gesellschaft, in der die Technologie uns bereichert, anstatt uns zu entfremden. In der Softwareentwicklung ist nichts anders.

Site Reliability Engineers verfügen über ein Maß an Freiheit und Unabhängigkeit, das sie in anderen Berufen nicht oft vorfinden, was ein weiterer wichtiger Aspekt von SRE ist. Dies ist der richtige Beruf für Sie, wenn Sie gerne experimentieren oder Organisationsstrukturen verändern, um die Systemzuverlässigkeit zu verbessern. Darüber hinaus werden Sie höchstwahrscheinlich einen erheblichen Unterschied im Leben Ihrer Kollegen bewirken, und das ist keine geringe Leistung.

Darüber hinaus lernen Sie die gesamte Bandbreite der IT-Betriebs- und Softwareentwicklungsdisziplinen kennen. Das bedeutet, dass Sie nicht nur vielfältige Teams zusammenbringen, sondern auch Ihre Fähigkeiten kontinuierlich erweitern. Dadurch verbessern Sie sich nicht nur als Entwickler, sondern auch als Führungskraft.

References:

Hinterlassen Sie uns einen Kommentar

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *

Das Könnten Sie Auch Interessieren