INGÉNIEUR SITE FIABILITY (SRE) : Que sont-ils et comment fonctionnent-ils ?

INGÉNIEUR FIABILITÉ DES SITES

L'ingénierie de la fiabilité du site (SRE) utilise l'ingénierie logicielle pour automatiser les tâches d'exploitation informatique telles que la gestion du système de production, la gestion des changements, la réponse aux incidents et la réponse d'urgence que les administrateurs système (administrateurs système) géreraient autrement manuellement. Lisez la suite pour en savoir plus sur la description de poste, le rôle, le salaire et la certification d'un ingénieur en fiabilité de site.

L'idée sous-jacente de SRE est que l'automatisation de la surveillance de systèmes logiciels massifs à l'aide de code logiciel est une solution plus évolutive et à long terme qu'une intervention manuelle, en particulier si ces systèmes se développent ou migrent vers le cloud.

SRE peut également considérablement réduire ou éliminer le conflit qui survient naturellement entre les équipes de développement, qui souhaitent publier en continu des logiciels nouveaux ou mis à jour en production, et les équipes d'exploitation, qui ne souhaitent pas publier de nouveaux logiciels ou mises à jour à moins d'être certains d'avoir gagné. ne cause pas de pannes ou d'autres problèmes opérationnels. Par conséquent, même si SRE n'est pas nécessaire pour DevOps, il adhère étroitement aux concepts de DevOps et peut aider DevOps à réussir.

Ben Treynor Sloss, vice-président de l'ingénierie chez Google, est crédité d'avoir développé l'idée de SRE. Il est connu pour dire que "SRE est ce qui se passe lorsque vous demandez à un ingénieur logiciel de concevoir une équipe d'exploitation".

Ingénieur en fiabilité de site

Un ingénieur en fiabilité de site est un développeur de logiciels connaissant les opérations informatiques, quelqu'un qui peut coder et qui sait également comment « garder la lumière allumée » dans un grand système informatique.

Les ingénieurs en fiabilité du site passent la majorité de leur temps à créer du code qui automatise les opérations informatiques manuelles et les tâches d'administration du système, telles que l'analyse des journaux, le réglage des performances, l'application de correctifs, le test des environnements de production, la réponse aux incidents et la réalisation de post-mortems. Au fil du temps, ils espèrent passer beaucoup plus de temps sur ce dernier et beaucoup moins de temps sur le premier.

À un niveau supérieur, l'équipe SRE agit comme un lien entre les équipes de développement et d'exploitation, permettant à l'équipe de développement de publier de nouveaux logiciels ou de nouvelles fonctionnalités aussi rapidement que possible tout en garantissant un niveau acceptable convenu de performances des opérations informatiques et de risque d'erreur. dans le cadre des accords de niveau de service (SLA) que l'entreprise a conclus avec ses clients. L'équipe SRE aide les équipes de développement et d'exploitation à établir des normes d'exploitation basées sur leur expertise et une richesse de données d'exploitation.

Indicateurs de niveau de service (SLI)

Les niveaux de service des systèmes sont mesurés à l'aide de mesures telles que la disponibilité (temps de disponibilité) et la latence.

SLO ou objectifs de niveau de service

Les indicateurs de mesure des niveaux de service qui ont été convenus comprennent :

Budgets erronés

Pendant la plus longue période, un système peut mal fonctionner ou fonctionner en deçà des attentes sans enfreindre les obligations contractuelles du SLA. L'équipe d'ingénierie de la fiabilité du site utilise le budget d'erreur, qui est plus qu'une simple métrique, pour équilibrer automatiquement le taux d'innovation d'une entreprise avec la fiabilité de ses services.

Description du poste d'ingénieur en fiabilité du site

La description de poste d'ingénieur en fiabilité du site encourage fréquemment les candidatures de personnes d'horizons divers, tels que des ingénieurs en logiciel ayant une expérience des opérations, des administrateurs système ayant une expertise en programmation, des spécialistes des opérations informatiques ayant une expérience en codage, des architectes système et des responsables de l'automatisation de la production.

La surveillance, l'automatisation et l'amélioration des performances, de la disponibilité et de la fiabilité des systèmes logiciels au sein d'une organisation sont les tâches d'un SRE. Ils sont chargés de prévenir les problèmes, de gérer l'infrastructure, de développer des méthodes de surveillance efficaces et de s'assurer que les systèmes informatiques fonctionnent sans à-coups.

Comment rédiger une description de poste d'ingénieur en fiabilité de site

Il est plus simple de construire la fiche de poste d'un ingénieur fiabilité de site une fois que les responsabilités et compétences générales de la fonction ont été identifiées.

‍Il serait utile que vous vous concentriez sur la communication des éléments critiques du poste, tels que :

  • Rotation du personnel d'astreinte pour une réponse proactive aux incidents
  • Créez des journaux d'action après les événements afin que des solutions automatisées puissent être développées pour la réponse aux incidents.
  • Les outils SRE sont utilisés pour surveiller l'infrastructure, et des outils sont recommandés selon les besoins.
  • Créer des mécanismes de réponse aux incidents et de surveillance des alarmes.
  • Améliorer le travail d'équipe et les procédures opérationnelles
  • Automatisation de l'infrastructure du pipeline CI/CD grâce au codage
  • Maintenez la fiabilité en planifiant, en construisant et en mettant à jour l'infrastructure fondamentale à mesure que la solution évolue.
  • De solides capacités de programmation et une compréhension approfondie du système doivent être affichées.
  • Apportez des changements culturels pour jeter les bases des réformes de processus.

Les exigences techniques du poste doivent être équilibrées avec les compétences générales nécessaires pour réussir dans le poste, comme décrit dans la description de poste.

Rôle d'ingénieur en fiabilité du site

Il est important de noter que le rôle d'un ingénieur en fiabilité de site fait rarement appel à des étudiants de première année et qu'une certaine expérience pratique est requise. Le poste nécessite une compréhension stratégique et pratique de nombreuses fonctions distinctes, qui ne peuvent être réalisées par un apprentissage purement académique.

Le rôle d'un ingénieur en fiabilité de site mentionnera les tâches et responsabilités suivantes :

#1. Expertise en développement logiciel

Les responsables traditionnels de l'informatique et des sites de produits, qui dépendent de procédures manuelles et itératives, ont un remplaçant plus durable et intelligent dans les SRE. Ils doivent créer des logiciels utiles et spécifiquement conçus pour améliorer le système actuel. Par exemple, un ingénieur en fiabilité du site peut être chargé de créer à partir de zéro une plate-forme pour les avertissements automatisés sur les appareils portables. Après tout, les opérations sont un problème logiciel, un principe de base de l'ingénierie de la fiabilité des sites. Pour cette raison, les SRE doivent être bien informés sur le développement de logiciels et à l'aise avec les langages de script populaires.

#2. Capacité à prendre en charge l'escalade des incidents et le dépannage

L'automatisation ou un service d'assistance humain doté de compétences de base est généralement capable de gérer les incidents d'infrastructure informatique au niveau un. Les équipes d'ingénierie de la fiabilité du site doivent être prêtes pour les escalades et les dépannages plus difficiles car tous les problèmes ne peuvent pas être résolus rapidement. Lorsque les interventions de niveau un et de niveau deux ne parviennent pas à résoudre un problème d'environnement de production, un incident s'intensifie. Les SRE entrent à un niveau supérieur afin de pouvoir mettre en œuvre des solutions de pointe à des problèmes urgents. Pour éviter des escalades similaires à l'avenir, ils doivent également enregistrer l'occurrence et créer des réponses automatisées.

#3. L'enregistrement des procédures et des informations

Des experts interfonctionnels de divers départements, y compris le développement de logiciels, les opérations informatiques, le service d'assistance de niveau un et de niveau deux, etc., collaboreront fréquemment avec les ingénieurs de fiabilité du site. Cela signifie qu'au fil du temps, les individus développent un ensemble important d'informations qui sont souvent non documentées. Sans documentation, les départements continuent de fonctionner en silos et seules certaines personnes sont qualifiées pour effectuer certains travaux. En conséquence, le devoir de créer une documentation interne, des playbooks et d'autres référentiels de connaissances centralisés pouvant aider les équipes actuelles et les ressources embauchées à venir a été confié aux SRE.

#4. Évaluation des incidents après résolution 

La « culture post mortem » est l'un des principes clés d'un ingénieur fiabilité de site. Cela implique qu'un problème ou un incident n'est pas automatiquement clos une fois qu'il a été résolu. Au lieu de cela, les SRE examinent les détails et les circonstances qui ont conduit à un incident sans attribuer de blâme pour améliorer l'infrastructure à l'avenir et éviter les pannes provoquées par la cause première. Un document post-mortem bien écrit qui comprend les détails importants est nécessaire pour effectuer des examens post-mortem. L'heure et les dates, les noms des parties prenantes, l'impact sur les utilisateurs et les revenus, les causes profondes, les leçons apprises et les points d'action seront tous inclus dans le document.

#5. Gestion de la charge

Les processus et méthodes utilisés pour équilibrer l'approvisionnement en ressources du centre de données avec le trafic et la demande de service sont appelés gestion de la charge. Diverses circonstances, telles qu'un pic de demande provoqué par des tendances inattendues du marché ou des accidents physiques, peuvent entraîner une interruption de la disponibilité du service à tout moment. Tout en comprenant qu'une disponibilité de 100 % n'est jamais physiquement réalisable, les experts en fiabilité du site s'efforcent d'assurer autant que possible la disponibilité du service. Ils doivent utiliser des stratégies qui interviendront en cas d'échec d'une solution automatique, telles que les interrupteurs d'arrêt et les dérogations manuelles. Les SRE sont souvent en charge d'un système de gestion de charge en trois parties qui comprend l'équilibrage de charge, le délestage et la mise à l'échelle automatique.

#6. Connaissance des systèmes de traitement de données

Pour répondre aux trois besoins du trafic à volume élevé et des services à large bande passante, des pipelines de traitement de données efficaces sont essentiels. Une entreprise contemporaine utilisera des données provenant de nombreuses sources, y compris le big data. Pour alimenter les fonctionnalités de l'application ou guider la prise de décision, les ingénieurs en fiabilité du site doivent créer des pipelines de traitement de données qui transforment ces ensembles de données fragmentés et non ordonnés en informations organisées. Les problèmes d'utilisation peuvent résulter de retards ou de défauts dans le pipeline et prendre beaucoup de temps et de travail pour être résolus. La responsabilité d'un SRE est de réduire ces risques et de fournir le plus haut niveau de disponibilité de service pour les applications qui reposent sur des pipelines de traitement de données.

#7. Expertise en conception de configurations

Les systèmes logiciels doivent être correctement configurés régulièrement car ils ne sont pas rigides et changent constamment pour répondre aux besoins du trafic et de l'entreprise. La gestion de la configuration des produits logiciels, des ensembles de données et des systèmes de production qui exécutent les services fait partie du poste SRE. Deux éléments doivent être prioritaires dans la conception de la configuration : la simplicité pour les futures équipes SRE afin d'ajuster le système avec le moins de travail possible et la fiabilité pour que les utilisateurs bénéficient d'une haute disponibilité et de services applicatifs ininterrompus. Les ingénieurs de fiabilité du site peuvent créer des outils pour aider à la création et à la gestion de la configuration dans cette situation.

#8. Capacité à rééquilibrer les charges de travail 

Chaque ingénieur d'une équipe SRE a précisément la bonne quantité de travail pour utiliser ses compétences et ses capacités. Personne n'est donc surchargé. Cependant, un déséquilibre des tâches peut résulter de changements de ressources, de vacances et d'autres interruptions. Comme les SRE gèrent l'infrastructure stratégique qui ne peut tolérer ne serait-ce qu'un jour d'interruption, il s'agit d'un sérieux défi. Les ingénieurs se dépassent souvent, sont distraits par des tâches subalternes et passent moins de temps sur le développement qui ajoute de la valeur en cas de pénurie de main-d'œuvre. Pour gérer les charges de travail, ils doivent être en mesure de restructurer les équipes, d'ajuster les outils ou de faire les deux à la fois.

Salaire de l'ingénieur en fiabilité du site

Nous pouvons affirmer avec confiance que les ingénieurs en fiabilité des sites sont non seulement responsables de beaucoup, mais que toute organisation qui veut éviter une catastrophe numérique complète doit tirer parti de leur talent et de leurs compétences. Une autre façon de le dire est qu'un ingénieur en fiabilité de site peut gagner beaucoup d'argent en tant que salaire. Comme dans tout débat sur les salaires, les facteurs qui ont le plus d'influence sur le montant que vous pouvez gagner sont votre expérience, votre emplacement et votre entreprise.

Selon ZipRecruiter, le salaire annuel moyen d'un ingénieur en fiabilité de site aux États-Unis est de 130,238 XNUMX $.
Le chiffre médian, y compris les autres revenus, est de 236,000 450,000 $, selon une valeur aberrante. Gremlin a vu des revenus aussi élevés que XNUMX XNUMX $ par an.

Certification d'ingénieur en fiabilité du site

La preuve des compétences et des connaissances d'un SRE est la certification d'ingénieur en fiabilité du site offerte par GSDC. Cela prouve que le candidat est capable d'utiliser des techniques, des pratiques et des concepts SRE pour résoudre des problèmes dans le monde réel.

Pour les professionnels qui souhaitent améliorer leurs chances d'emploi et développer leur carrière dans le domaine de l'ingénierie de la fiabilité des sites, la certification d'ingénieur en fiabilité des sites est cruciale. Cela donne au candidat un avantage concurrentiel sur le marché du travail et démontre son dévouement à l'apprentissage et à la croissance tout au long de la vie.

La certification d'un ingénieur en fiabilité de site peut également être utile aux organisations qui souhaitent s'assurer que leurs SRE sont capables de gérer et de maintenir des systèmes complexes. Il garantit que le candidat peut créer, construire et exécuter des systèmes fiables qui atteignent ou dépassent les objectifs de niveau de service nécessaires.

Dans l'environnement technologique rapide et compliqué d'aujourd'hui, la certification d'un ingénieur en fiabilité de site de GSDC est un atout majeur pour les particuliers et les entreprises.

Il vérifie les capacités et les connaissances d'un SRE et fait preuve d'un dévouement à la fiabilité, à l'évolutivité et aux performances.

Quelle est la place de SRE dans votre équipe ?

Les rôles et les fonctions des ingénieurs de fiabilité de site sont essentiels à l'amélioration continue de toute organisation de son personnel, de ses processus et de sa technologie. L'ingénierie de la fiabilité des sites offre de nombreux avantages en termes de rapidité et de fiabilité, que votre équipe ait déjà adopté une culture DevOps à part entière ou que vous travailliez toujours sur le changement.

SRE se situe naturellement au carrefour de l'ingénierie logicielle, des opérations et du support. SRE est la combinaison idéale de capacités pour renforcer le lien entre l'informatique et les développeurs, ce qui se traduit par des cycles de rétroaction plus rapides, un meilleur travail d'équipe et des logiciels plus fiables.

Le SRE est-il un métier bien rémunéré ?

Le salaire annuel médian d'un ingénieur en fiabilité de site aux États-Unis est de 103,480 1 $, selon Glassdoor [22,321]. Les SRE peuvent également recevoir une rémunération supplémentaire de 125,801 XNUMX $, telle que des primes ou une participation aux bénéfices, pour un salaire annuel de XNUMX XNUMX $.

Les ingénieurs en fiabilité du site codent-ils ?

Les SRE consacreront beaucoup de temps à l'écriture de code et à la création d'outils permettant aux ingénieurs de communiquer avec l'infrastructure. Par exemple, un SRE peut produire des rapports de fiabilité qui tiennent compte des performances à long terme.

Avez-vous besoin d'un diplôme pour SRE?

Vous devez terminer un programme de licence si vous souhaitez travailler en tant qu'ingénieur en fiabilité de site. Les employeurs favorisent généralement les diplômés en informatique. Cela implique que l'accent de votre formation pré-universitaire sera mis sur les ordinateurs et les connaissances informatiques.

Résumé

Quels avantages l'ingénierie de la fiabilité des sites peut-elle offrir ? Nous pensons qu'il s'agit d'une méta-équipe cohérente, une collaboration inter-équipes qui amène tout le monde à travailler ensemble vers le même objectif. Nous vivons dans une société connectée où la technologie nous améliore plutôt qu'elle ne nous aliène. Dans le développement de logiciels, rien n'est différent.

Les ingénieurs en fiabilité du site auront un degré de liberté et d'indépendance qu'ils ne voient pas souvent dans d'autres professions, ce qui est un autre aspect important du SRE. Ce métier est fait pour vous si vous aimez expérimenter ou modifier les structures organisationnelles pour améliorer la fiabilité des systèmes. De plus, vous ferez très probablement une différence significative dans la vie de vos collègues, et ce n'est pas une mince affaire.

De plus, vous découvrirez toute la gamme des opérations informatiques et des disciplines de développement de logiciels. Cela implique qu'en plus de réunir diverses équipes, vous élargirez continuellement votre ensemble de compétences. Grâce à cela, vous vous améliorerez non seulement en tant que développeur, mais également en tant que gestionnaire.

Références:

Soyez sympa! Laissez un commentaire

Votre adresse email n'apparaitra pas. Les champs obligatoires sont marqués *

Vous aimeriez aussi