ENGENHEIRO DE CONFIABILIDADE DO LOCAL (SRE): O que são e como funcionam?

ENGENHEIRO DE CONFIABILIDADE DO LOCAL

A engenharia de confiabilidade do site (SRE) faz uso da engenharia de software para automatizar tarefas de operações de TI, como gerenciamento de sistema de produção, gerenciamento de mudanças, resposta a incidentes e resposta a emergências que os administradores de sistemas (sysadmins) lidariam manualmente. Continue lendo para saber mais sobre a descrição do trabalho, função, salário e certificação de um engenheiro de confiabilidade do site.

A ideia subjacente de SRE é que automatizar a supervisão de sistemas de software maciços usando código de software é uma solução mais escalável e de longo prazo do que a intervenção manual, especialmente se esses sistemas crescerem ou migrarem para a nuvem.

O SRE também pode diminuir ou eliminar significativamente o conflito que surge naturalmente entre as equipes de desenvolvimento, que desejam lançar continuamente software novo ou atualizado para produção, e as equipes de operações, que não desejam lançar nenhum novo software ou atualização, a menos que tenham certeza de que ganharam. não causa interrupções ou outros problemas operacionais. Como resultado, mesmo que o SRE não seja necessário para o DevOps, ele adere aos conceitos do DevOps e pode ajudar o DevOps a ter sucesso.

Ben Treynor Sloss, vice-presidente de engenharia do Google, é creditado pelo desenvolvimento da ideia do SRE. Ele é conhecido por dizer que “SRE é o que acontece quando você pede a um engenheiro de software para projetar uma equipe de operações”.

Engenheiro de Confiabilidade do Site

Um engenheiro de confiabilidade de site é um desenvolvedor de software com conhecimento de operações de TI — alguém que pode codificar e que também sabe como 'manter as luzes acesas' em um grande sistema de TI.

Os engenheiros de confiabilidade do site passam a maior parte do tempo criando códigos que automatizam operações manuais de TI e tarefas de administração do sistema, como análise de logs, desempenho de ajuste de desempenho, aplicação de patches, teste de ambientes de produção, resposta a incidentes e realização de postmortems. Com o tempo, eles esperam gastar muito mais tempo com o último e muito menos tempo com o primeiro.

Em um nível superior, a equipe SRE atua como um elo entre as equipes de desenvolvimento e operações, permitindo que a equipe de desenvolvimento libere novos softwares ou novos recursos o mais rápido possível, além de garantir um nível aceitável acordado de desempenho de operações de TI e risco de erro acordos de nível de serviço (SLAs) que a empresa mantém com seus clientes. A equipe SRE auxilia as equipes de desenvolvimento e operações no estabelecimento de padrões operacionais com base em sua experiência e em uma riqueza de dados operacionais.

Indicadores de nível de serviço (SLIs)

Os níveis de serviço dos sistemas são medidos usando medidas como disponibilidade (uptime) e latência.

SLOs, ou objetivos de nível de serviço

Os indicadores para medir os níveis de serviço que foram acordados incluem:

Orçamentos errados

Por um período mais longo, um sistema pode funcionar mal ou funcionar abaixo das expectativas sem violar as obrigações contratuais do SLA. A equipe de engenharia de confiabilidade do site emprega o orçamento de erro, que é mais do que apenas uma métrica, para equilibrar automaticamente a taxa de inovação de uma empresa com a confiabilidade de seus serviços.

Descrição do cargo de engenheiro de confiabilidade do local

A descrição do trabalho do engenheiro de confiabilidade do site frequentemente incentiva aplicativos de pessoas com diversas formações, como engenheiros de software com experiência em operações, administradores de sistema com experiência em programação, especialistas em operações de TI com experiência em codificação, arquitetos de sistema e gerentes de automação de produção.

Monitorar, automatizar e aprimorar o desempenho, a disponibilidade e a confiabilidade dos sistemas de software dentro de uma organização são deveres de um SRE. Eles têm a tarefa de prevenir problemas, gerenciar infraestrutura, desenvolver métodos de monitoramento eficientes e garantir que os sistemas de computador funcionem sem soluços.

Como escrever uma descrição do trabalho do engenheiro de confiabilidade do site

É mais simples construir a descrição do trabalho de um engenheiro de confiabilidade local uma vez que as responsabilidades e competências gerais da função tenham sido identificadas.

‍Ajudaria se você se concentrasse em comunicar os elementos críticos da posição, como:

  • Rotação do pessoal de plantão para resposta proativa a incidentes
  • Crie logs de ação após ocorrências para que soluções automatizadas possam ser desenvolvidas para resposta a incidentes.
  • As ferramentas SRE são usadas para monitorar a infraestrutura e as ferramentas são recomendadas conforme necessário.
  • Criar mecanismos de resposta a incidentes e monitoramento de alarmes.
  • Melhore o trabalho em equipe e os procedimentos operacionais
  • Automação de infraestrutura de pipeline de CI/CD por meio de codificação
  • Mantenha a confiabilidade planejando, construindo e atualizando a infraestrutura fundamental conforme a escala da solução.
  • Fortes habilidades de programação e compreensão aprofundada do sistema devem ser exibidas.
  • Faça mudanças culturais para estabelecer as bases para reformas de processo.

Os requisitos técnicos do cargo devem ser equilibrados com as habilidades interpessoais necessárias para ter sucesso no cargo, conforme descrito na descrição do cargo.

Papel do Engenheiro de Confiabilidade do Site

É importante observar que a função de engenheiro de confiabilidade de site raramente exige calouros e que alguma experiência prática é necessária. A posição exige uma compreensão estratégica e prática de inúmeras funções distintas, que não podem ser alcançadas por meio de aprendizado puramente acadêmico.

A função de trabalho de um engenheiro de confiabilidade do local mencionará as seguintes tarefas e responsabilidades:

#1. Especialização em Desenvolvimento de Software

Os gerentes tradicionais de TI e site de produtos, que dependem de procedimentos manuais e iterativos, têm uma substituição mais sustentável e inteligente nos SREs. Eles precisam criar um software útil e especificamente projetado para aprimorar o sistema atual. Por exemplo, um engenheiro de confiabilidade do site pode ser encarregado de construir do zero uma plataforma para avisos automatizados em dispositivos vestíveis. Afinal, as operações são um problema de software – um princípio básico na engenharia de confiabilidade do local. Por causa disso, os SREs precisam ter conhecimento sobre desenvolvimento de software e estar familiarizados com as linguagens de script populares.

#2. Capacidade de suportar escalação de incidentes e solução de problemas

A automação ou um suporte técnico humano com habilidades básicas geralmente é capaz de lidar com incidentes de infraestrutura de TI no nível um. As equipes de engenharia de confiabilidade do site devem estar prontas para escalações e solução de problemas mais difíceis porque nem todos os problemas podem ser corrigidos imediatamente. Quando as intervenções de nível um e dois falham em resolver um problema do ambiente de produção, um incidente aumenta. Os SREs entram em um nível mais alto para que possam implementar soluções de ponta para problemas urgentes. Para evitar escalações semelhantes no futuro, eles também devem registrar a ocorrência e criar respostas automatizadas.

#3. O registro de procedimentos e informações

Especialistas multifuncionais de uma variedade de departamentos, incluindo desenvolvimento de software, operações de TI, help desk de nível um e suporte de nível dois, etc., frequentemente colaborarão com os engenheiros de confiabilidade do local. Isso significa que, ao longo do tempo, os indivíduos desenvolvem um conjunto significativo de informações que frequentemente não são documentadas. Sem documentação, os departamentos continuam operando em silos e apenas algumas pessoas são qualificadas para realizar determinados trabalhos. Como resultado, o dever de criar documentação interna, playbooks e outros repositórios de conhecimento centralizados que podem ajudar as equipes atuais e os próximos recursos contratados foi dado aos SREs.

#4. Avaliação de incidentes após a resolução 

Uma “cultura post mortem” é um dos princípios-chave de um engenheiro de confiabilidade de site. Isso implica que um problema ou incidente não é fechado automaticamente depois de resolvido. Em vez disso, os SREs analisam os detalhes e as circunstâncias que levaram a um incidente sem atribuir culpa para melhorar a infraestrutura no futuro e evitar interrupções causadas pela causa raiz. Um documento post mortem bem escrito que inclua os detalhes importantes é necessário para a realização de revisões post mortem. Horário e datas, nomes das partes interessadas, impacto sobre os usuários e receitas, causas principais, lições aprendidas e pontos de ação serão todos incluídos no documento.

#5. Gerenciamento de carga

Os processos e métodos usados ​​para equilibrar o fornecimento de recursos do data center com o tráfego e a demanda de serviço são chamados de gerenciamento de carga. Diversas circunstâncias, como picos de demanda provocados por tendências inesperadas do mercado ou acidentes físicos, podem causar a interrupção da disponibilidade do serviço a qualquer momento. Embora entendam que 100% de tempo de atividade nunca é alcançável fisicamente, os especialistas em confiabilidade do site se esforçam para garantir o máximo possível de disponibilidade de serviço. Eles devem usar estratégias que intervirão se uma solução automática falhar, como interruptores de interrupção e substituições manuais. Os SREs geralmente são responsáveis ​​por um sistema de gerenciamento de carga de três partes que inclui balanceamento de carga, redução de carga e dimensionamento automático.

#6. Conhecimento de sistemas de processamento de dados

Para atender às três necessidades de tráfego de alto volume e serviços de alta largura de banda, pipelines de processamento de dados eficientes são essenciais. Uma empresa contemporânea usará dados de várias fontes, incluindo big data. Para capacitar os recursos do aplicativo ou orientar a tomada de decisões, os engenheiros de confiabilidade do site devem criar pipelines de processamento de dados que transformam esses conjuntos de dados fragmentados e desordenados em informações organizadas. Problemas de uso podem resultar de atrasos ou defeitos no pipeline e levar muito tempo e trabalho para serem corrigidos. A responsabilidade de um SRE é reduzir esses riscos e fornecer o mais alto nível de disponibilidade de serviço para aplicativos que dependem de pipelines de processamento de dados.

#7. Experiência em design de configuração

Os sistemas de software devem ser configurados adequadamente regularmente porque não são rígidos e mudam constantemente para atender às necessidades de tráfego e negócios. O gerenciamento de configuração para produtos de software, conjuntos de dados e sistemas de produção que executam serviços faz parte do cargo de SRE. Dois elementos devem ser priorizados no projeto de configuração: simplicidade para futuras equipes de SRE ajustarem o sistema com o mínimo de trabalho e confiabilidade para que os usuários desfrutem de alta disponibilidade e serviços de aplicativos ininterruptos. Os engenheiros de confiabilidade do site podem criar ferramentas para ajudar na criação e gerenciamento de configuração nessa situação.

#8. Capacidade de reequilibrar cargas de trabalho 

Cada engenheiro em uma equipe SRE tem exatamente a quantidade certa de trabalho para utilizar suas habilidades e habilidades. Ninguém fica, portanto, sobrecarregado. No entanto, um desequilíbrio de tarefas pode resultar de alterações nos recursos, férias e outras interrupções. Como os SREs gerenciam a infraestrutura crítica de negócios que não tolera nem mesmo um dia de interrupção, esse é um sério desafio. Os engenheiros geralmente se esforçam demais, se distraem com tarefas domésticas e gastam menos tempo no desenvolvimento que agrega valor quando há escassez de mão de obra. Para gerenciar cargas de trabalho, eles devem ser capazes de reestruturar equipes, fazer ajustes de ferramentas ou fazer as duas coisas ao mesmo tempo.

Salário do Engenheiro de Confiabilidade do Site

Podemos afirmar com confiança que os engenheiros de confiabilidade do site não são apenas responsáveis ​​por muito, mas que qualquer organização que queira evitar uma catástrofe digital completa precisa tirar proveito de seus talentos e habilidades. Outra maneira de dizer isso é que um engenheiro de confiabilidade de site pode ganhar muito dinheiro como salário. Como em qualquer debate salarial, os fatores que têm maior influência sobre quanto você pode ganhar são sua experiência, localização e empresa.

De acordo com o ZipRecruiter, o salário médio anual de um engenheiro de confiabilidade de site nos EUA é de US$ 130,238.
O valor médio, incluindo outras receitas, é de $ 236,000, de acordo com um valor discrepante. Gremlin obteve receitas de até $ 450,000 anualmente.

Certificação de Engenheiro de Confiabilidade do Site

A evidência das habilidades e conhecimentos de um SRE é a Certificação de Engenheiro de Confiabilidade do Site que o GSDC oferece. Isso prova que o candidato é capaz de usar técnicas, práticas e conceitos de SRE para resolver problemas no mundo real.

Para profissionais que desejam melhorar suas chances de emprego e crescer em suas carreiras na área de engenharia de confiabilidade de sites, a Certificação de engenheiro de confiabilidade de sites é crucial. Dá ao candidato uma vantagem competitiva no mercado de trabalho e demonstra sua dedicação ao aprendizado e ao crescimento ao longo da vida.

A certificação de um engenheiro de confiabilidade de site também pode ser útil para organizações que desejam garantir que seus SREs sejam capazes de gerenciar e manter sistemas complexos. Ele garante que o candidato possa criar, construir e executar sistemas confiáveis ​​que atendam ou excedam as metas de nível de serviço necessárias.

No ambiente tecnológico acelerado e complicado de hoje, a certificação de um engenheiro de confiabilidade de site da GSDC é um grande trunfo para indivíduos e empresas.

Ele verifica as habilidades e o conhecimento de um SRE e exibe uma dedicação à confiabilidade, escalabilidade e desempenho.

Onde o SRE se encaixa em sua equipe?

As funções e deveres dos engenheiros de confiabilidade do site são essenciais para a melhoria contínua de qualquer organização de seu pessoal, processos e tecnologia. A engenharia de confiabilidade do site oferece muitas vantagens em termos de velocidade e confiabilidade, quer sua equipe já tenha adotado uma cultura DevOps completa ou você ainda esteja trabalhando na mudança.

O SRE está naturalmente no nexo da engenharia de software, operações e suporte. SRE é a combinação ideal de habilidades para fortalecer o vínculo entre TI e desenvolvedores, resultando em ciclos de feedback mais rápidos, melhor trabalho em equipe e software mais confiável.

O SRE é um trabalho bem remunerado?

O salário médio anual de um engenheiro de confiabilidade de site nos EUA é de US$ 103,480, de acordo com a Glassdoor [1]. Os SREs também podem receber US$ 22,321 adicionais em remuneração, como bônus ou participação nos lucros, por um salário anual de US$ 125,801.

Os engenheiros de confiabilidade do site codificam?

Os SREs dedicarão muito tempo a escrever códigos e criar ferramentas que permitam aos engenheiros se comunicar com a infraestrutura. Por exemplo, um SRE pode produzir relatórios de confiabilidade que levam em consideração o desempenho de longo prazo.

Você precisa de um diploma para SRE?

Você deve concluir um programa de bacharelado se quiser trabalhar como engenheiro de confiabilidade do local. Os empregadores geralmente favorecem aqueles com formação em ciência da computação. Isso implica que a ênfase de sua educação pré-universitária será em computadores e conhecimentos de informática.

Resumo

Quais benefícios a engenharia de confiabilidade do local pode oferecer? Achamos que é uma metaequipe coesa, uma colaboração entre equipes que faz com que todos trabalhem juntos em direção ao mesmo objetivo. Vivemos em uma sociedade conectada onde a tecnologia está nos aprimorando ao invés de nos alienar. No desenvolvimento de software, nada é diferente.

Os engenheiros de confiabilidade do site terão um grau de liberdade e independência que não costumam ver em outras profissões, o que é outro aspecto importante do SRE. Esta é a profissão para você, se você gosta de fazer experimentos ou mudar estruturas organizacionais para melhorar a confiabilidade do sistema. Além disso, você provavelmente fará uma diferença significativa na vida de seus colegas de trabalho, e isso não é pouca coisa.

Além disso, você aprenderá sobre toda a gama de operações de TI e disciplinas de desenvolvimento de software. Isso implica que, além de reunir diversas equipes, você também expandirá continuamente seu conjunto de habilidades. Você vai melhorar não apenas como desenvolvedor, mas também como gerente como resultado disso.

Referências:

Deixe um comentário

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *

Você pode gostar