INGENIERO DE CONFIABILIDAD DEL SITIO (SRE): ¿Qué son y cómo funcionan?

INGENIERO DE CONFIABILIDAD DEL SITIO

La ingeniería de confiabilidad del sitio (SRE) hace uso de la ingeniería de software para automatizar las tareas de operaciones de TI, como la gestión del sistema de producción, la gestión de cambios, la respuesta a incidentes y la respuesta de emergencia que, de lo contrario, los administradores de sistemas (sysadmins) manejarían manualmente. Siga leyendo para obtener más información sobre la descripción del trabajo, el rol, el salario y la certificación de un ingeniero de confiabilidad del sitio.

La idea subyacente de SRE es que automatizar la supervisión de sistemas de software masivos mediante código de software es una solución más escalable y a largo plazo que la intervención manual, especialmente si dichos sistemas crecen o se trasladan a la nube.

SRE también puede reducir significativamente o eliminar el conflicto que surge de forma natural entre los equipos de desarrollo, que quieren lanzar continuamente software nuevo o actualizado a producción, y los equipos de operaciones, que no quieren lanzar ningún software nuevo o actualizaciones a menos que estén seguros de que ganaron. no causará interrupciones u otros problemas operativos. Como resultado, incluso si SRE no es necesario para DevOps, se adhiere estrechamente a los conceptos de DevOps y puede ayudar a que DevOps tenga éxito.

A Ben Treynor Sloss, vicepresidente de ingeniería de Google, se le atribuye el desarrollo de la idea de SRE. Es conocido por decir que “SRE es lo que sucede cuando le pides a un ingeniero de software que diseñe un equipo de operaciones”.

Ingeniero de confiabilidad del sitio

Un ingeniero de confiabilidad del sitio es un desarrollador de software con conocimiento de las operaciones de TI, alguien que puede codificar y que también sabe cómo "mantener las luces encendidas" en un gran sistema de TI.

Los ingenieros de confiabilidad del sitio pasan la mayor parte de su tiempo creando código que automatiza las operaciones manuales de TI y las tareas de administración del sistema, como analizar registros, realizar ajustes de rendimiento, aplicar parches, probar entornos de producción, responder a incidentes y realizar autopsias. Con el tiempo, esperan dedicar mucho más tiempo a lo segundo y mucho menos a lo primero.

En un nivel más alto, el equipo de SRE actúa como enlace entre los equipos de desarrollo y operaciones, lo que permite que el equipo de desarrollo lance nuevo software o nuevas funciones lo más rápido posible y, al mismo tiempo, garantiza un nivel aceptable acordado de rendimiento de operaciones de TI y riesgo de error. bajo los acuerdos de nivel de servicio (SLAs) que la empresa tiene con sus clientes. El equipo de SRE ayuda a los equipos de desarrollo y operaciones a establecer estándares de operaciones basados ​​en su experiencia y una gran cantidad de datos de operaciones.

Indicadores de nivel de servicio (SLI)

Los niveles de servicio de los sistemas se miden utilizando medidas como la disponibilidad (tiempo de actividad) y la latencia.

SLO u objetivos de nivel de servicio

Los indicadores para medir los niveles de servicio que se han acordado incluyen:

presupuestos erroneos

Durante el período más largo, un sistema puede funcionar mal o funcionar por debajo de las expectativas sin incumplir las obligaciones contractuales del SLA. El equipo de ingeniería de confiabilidad del sitio emplea el presupuesto de error, que es más que una simple métrica, para equilibrar automáticamente la tasa de innovación de una empresa con la confiabilidad de sus servicios.

Descripción del puesto de ingeniero de confiabilidad del sitio

La descripción del trabajo del ingeniero de confiabilidad del sitio con frecuencia fomenta las solicitudes de personas con una variedad de antecedentes, como ingenieros de software con experiencia en operaciones, administradores de sistemas con experiencia en programación, especialistas en operaciones de TI con experiencia en codificación, arquitectos de sistemas y gerentes de automatización de producción.

Supervisar, automatizar y mejorar el rendimiento, la disponibilidad y la confiabilidad de los sistemas de software dentro de una organización son los deberes de un SRE. Tienen la tarea de prevenir problemas, administrar la infraestructura, desarrollar métodos de monitoreo eficientes y asegurarse de que los sistemas informáticos funcionen sin contratiempos.

Cómo escribir la descripción del trabajo de un ingeniero de confiabilidad del sitio

Es más sencillo construir la descripción del trabajo de un ingeniero de confiabilidad del sitio una vez que se han identificado las responsabilidades y competencias generales de la función.

‍Sería útil si te concentraras en comunicar los elementos críticos del puesto, como:

  • Rotación del personal de guardia para una respuesta proactiva a incidentes
  • Cree registros de acción después de las ocurrencias para que se puedan desarrollar soluciones automatizadas para la respuesta a incidentes.
  • Las herramientas SRE se utilizan para monitorear la infraestructura y se recomiendan herramientas según sea necesario.
  • Crear mecanismos de respuesta a incidentes y monitoreo de alarmas.
  • Mejorar el trabajo en equipo y los procedimientos operativos.
  • Automatización de la infraestructura de canalización de CI/CD a través de la codificación
  • Mantenga la confiabilidad planificando, construyendo y actualizando la infraestructura fundamental a medida que la solución escala.
  • Se deben mostrar fuertes habilidades de programación y una comprensión profunda del sistema.
  • Hacer cambios culturales para sentar las bases para las reformas de procesos.

Los requisitos técnicos del puesto deben equilibrarse con las habilidades sociales necesarias para tener éxito en el puesto, como se describe en la descripción del puesto.

Rol del ingeniero de confiabilidad del sitio

Es importante tener en cuenta que el papel de un ingeniero de confiabilidad del sitio rara vez requiere estudiantes de primer año y que se requiere cierta experiencia práctica. El puesto requiere una comprensión estratégica y práctica de numerosas funciones distintas, que no se pueden lograr a través del aprendizaje puramente académico.

El rol de trabajo de un ingeniero de confiabilidad del sitio mencionará las siguientes tareas y responsabilidades:

#1. Experiencia en desarrollo de software

Los administradores de sitios de productos y TI tradicionales, que dependen de procedimientos manuales e iterativos, tienen un reemplazo más sostenible e inteligente en los SRE. Necesitan crear un software útil y específicamente diseñado para mejorar el sistema actual. Por ejemplo, un ingeniero de confiabilidad del sitio puede encargarse de construir desde cero una plataforma para advertencias automáticas en dispositivos portátiles. Después de todo, las operaciones son un problema de software, un principio básico en la ingeniería de confiabilidad del sitio. Debido a esto, los SRE deben tener conocimientos sobre el desarrollo de software y sentirse cómodos con los lenguajes de secuencias de comandos populares.

#2. Capacidad para soportar la escalada de incidentes y la resolución de problemas.

La automatización o una mesa de ayuda humana con habilidades básicas generalmente pueden manejar incidentes de infraestructura de TI en el nivel uno. Los equipos de ingeniería de confiabilidad del sitio deben estar preparados para las escaladas y la resolución de problemas más difíciles porque no todos los problemas se pueden solucionar rápidamente. Cuando las intervenciones de nivel uno y dos no logran resolver un problema del entorno de producción, se intensifica un incidente. Las SRE ingresan a un nivel superior para que puedan implementar soluciones de vanguardia a problemas apremiantes. Para evitar escaladas similares en el futuro, también deben registrar la ocurrencia y crear respuestas automáticas.

#3. El registro de procedimientos e información.

Los expertos multifuncionales de una variedad de departamentos, incluido el desarrollo de software, las operaciones de TI, la mesa de ayuda de servicio de soporte de nivel uno y dos, etc., colaborarán con frecuencia con los ingenieros de confiabilidad del sitio. Esto significa que, con el tiempo, las personas desarrollan un importante cuerpo de información que, con frecuencia, no está documentado. Sin documentación, los departamentos continúan operando en silos y solo ciertas personas están calificadas para realizar ciertos trabajos. Como resultado, el deber de crear documentación interna, libros de jugadas y otros repositorios de conocimiento centralizados que puedan ayudar a los equipos actuales y a los próximos recursos contratados se ha otorgado a los SRE.

#4. Evaluación de incidencias tras su resolución 

Una “cultura post mórtem” es uno de los principios clave de un ingeniero de confiabilidad del sitio. Esto implica que un problema o incidente no se cierra automáticamente una vez que se ha resuelto. En cambio, los SRE analizan los detalles y las circunstancias que llevaron a un incidente sin asignar la culpa para mejorar la infraestructura en el futuro y evitar interrupciones provocadas por la causa principal. Un documento post-mortem bien escrito que incluya los detalles importantes es necesario para realizar revisiones post-mortem. La hora y las fechas, los nombres de las partes interesadas, el impacto en los usuarios y los ingresos, las causas principales, las lecciones aprendidas y los puntos de acción se incluirán en el documento.

#5. Gestión de carga

Los procesos y métodos utilizados para equilibrar el suministro de recursos del centro de datos con el tráfico y la demanda de servicios se conocen como gestión de carga. Varias circunstancias, como un aumento en la demanda provocado por tendencias inesperadas del mercado o accidentes físicos, pueden causar que la disponibilidad del servicio se interrumpa en cualquier momento. Si bien entienden que el 100 % de tiempo de actividad nunca es físicamente alcanzable, los expertos en confiabilidad del sitio se esfuerzan por garantizar la mayor disponibilidad posible del servicio. Deben utilizar estrategias que intervendrán si falla una solución automática, como interruptores automáticos y anulaciones manuales. Los SRE suelen estar a cargo de un sistema de administración de carga de tres partes que incluye balanceo de carga, desconexión de carga y escalado automático.

#6. Conocimiento de los sistemas de procesamiento de datos.

Para satisfacer las tres necesidades de tráfico de gran volumen y servicios de gran ancho de banda, las canalizaciones de procesamiento de datos eficientes son esenciales. Una empresa contemporánea utilizará datos de numerosas fuentes, incluidos los macrodatos. Para potenciar las funciones de la aplicación o guiar la toma de decisiones, los ingenieros de confiabilidad del sitio deben crear canalizaciones de procesamiento de datos que transformen estos conjuntos de datos fragmentados y desordenados en información organizada. Los problemas de uso pueden deberse a retrasos o defectos en la canalización y su reparación lleva mucho tiempo y trabajo. La responsabilidad de un SRE es reducir estos riesgos y brindar el más alto nivel de disponibilidad de servicio para las aplicaciones que dependen de canalizaciones de procesamiento de datos.

#7. Experiencia en diseño de configuración

Los sistemas de software deben configurarse adecuadamente con regularidad porque no son rígidos y cambian constantemente para satisfacer las necesidades comerciales y de tráfico. La gestión de la configuración de los productos de software, los conjuntos de datos y los sistemas de producción que ejecutan los servicios es parte del puesto de trabajo de SRE. Se debe dar máxima prioridad a dos elementos en el diseño de la configuración: la simplicidad para que los futuros equipos de SRE ajusten el sistema con la menor cantidad de trabajo y la confiabilidad para que los usuarios disfruten de alta disponibilidad y servicios de aplicaciones ininterrumpidos. Los ingenieros de confiabilidad del sitio pueden crear herramientas para ayudar con la creación y administración de la configuración en esta situación.

#8. Capacidad para reequilibrar las cargas de trabajo 

Cada ingeniero en un equipo de SRE tiene exactamente la cantidad de trabajo adecuada para utilizar sus habilidades y capacidades. Por lo tanto, nadie está sobrecargado. Sin embargo, un desequilibrio de tareas puede deberse a cambios en los recursos, vacaciones y otras interrupciones. Dado que los SRE administran la infraestructura crítica para el negocio que no puede tolerar ni un día de interrupción, este es un desafío serio. Los ingenieros a menudo se exceden, se distraen con las tareas domésticas y dedican menos tiempo al desarrollo que agrega valor cuando hay escasez de mano de obra. Para administrar las cargas de trabajo, deben poder reestructurar equipos, realizar ajustes en las herramientas o hacer ambas cosas a la vez.

Sueldo del ingeniero de confiabilidad del sitio

Podemos afirmar con confianza que los ingenieros de confiabilidad del sitio no solo son responsables de mucho, sino que cualquier organización que quiera evitar una catástrofe digital completa debe aprovechar su talento y habilidades. Otra forma de decirlo es que un ingeniero de confiabilidad del sitio puede ganar mucho dinero como salario. Al igual que con cualquier debate salarial, los factores que tienen la mayor influencia sobre cuánto puede ganar son su experiencia, ubicación y empresa.

Según ZipRecruiter, el salario anual promedio de un ingeniero de confiabilidad del sitio en los EE. UU. es de $130,238.
La cifra mediana, incluidos otros ingresos, es de $236,000, según un valor atípico. Gremlin ha visto ingresos de hasta $450,000 al año.

Certificación de ingeniero de confiabilidad del sitio

La evidencia de las habilidades y el conocimiento de un SRE es la Certificación de ingeniero de confiabilidad del sitio que ofrece GSDC. Demuestra que el solicitante es capaz de usar técnicas, prácticas y conceptos de SRE para resolver problemas en el mundo real.

Para los profesionales que desean mejorar sus oportunidades laborales y hacer crecer sus carreras en el campo de la ingeniería de confiabilidad del sitio, la certificación de ingeniero de confiabilidad del sitio es crucial. Le da al candidato una ventaja competitiva en el mercado laboral y demuestra su dedicación al aprendizaje y crecimiento permanente.

La certificación de un ingeniero de confiabilidad del sitio también podría ser útil para las organizaciones que desean asegurarse de que sus SRE sean capaces de administrar y mantener sistemas complejos. Garantiza que el candidato pueda crear, construir y ejecutar sistemas confiables que cumplan o excedan los objetivos de nivel de servicio necesarios.

En el entorno tecnológico complicado y vertiginoso de hoy, la certificación de un ingeniero de confiabilidad del sitio de GSDC es un gran activo tanto para individuos como para empresas.

Verifica las habilidades y el conocimiento de un SRE y exhibe una dedicación a la confiabilidad, la escalabilidad y el rendimiento.

¿Dónde encaja SRE en su equipo?

Los roles y deberes de los ingenieros de confiabilidad del sitio son esenciales para la mejora continua de las personas, los procesos y la tecnología de cualquier organización. La ingeniería de confiabilidad del sitio ofrece muchas ventajas en términos de velocidad y confiabilidad, ya sea que su equipo ya haya adoptado una cultura DevOps completa o que aún esté trabajando en el cambio.

SRE se encuentra naturalmente en el nexo de la ingeniería de software, las operaciones y el soporte. SRE es la combinación ideal de habilidades para fortalecer el vínculo entre TI y los desarrolladores, lo que da como resultado ciclos de retroalimentación más rápidos, mejor trabajo en equipo y software más confiable.

¿Es la SRE un trabajo bien remunerado?

El salario medio anual de un ingeniero de confiabilidad del sitio en los EE. UU. es de $ 103,480, según Glassdoor [1]. Las SRE también pueden recibir $ 22,321 adicionales en compensación, como bonos o participación en las ganancias, por un salario anual de $ 125,801.

¿Codifican los ingenieros de confiabilidad del sitio?

Los SRE dedicarán mucho tiempo a escribir código y crear herramientas que permitan a los ingenieros comunicarse con la infraestructura. Por ejemplo, un SRE puede generar informes de confiabilidad que tengan en cuenta el desempeño a largo plazo.

¿Necesitas un título para la SRE?

Debe terminar un programa de licenciatura si desea trabajar como ingeniero de confiabilidad del sitio. Los empleadores suelen favorecer a aquellos con títulos en informática. Esto implica que el énfasis de tu educación preuniversitaria estará en las computadoras y el conocimiento informático.

Resumen

¿Qué beneficios puede ofrecer la ingeniería de confiabilidad del sitio? Creemos que es un meta-equipo cohesivo, una colaboración entre equipos que hace que todos trabajen juntos hacia el mismo objetivo. Vivimos en una sociedad conectada donde la tecnología nos mejora en lugar de alienarnos. En el desarrollo de software, nada es diferente.

Los ingenieros de confiabilidad del sitio tendrán un grado de libertad e independencia que no suelen ver en otras profesiones, que es otro aspecto importante de SRE. Esta es la profesión para usted si le gusta hacer experimentos o cambiar estructuras organizacionales para mejorar la confiabilidad del sistema. Además, lo más probable es que marque una diferencia significativa en la vida de sus compañeros de trabajo, y ese no es un logro pequeño.

Además, aprenderá sobre toda la gama de operaciones de TI y disciplinas de desarrollo de software. Esto implica que, además de reunir a diversos equipos, también expandirá continuamente su conjunto de habilidades. Mejorarás no solo como desarrollador sino también como administrador como resultado de esto.

Referencias:

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *

También te puede interesar