مهندس الموقع الموثوق (SRE): ما هي وكيف تعمل؟

مهندس موقع موثوق

تستفيد هندسة موثوقية الموقع (SRE) من هندسة البرمجيات لأتمتة مهام عمليات تكنولوجيا المعلومات مثل إدارة نظام الإنتاج ، وإدارة التغيير ، والاستجابة للحوادث ، والاستجابة للطوارئ التي يمكن لمسؤولي الأنظمة (مسؤولو النظام) التعامل معها يدويًا. تابع القراءة لمعرفة المزيد حول الوصف الوظيفي والدور والراتب والشهادة لمهندس موثوقية الموقع.

الفكرة الأساسية لـ SRE هو أن التشغيل الآلي للإشراف على أنظمة البرامج الضخمة باستخدام كود برمجي هو حل طويل الأمد وقابل للتطوير أكثر من التدخل اليدوي ، خاصة إذا كانت هذه الأنظمة تنمو أو تنتقل إلى السحابة.

يمكن أيضًا أن تقلل SRE بشكل كبير أو تقضي على التعارض الذي ينشأ بشكل طبيعي بين فرق التطوير ، الذين يرغبون في إصدار برامج جديدة أو محدثة باستمرار في الإنتاج ، وفرق العمليات ، الذين لا يرغبون في إصدار أي برامج أو تحديثات جديدة ما لم يكونوا متأكدين من فوزهم لا تسبب انقطاعات أو مشاكل تشغيلية أخرى. نتيجة لذلك ، حتى لو لم تكن SRE ضرورية لـ DevOps ، فإنها تلتزم بشدة بمفاهيم DevOps ويمكن أن تساعد DevOps على النجاح.

يعود الفضل إلى Ben Treynor Sloss ، نائب رئيس الهندسة في Google ، في تطوير فكرة SRE. وهو معروف بقوله أن "SRE هو ما يحدث عندما تطلب من مهندس برمجيات تصميم فريق عمليات."

مهندس موثوقية الموقع

مهندس موثوقية الموقع هو مطور برمجيات لديه معرفة بعمليات تكنولوجيا المعلومات - شخص يمكنه الترميز ويعرف أيضًا كيفية "إبقاء الأضواء مضاءة" في نظام تكنولوجيا المعلومات الكبير.

يقضي مهندسو موثوقية الموقع معظم وقتهم في إنشاء التعليمات البرمجية التي تعمل على أتمتة عمليات تكنولوجيا المعلومات اليدوية ومهام إدارة النظام ، مثل تحليل السجلات وإجراء ضبط الأداء وتطبيق التصحيحات واختبار بيئات الإنتاج والاستجابة للحوادث وإجراء عمليات ما بعد الوفاة. بمرور الوقت ، يأملون في قضاء المزيد من الوقت على الأخير ووقت أقل بكثير في السابق.

على مستوى أعلى ، يعمل فريق SRE كحلقة وصل بين فرق التطوير والعمليات ، مما يسمح لفريق التطوير بإصدار برامج جديدة أو ميزات جديدة في أسرع وقت ممكن مع ضمان مستوى مقبول متفق عليه من أداء عمليات تكنولوجيا المعلومات ومخاطر الأخطاء بموجب اتفاقيات مستوى الخدمة (SLAs) التي أبرمتها الشركة مع عملائها. يساعد فريق SRE فرق التطوير والعمليات في وضع معايير العمليات بناءً على خبرتهم وثروة من بيانات العمليات.

مؤشرات مستوى الخدمة (SLIs)

يتم قياس مستويات خدمة الأنظمة باستخدام مقاييس مثل التوافر (الجهوزية) والكمون.

SLOs ، أو أهداف مستوى الخدمة

تشمل مؤشرات قياس مستويات الخدمة التي تم الاتفاق عليها ما يلي:

الميزانيات الخاطئة

لأطول فترة ، يمكن للنظام أن يتعطل أو يؤدي دون التوقعات دون الإخلال بالالتزامات التعاقدية لاتفاقية مستوى الخدمة. يستخدم فريق هندسة موثوقية الموقع ميزانية الخطأ ، والتي تعد أكثر من مجرد مقياس ، لتحقيق التوازن التلقائي بين معدل ابتكار الشركة وموثوقية خدماتها.

الوصف الوظيفي لمهندس موثوقية الموقع

يشجع الوصف الوظيفي لمهندس موثوقية الموقع في كثير من الأحيان التطبيقات من الأشخاص ذوي الخلفيات المتنوعة ، مثل مهندسي البرمجيات ذوي الخبرة في العمليات ، ومسؤولي النظام ذوي الخبرة في البرمجة ، ومتخصصي عمليات تكنولوجيا المعلومات ذوي الخبرة في الترميز ، ومهندسي النظام ، ومديري أتمتة الإنتاج.

تعد مراقبة وأتمتة وتعزيز أداء أنظمة البرامج وتوافرها وموثوقيتها داخل المؤسسة من واجبات SRE. وهم مكلفون بمنع المشاكل ، وإدارة البنية التحتية ، وتطوير طرق مراقبة فعالة ، والتأكد من أن أنظمة الكمبيوتر تعمل دون عوائق.

كيفية كتابة الوصف الوظيفي لمهندس موثوقية الموقع

من الأسهل إنشاء وصف وظيفي لمهندس موثوقية الموقع بمجرد تحديد المسؤوليات والكفاءات العامة للوظيفة.

سيكون من المفيد إذا ركزت على توصيل العناصر الحاسمة للوظيفة ، مثل:

  • تناوب الأفراد عند الطلب للاستجابة الاستباقية للحوادث
  • قم بإنشاء سجلات الإجراءات بعد الأحداث بحيث يمكن تطوير الحلول الآلية للاستجابة للحوادث.
  • تُستخدم أدوات SRE لمراقبة البنية التحتية ، ويوصى باستخدام الأدوات حسب الحاجة.
  • إنشاء آليات للاستجابة للحوادث ومراقبة الإنذارات.
  • تعزيز العمل الجماعي والإجراءات التشغيلية
  • أتمتة البنية التحتية لخطوط الأنابيب CI / CD من خلال الترميز
  • الحفاظ على الموثوقية من خلال تخطيط وبناء وتحديث البنية التحتية الأساسية مع توسع الحل.
  • يجب عرض قدرات برمجة قوية وفهم متعمق للنظام.
  • قم بإجراء تغييرات ثقافية لوضع الأساس لإصلاحات العملية.

يجب أن تكون المتطلبات الفنية للوظيفة متوازنة مع القدرات اللينة اللازمة للنجاح في الوظيفة ، كما هو موضح في الوصف الوظيفي.

دور مهندس موثوقية الموقع

من المهم ملاحظة أن دور مهندس موثوقية الموقع نادرًا ما يستدعي طلابًا مستجدين وأن بعض الخبرة العملية مطلوبة. يتطلب الموقف فهماً استراتيجياً وعملياً للعديد من الوظائف المتميزة ، والتي لا يمكن تحقيقها من خلال التعلم الأكاديمي البحت.

سيذكر الدور الوظيفي لمهندس موثوقية الموقع المهام والمسؤوليات التالية:

# 1. خبرة تطوير البرمجيات

يتمتع مديرو مواقع تكنولوجيا المعلومات والمنتج التقليديون ، الذين يعتمدون على الإجراءات اليدوية والتكرارية ، باستبدال أكثر استدامة وذكاءً في SREs. إنهم بحاجة إلى إنشاء برامج مفيدة ومصممة خصيصًا لتحسين النظام الحالي. على سبيل المثال ، قد يتم تكليف مهندس موثوقية الموقع بإنشاء منصة من نقطة الصفر لتحذيرات آلية على الأجهزة القابلة للارتداء. بعد كل شيء ، تعتبر العمليات مشكلة برمجية - مبدأ أساسي في هندسة موثوقية الموقع. لهذا السبب ، يجب أن تكون SREs على دراية بتطوير البرامج وأن تكون مريحة مع لغات البرمجة النصية الشائعة.

# 2. القدرة على دعم تصعيد الحوادث واستكشاف الأخطاء وإصلاحها

عادةً ما تكون الأتمتة أو مكتب المساعدة البشرية الذي يتمتع بالمهارات الأساسية قادرًا على التعامل مع حوادث البنية التحتية لتكنولوجيا المعلومات على المستوى الأول. يجب أن تكون فرق هندسة موثوقية الموقع جاهزة للتصعيد واستكشاف الأخطاء وإصلاحها بشكل أكثر صعوبة لأنه لا يمكن إصلاح جميع المشكلات على الفور. عندما تفشل تدخلات المستوى الأول والثاني في حل مشكلة بيئة الإنتاج ، تتصاعد الحادثة. تدخل SREs على مستوى أعلى حتى يتمكنوا من تنفيذ حلول متطورة للمشكلات الملحة. لتجنب تصعيد مماثل في المستقبل ، يجب عليهم أيضًا تسجيل الحدوث وإنشاء استجابات آلية.

# 3. تسجيل الإجراءات والمعلومات

سيتعاون الخبراء متعددو الوظائف من مجموعة متنوعة من الأقسام ، بما في ذلك تطوير البرامج ، وعمليات تكنولوجيا المعلومات ، ودعم مكتب المساعدة من المستوى الأول والمستوى الثاني ، وما إلى ذلك ، بشكل متكرر مع مهندسي موثوقية الموقع. هذا يعني أنه بمرور الوقت ، يطور الأفراد مجموعة كبيرة من المعلومات التي غالبًا ما تكون غير موثقة. بدون التوثيق ، تستمر الإدارات في العمل في صوامع ، وبعض الأشخاص فقط هم المؤهلون لأداء وظائف معينة. نتيجة لذلك ، تم منح واجب إنشاء الوثائق الداخلية ، وكتيبات اللعب ، ومستودعات المعرفة المركزية الأخرى التي يمكن أن تساعد الفرق الحالية والموارد المستأجرة القادمة إلى SREs.

# 4. تقييم الحوادث بعد حلها 

تعتبر "ثقافة ما بعد الوفاة" أحد المبادئ الأساسية لمهندس موثوقية الموقع. هذا يعني أنه لا يتم إغلاق المشكلة أو الحادث تلقائيًا بعد حلها. بدلاً من ذلك ، تنظر SREs في التفاصيل والظروف التي أدت إلى وقوع حادث دون إلقاء اللوم على تحسين البنية التحتية للمضي قدمًا وتجنب الانقطاعات الناجمة عن السبب الجذري. يعد وجود مستند جيد بعد الوفاة يتضمن التفاصيل المهمة ضروريًا لإجراء مراجعات ما بعد الوفاة. سيتم تضمين الوقت والتواريخ ، وأسماء أصحاب المصلحة ، والتأثير على المستخدمين والإيرادات ، والأسباب الجذرية ، والدروس المستفادة ، ونقاط العمل في الورقة.

# 5. إدارة الأحمال

يشار إلى العمليات والأساليب المستخدمة لموازنة توريد موارد مركز البيانات مع طلب المرور والخدمة باسم إدارة الأحمال. قد تتسبب ظروف مختلفة ، مثل الارتفاع الحاد في الطلب الناجم عن اتجاهات السوق غير المتوقعة أو الحوادث الجسدية ، في توقف توافر الخدمة في أي وقت. على الرغم من إدراك أن وقت التشغيل بنسبة 100٪ لا يمكن تحقيقه فعليًا ، فإن خبراء موثوقية الموقع يسعون جاهدين لضمان توفر أكبر قدر ممكن من الخدمات. يجب عليهم استخدام الاستراتيجيات التي ستتدخل في حالة فشل الحل التلقائي ، مثل مفاتيح القفل والتجاوزات اليدوية. غالبًا ما تكون SREs مسؤولة عن نظام إدارة الحمل المكون من ثلاثة أجزاء والذي يتضمن موازنة الأحمال ، وفصل الأحمال ، والتحجيم التلقائي.

# 6. معرفة نظم معالجة البيانات

لتلبية الاحتياجات الثلاثة لحركة المرور كبيرة الحجم وخدمات النطاق الترددي العالي ، تعد خطوط أنابيب معالجة البيانات الفعالة ضرورية. ستستخدم الأعمال المعاصرة البيانات من مصادر عديدة ، بما في ذلك البيانات الضخمة. لتشغيل ميزات التطبيق أو توجيه عملية اتخاذ القرار ، يجب على مهندسي موثوقية الموقع إنشاء خطوط أنابيب معالجة البيانات التي تحول مجموعات البيانات المجزأة وغير المرتبة هذه إلى معلومات منظمة. يمكن أن تنتج مشاكل الاستخدام عن التأخيرات أو العيوب في خط الأنابيب وتستغرق الكثير من الوقت والعمل لإصلاحها. تتمثل مسؤولية SRE في تقليل هذه المخاطر وتوفير أعلى مستوى من توفر الخدمة للتطبيقات التي تعتمد على خطوط أنابيب معالجة البيانات.

# 7. تكوين خبرة تصميم

يجب إعداد أنظمة البرامج بشكل صحيح بانتظام لأنها ليست جامدة وتتغير باستمرار لتلبي احتياجات العمل وحركة المرور. تعد إدارة التكوين لمنتجات البرامج ومجموعات البيانات وأنظمة الإنتاج التي تقوم بتشغيل الخدمات جزءًا من وظيفة SRE. يجب إعطاء عنصرين أولوية قصوى في تصميم التكوين: البساطة لفرق SRE المستقبلية لضبط النظام بأقل قدر من العمل والموثوقية للمستخدمين للاستمتاع بالتوافر العالي وخدمات التطبيقات غير المنقطعة. يمكن لمهندسي موثوقية الموقع إنشاء أدوات للمساعدة في إنشاء التكوين وإدارته في هذه الحالة.

# 8. القدرة على إعادة توازن أعباء العمل 

يتمتع كل مهندس في فريق SRE بالضبط بالقدر المناسب من العمل للاستفادة من مهاراتهم وقدراتهم. لذلك لا أحد مثقل بالأعباء. ومع ذلك ، قد ينتج اختلال في توازن المهام عن تغييرات في الموارد والإجازات وانقطاعات أخرى. نظرًا لأن SREs تدير البنية التحتية الحيوية للأعمال التي لا يمكنها تحمل حتى يوم من الانقطاع ، فإن هذا يمثل تحديًا خطيرًا. غالبًا ما يبالغ المهندسون في زيادة طاقتهم ، ويشتت انتباههم عن الأعمال المنزلية الوضيعة ، ويقضون وقتًا أقل في التطوير الذي يضيف قيمة عندما يكون هناك نقص في اليد العاملة. لإدارة أحمال العمل ، يجب أن يكونوا قادرين على إعادة هيكلة الفرق أو إجراء تعديلات على الأدوات أو القيام بالأمرين معًا في وقت واحد.

راتب مهندس موثوقية الموقع

يمكننا أن نقول بثقة أن مهندسي موثوقية الموقع ليسوا مسؤولين فقط عن الكثير ، ولكن أي مؤسسة تريد تجنب كارثة رقمية كاملة تحتاج إلى الاستفادة من مواهبهم ومهاراتهم. طريقة أخرى للقول هي أن مهندس موثوقية الموقع يمكن أن يكسب الكثير من المال كمرتب. كما هو الحال مع أي نقاش حول الأجور ، فإن العوامل التي لها أكبر تأثير على مقدار ما يمكنك كسبه هي خبرتك وموقعك وشركتك.

وفقًا لـ ZipRecruiter ، يبلغ متوسط ​​الراتب السنوي لمهندس موثوقية الموقع في الولايات المتحدة 130,238،XNUMX دولارًا.
الرقم المتوسط ​​، بما في ذلك الدخل الآخر ، هو 236,000 دولار ، وفقا لواحد خارجي. شهد Gremlin مداخيل عالية تصل إلى 450,000 دولار سنويًا.

شهادة مهندس موثوقية الموقع

الدليل على مهارات ومعارف SRE هو شهادة مهندس موثوقية الموقع التي تقدمها GSDC. إنه يثبت أن مقدم الطلب قادر على استخدام تقنيات وممارسات ومفاهيم SRE لحل المشكلات في العالم الحقيقي.

بالنسبة للمهنيين الذين يرغبون في تحسين فرص عملهم وتنمية حياتهم المهنية في مجال هندسة موثوقية الموقع ، فإن شهادة مهندس موثوقية الموقع أمر بالغ الأهمية. يمنح المرشح ميزة تنافسية في سوق العمل ويظهر تفانيهم في التعلم والنمو مدى الحياة.

قد تكون شهادة مهندس موثوقية الموقع مفيدة أيضًا للمؤسسات التي ترغب في التأكد من أن SREs الخاصة بها قادرة على إدارة وصيانة الأنظمة المعقدة. إنه يضمن أن المرشح يمكنه إنشاء وبناء وتشغيل أنظمة يمكن الاعتماد عليها تلبي أو تتجاوز أهداف مستوى الخدمة الضرورية.

في بيئة اليوم التكنولوجية المعقدة والسريعة الخطى ، تعد شهادة مهندس موثوقية الموقع من GSDC رصيدًا رائعًا لكل من الأفراد والمؤسسات.

يتحقق من قدرات ومعرفة SRE ويظهر تفانيًا في الاعتمادية وقابلية التوسع والأداء.

أين تناسب SRE مع فريقك؟

تعتبر أدوار وواجبات مهندسي موثوقية الموقع ضرورية للتحسين المستمر لأي مؤسسة لأفرادها وعملياتها وتقنياتها. توفر هندسة موثوقية الموقع العديد من المزايا من حيث السرعة والاعتمادية ، سواء كان فريقك قد تبنى بالفعل ثقافة DevOps كاملة أو ما زلت تعمل على التغيير.

تقع SRE بشكل طبيعي في حلقة الوصل بين هندسة البرمجيات والعمليات والدعم. SRE هي مزيج مثالي من القدرات لتقوية الروابط بين تكنولوجيا المعلومات والمطورين ، مما يؤدي إلى دورات تغذية راجعة أسرع ، وعمل جماعي أفضل ، وبرامج أكثر موثوقية.

هل SRE وظيفة عالية الأجر؟

متوسط ​​الراتب السنوي لمهندس موثوقية الموقع في الولايات المتحدة هو 103,480،1 دولارًا أمريكيًا ، وفقًا لـ Glassdoor [22,321]. قد تحصل SREs أيضًا على تعويض إضافي قدره 125,801،XNUMX دولارًا ، مثل المكافآت أو مشاركة الأرباح ، مقابل راتب سنوي قدره XNUMX،XNUMX دولارًا.

هل موقع موثوقية المهندسين كود؟

ستكرس SREs الكثير من الوقت لكتابة التعليمات البرمجية وإنشاء الأدوات التي تسمح للمهندسين بالتواصل مع البنية التحتية. على سبيل المثال ، قد ينتج SRE تقارير اعتمادية تأخذ الأداء طويل المدى في الاعتبار.

هل تحتاج إلى شهادة في SRE؟

يجب عليك إنهاء برنامج درجة البكالوريوس إذا كنت ترغب في العمل كمهندس موثوقية الموقع. يفضل أرباب العمل عادةً الحاصلين على درجات علمية في علوم الكمبيوتر. هذا يعني أن تركيز تعليمك قبل الجامعي سيكون على أجهزة الكمبيوتر ومعرفة الكمبيوتر.

نبذة عامة

ما الفوائد التي يمكن أن تقدمها هندسة موثوقية الموقع؟ نعتقد أنه فريق متعدد متماسك ، تعاون بين الفريق يجعل الجميع يعملون معًا لتحقيق نفس الهدف. نحن نعيش في مجتمع متصل حيث تعمل التكنولوجيا على تعزيزنا بدلاً من عزلنا. في تطوير البرمجيات ، لا شيء مختلف.

يتمتع مهندسو موثوقية الموقع بدرجة من الحرية والاستقلالية لا يروها غالبًا في المهن الأخرى ، وهو جانب مهم آخر من SRE. هذه هي المهنة المناسبة لك إذا كنت تستمتع بإجراء التجارب أو تغيير الهياكل التنظيمية لتحسين موثوقية النظام. بالإضافة إلى ذلك ، من المرجح أن تحدث فرقًا كبيرًا في حياة زملائك في العمل ، وهذا ليس إنجازًا بسيطًا.

بالإضافة إلى ذلك ، ستتعرف على مجموعة كاملة من عمليات تكنولوجيا المعلومات وتخصصات تطوير البرامج. هذا يعني أنه بالإضافة إلى جمع الفرق المتنوعة معًا ، ستقوم أيضًا بتوسيع مجموعة المهارات الخاصة بك باستمرار. سوف تتحسن ليس فقط كمطور ولكن أيضًا كمدير نتيجة لذلك.

المراجع:

اترك تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول المشار إليها إلزامية *

قد يعجبك أيضاً