サイト信頼性エンジニア (SRE): これらは何ですか?またどのように機能しますか?

サイト信頼性エンジニア

サイト信頼性エンジニアリング (SRE) は、ソフトウェア エンジニアリングを利用して、システム管理者 (システム管理者) が手動で処理する運用システム管理、変更管理、インシデント対応、緊急対応などの IT 運用タスクを自動化します。 サイト信頼性エンジニアの仕事内容、役割、給与、認定資格について詳しくは、以下をお読みください。

根底にある考え方は、 SRE それは、ソフトウェア コードを使用して大規模なソフトウェア システムの監視を自動化することは、特にそのようなシステムが成長したりクラウドに移行したりする場合、手動による介入よりもスケーラブルで長期的なソリューションであるということです。

また、SRE は、新規または更新されたソフトウェアを実稼働環境に継続的にリリースしたい開発チームと、確実に勝てる場合を除き、新しいソフトウェアや更新をリリースしたくない運用チームとの間で自然に生じる対立を大幅に軽減または排除することもできます。停止やその他の運用上の問題を引き起こしません。 その結果、SRE が DevOps に必要ない場合でも、SRE は DevOps の概念に厳密に準拠しており、DevOps の成功に役立ちます。

Google のエンジニアリング担当副社長である Ben Treynor Sloss は、SRE のアイデアを開発したとされています。 彼は「ソフトウェア エンジニアに運用チームの設計を依頼すると SRE が起こる」という言葉で知られています。

サイト信頼性エンジニア

サイト信頼性エンジニアは、IT 運用の知識を持つソフトウェア開発者です。コーディングができ、大規模な IT システム内で「照明をオンにしておく」方法も知っています。

サイト信頼性エンジニアは、ログの分析、パフォーマンス チューニングの実行、パッチの適用、運用環境のテスト、インシデントへの対応、事後分析の実施など、手動の IT 運用とシステム管理タスクを自動化するコードの作成に時間の大部分を費やします。 時間が経つにつれて、彼らは後者にもっと多くの時間を費やし、前者に費やす時間を大幅に減らしたいと考えています。

より高いレベルでは、SRE チームは開発チームと運用チームの間のリンクとして機能し、開発チームが新しいソフトウェアや新機能をできるだけ早くリリースできるようにするとともに、合意された許容レベルの IT 運用パフォーマンスとエラー リスクを確保します。会社が顧客と結んでいるサービス レベル契約 (SLA) に基づいて。 SRE チームは、開発チームと運用チームが専門知識と豊富な運用データに基づいて運用標準を確立できるよう支援します。

サービスレベルインジケーター (SLI)

システムのサービス レベルは、可用性 (稼働時間) や遅延などの尺度を使用して測定されます。

SLO、またはサービスレベル目標

合意されたサービス レベルを測定するための指標には次のものがあります。

予算の間違い

長期間にわたって、SLA の契約上の義務に違反することなく、システムが誤動作したり、期待を下回るパフォーマンスを発揮したりする可能性があります。 サイト信頼性エンジニアリング チームは、単なる指標ではないエラー バジェットを使用して、企業のイノベーション率とサービスの信頼性のバランスを自動的にとります。

サイト信頼性エンジニアの職務内容

サイト信頼性エンジニアの職務記述書では、運用経験のあるソフトウェア エンジニア、プログラミングの専門知識を持つシステム管理者、コーディング経験のある IT 運用スペシャリスト、システム アーキテクト、生産自動化マネージャーなど、さまざまな背景を持つ人々の応募を奨励することがよくあります。

組織内のソフトウェア システムのパフォーマンス、可用性、信頼性を監視、自動化、強化するのは SRE の義務です。 彼らは、問題の防止、インフラストラクチャの管理、効率的な監視方法の開発、コンピュータ システムが問題なく動作することを確認するという任務を負っています。

サイト信頼性エンジニアの職務記述書の書き方

機能の一般的な責任と能力が特定されれば、サイト信頼性エンジニアの職務内容を作成するのが簡単になります。

‍次のようなポジションの重要な要素を集中的に伝えると役立ちます。

  • プロアクティブなインシデント対応のためのオンコール担当者のローテーション
  • インシデント対応のための自動ソリューションを開発できるように、発生後にアクション ログを作成します。
  • SRE ツールはインフラストラクチャの監視に使用され、必要に応じてツールが推奨されます。
  • インシデント対応とアラーム監視のメカニズムを作成します。
  • チームワークと運用手順を強化する
  • コーディングによる CI/CD パイプライン インフラストラクチャの自動化
  • ソリューションの拡大に合わせて基本的なインフラストラクチャを計画、構築、更新することで信頼性を維持します。
  • 優れたプログラミング能力とシステムの深い理解が求められます。
  • 文化を変えてプロセス改革の基礎を築きます。

職務の技術的要件は、職務内容に記載されているように、その職務で成功するために必要なソフト能力とバランスがとれている必要があります。

サイト信頼性エンジニアの役割

サイト信頼性エンジニアの役割には新入生が求められることはほとんどなく、ある程度の実務経験が必要であることに注意することが重要です。 このポジションには、数多くの異なる機能を戦略的かつ実践的に理解することが必要ですが、これは純粋に学術的な学習だけでは達成できません。

サイト信頼性エンジニアの職務には、次のタスクと責任が含まれます。

#1. ソフトウェア開発の専門知識

手動で反復的な手順に依存する従来の IT および製品サイトのマネージャーは、より持続可能でインテリジェントな SRE に置き換えられます。 現在のシステムを強化するために、特別に設計された有用なソフトウェアを作成する必要があります。 たとえば、サイト信頼性エンジニアは、ウェアラブル上の自動警告のためのプラットフォームをゼロから構築する責任を負うことがあるかもしれません。 結局のところ、運用はソフトウェアの問題であり、サイト信頼性エンジニアリングの基本原則です。 このため、SRE はソフトウェア開発に関する知識があり、一般的なスクリプト言語に慣れている必要があります。

#2. インシデントのエスカレーションとトラブルシューティングをサポートする能力

基本的なスキルを備えたオートメーションまたは人間のヘルプ デスクは、通常、IT インフラストラクチャのインシデントをレベル XNUMX で処理できます。 すべての問題をすぐに解決できるわけではないため、サイト信頼性エンジニアリング チームはエスカレーションやより困難なトラブルシューティングに備える必要があります。 レベル XNUMX およびレベル XNUMX の介入が実稼働環境の問題を解決できない場合、インシデントはエスカレートします。 SRE はより高いレベルで参入するため、差し迫った問題に対する最先端のソリューションを実装できます。 将来同様のエスカレーションを回避するには、発生を記録し、自動応答を作成する必要もあります。

#3. 手順や情報の記録

ソフトウェア開発、IT 運用、サービス ヘルプ デスクのレベル XNUMX およびレベル XNUMX のサポートなど、さまざまな部門の部門を超えた専門家が、サイト信頼性エンジニアと頻繁に連携します。 これは、時間の経過とともに、個人が文書化されていない重要な情報を開発することを意味します。 文書化がなければ部門はサイロで運営され続け、特定の仕事を遂行する資格のある人だけが特定の人物に限定されます。 その結果、現在のチームや今後雇用されるリソースを支援できる内部ドキュメント、プレイブック、その他の集中ナレッジ リポジトリを作成する義務が SRE に与えられました。

#4. インシデント解決後の評価 

「事後文化」は、サイト信頼性エンジニアの重要な原則の XNUMX つです。 これは、問題またはインシデントが解決された後も自動的にクローズされないことを意味します。 代わりに、SRE は責任を負わせることなく、インシデントに至った詳細と状況を調査して、今後のインフラストラクチャを改善し、根本原因による停止を回避します。 事後レビューを行うには、重要な詳細を含むよく書かれた事後文書が必要です。 この文書には、日時、関係者の名前、ユーザーと収益への影響、根本原因、学んだ教訓、アクションポイントがすべて含まれます。

#5. 負荷管理

データセンターのリソースの供給とトラフィックおよびサービスの需要のバランスを取るために使用されるプロセスと方法は、負荷管理と呼ばれます。 予期せぬ市場動向や物理的事故による需要の急増など、さまざまな状況により、いつでもサービスの利用が中断される可能性があります。 100% の稼働率は物理的に決して達成できないことを理解している一方で、サイト信頼性の専門家は、可能な限りサービスの可用性を確保するよう努めています。 キルスイッチや手動オーバーライドなど、自動ソリューションが失敗した場合に介入する戦略を使用する必要があります。 SRE は多くの場合、負荷分散、負荷制限、自動スケーリングを含む XNUMX つの部分からなる負荷管理システムを担当します。

#6. データ処理システムの知識

大量のトラフィックと高帯域幅のサービスという XNUMX つのニーズを満たすには、効率的なデータ処理パイプラインが不可欠です。 現代のビジネスでは、ビッグデータを含む多数のソースからのデータが使用されます。 アプリケーション機能を強化したり、意思決定をガイドしたりするには、サイト信頼性エンジニアは、断片化され順序付けされていないデータセットを組織化された情報に変換するデータ処理パイプラインを作成する必要があります。 使用上の問題はパイプラインの遅延や欠陥によって発生する可能性があり、修正するには多大な時間と労力がかかります。 SRE の責任は、これらのリスクを軽減し、データ処理パイプラインに依存するアプリケーションに最高レベルのサービス可用性を提供することです。

#7。 構成設計の専門知識

ソフトウェア システムは厳格ではなく、トラフィックやビジネス ニーズに合わせて常に変更されるため、定期的に適切にセットアップする必要があります。 ソフトウェア製品、データセット、サービスを実行する運用システムの構成管理は、SRE の職務の一部です。 構成設計では、将来の SRE チームが最小限の作業でシステムを調整できるシンプルさと、ユーザーが高可用性と中断のないアプリケーション サービスを享受できる信頼性の XNUMX つの要素を最優先する必要があります。 サイト信頼性エンジニアは、この状況での構成の作成と管理に役立つツールを作成できます。

#8. ワークロードを再バランスする能力 

SRE チームの各エンジニアは、自分のスキルと能力を活用するために、正確に適切な量の作業を担当します。 したがって、誰も過剰な負担を負うことはありません。 ただし、リソースの変更、休暇、その他の中断によってタスクの不均衡が生じる可能性があります。 SRE は XNUMX 日の中断も許されないビジネスクリティカルなインフラストラクチャを管理するため、これは深刻な課題です。 エンジニアは、労働力が不足しているときに、自分自身に無理をしすぎて、単純な雑事に気を取られ、価値を付加する開発に費やす時間が減ってしまうことがよくあります。 ワークロードを管理するには、チームの再構築、ツールの調整、またはその両方を同時に実行できる必要があります。

サイト信頼性エンジニアの給与

サイト信頼性エンジニアは多くの責任を負っているだけでなく、完全なデジタル大災害を回避したい組織はその才能とスキルを活用する必要があると自信を持って言えます。 別の言い方をすると、サイト信頼性エンジニアは給与として多額のお金を稼ぐことができます。 他の賃金に関する議論と同様、収入に最も大きな影響を与える要素は、経験、場所、勤務先です。

ZipRecruiter によると、米国のサイト信頼性エンジニアの平均年収は 130,238 ドルです。
ある異常値によると、その他の収入を含む中央値は 236,000 万 450,000 ドルです。 グレムリンの年間収入はXNUMX万ドルに上るという。

サイト信頼性エンジニア認定資格

SRE のスキルと知識の証拠は、GSDC が提供するサイト信頼性エンジニア認定資格です。 これは、申請者が SRE の技術、実践、概念を使用して現実世界の問題を解決できることを証明します。

サイト信頼性エンジニアリングの分野で仕事のチャンスを改善し、キャリアを成長させたいと考えている専門家にとって、サイト信頼性エンジニア認定資格は非常に重要です。 これは候補者に就職市場での競争力を与え、生涯にわたる学習と成長への献身的な姿勢を証明します。

サイト信頼性エンジニアの認定資格は、SRE が複雑なシステムを管理および保守できることを確認したい組織にとっても役立つ場合があります。 これにより、候補者が必要なサービス レベルの目標を満たす、またはそれを超える信頼性の高いシステムを作成、構築、実行できることが保証されます。

今日のペースが速く複雑な技術環境では、GSDC のサイト信頼性エンジニアの認定資格は、個人と企業の両方にとって大きな資産となります。

これは SRE の能力と知識を検証し、信頼性、拡張性、パフォーマンスへの取り組みを示します。

SRE はあなたのチームのどこに当てはまりますか?

サイト信頼性エンジニアの役割と義務は、あらゆる組織が人材、プロセス、テクノロジーを継続的に改善するために不可欠です。 サイト信頼性エンジニアリングは、チームがすでに本格的な DevOps 文化を採用している場合でも、まだ変更に取り組んでいる場合でも、スピードと信頼性の点で多くの利点をもたらします。

SRE は当然、ソフトウェア エンジニアリング、運用、サポートの中心に位置します。 SRE は、IT と開発者の間の絆を強化するための理想的な能力の組み合わせであり、その結果、フィードバック サイクルが短縮され、チームワークが向上し、ソフトウェアの信頼性が高まります。

SREは高収入の仕事ですか?

Glassdoor [103,480] によると、米国のサイト信頼性エンジニアの年間給与の中央値は 1 ドルです。 SRE は、年収 22,321 ドルに対して、ボーナスや利益分配などの追加の報酬として 125,801 ドルを受け取ることもあります。

サイト信頼性エンジニアはコーディングを行いますか?

SRE はコードの作成と、エンジニアがインフラストラクチャと通信できるようにするツールの作成に多くの時間を費やします。 たとえば、SRE は長期的なパフォーマンスを考慮した信頼性レポートを作成する場合があります。

SRE の学位は必要ですか?

サイト信頼性エンジニアとして働きたい場合は、学士号プログラムを修了する必要があります。 雇用主は通常、コンピュータ サイエンスの学位を持った人を優遇します。 これは、大学入学前教育の重点がコンピュータとコンピュータの知識にあることを意味します。

まとめ

サイト信頼性エンジニアリングはどのようなメリットをもたらしますか? 私たちは、それが結束力のあるメタチーム、つまり全員が同じ目標に向かって協力するチーム間のコラボレーションであると考えています。 私たちはつながりのある社会に住んでいますが、そこではテクノロジーが私たちを疎外するのではなく、強化してくれています。 ソフトウェア開発においてもそれは何も変わりません。

サイト信頼性エンジニアは、他の職業ではあまり見られないある程度の自由と独立性を持ちます。これは SRE のもう XNUMX つの重要な側面です。 システムの信頼性を向上させるために実験をしたり、組織構造を変更したりすることが好きな人には、この職業が向いています。 さらに、あなたは同僚の生活に大きな変化をもたらす可能性が高く、それは決して小さな成果ではありません。

さらに、IT 運用とソフトウェア開発の分野全体について学びます。 これは、多様なチームをまとめることに加えて、自分のスキルセットを継続的に拡大することも意味します。 その結果、開発者としてだけでなく、マネージャーとしても向上することができます。

参照:

コメントを残す

あなたのメールアドレスは公開されません。 必須フィールドは、マークされています *

こんな商品もお勧めしています