KỸ SƯ ĐỘ TIN CẬY CỦA TRANG WEB (SRE): Chúng là gì và chúng hoạt động như thế nào?

KỸ SƯ ĐỘ TIN CẬY CỦA TRANG WEB

Kỹ thuật độ tin cậy của trang web (SRE) sử dụng kỹ thuật phần mềm để tự động hóa các nhiệm vụ vận hành CNTT như quản lý hệ thống sản xuất, quản lý thay đổi, ứng phó sự cố và ứng phó khẩn cấp mà quản trị viên hệ thống (quản trị viên hệ thống) sẽ xử lý theo cách thủ công. Đọc tiếp để tìm hiểu thêm về mô tả công việc, vai trò, mức lương và chứng nhận của một kỹ sư độ tin cậy của trang web.

Ý tưởng cơ bản của SRE là việc tự động giám sát các hệ thống phần mềm lớn bằng cách sử dụng mã phần mềm là một giải pháp dài hạn và có thể mở rộng hơn so với can thiệp thủ công, đặc biệt nếu các hệ thống đó phát triển hoặc chuyển sang đám mây.

SRE cũng có thể giảm bớt hoặc loại bỏ đáng kể xung đột phát sinh một cách tự nhiên giữa các nhóm phát triển, những người muốn liên tục phát hành phần mềm mới hoặc cập nhật vào sản xuất và các nhóm vận hành, những người không muốn phát hành bất kỳ phần mềm hoặc bản cập nhật mới nào trừ khi họ chắc chắn rằng họ đã thắng không gây ra mất điện hoặc các vấn đề hoạt động khác. Do đó, ngay cả khi SRE không cần thiết cho DevOps, thì nó vẫn tuân thủ chặt chẽ các khái niệm về DevOps và có thể giúp DevOps thành công.

Ben Treynor Sloss, phó chủ tịch phụ trách kỹ thuật của Google, được cho là người đã phát triển ý tưởng về SRE. Anh ấy nổi tiếng với câu nói rằng “SRE là điều xảy ra khi bạn yêu cầu một kỹ sư phần mềm thiết kế một nhóm vận hành.”

Kỹ sư đáng tin cậy của trang web

Kỹ sư về độ tin cậy của trang web là nhà phát triển phần mềm có kiến ​​thức về hoạt động CNTT—một người có thể viết mã và cũng là người biết cách 'bật đèn' trong một hệ thống CNTT lớn.

Các kỹ sư về độ tin cậy của trang web dành phần lớn thời gian của họ để tạo mã tự động hóa các tác vụ quản trị hệ thống và hoạt động CNTT thủ công, chẳng hạn như phân tích nhật ký, thực hiện điều chỉnh hiệu suất, áp dụng các bản vá, thử nghiệm môi trường sản xuất, ứng phó với sự cố và tiến hành kiểm tra hậu kỳ. Theo thời gian, họ hy vọng sẽ dành nhiều thời gian hơn cho cái sau và ít thời gian hơn cho cái trước.

Ở cấp độ cao hơn, nhóm SRE hoạt động như một liên kết giữa nhóm phát triển và nhóm vận hành, cho phép nhóm phát triển phát hành phần mềm mới hoặc tính năng mới nhanh nhất có thể đồng thời đảm bảo hiệu suất hoạt động CNTT và rủi ro lỗi ở mức chấp nhận được. theo thỏa thuận cấp độ dịch vụ (SLA) mà công ty có với khách hàng của mình. Nhóm SRE hỗ trợ các nhóm phát triển và vận hành trong việc thiết lập các tiêu chuẩn vận hành dựa trên chuyên môn của họ và vô số dữ liệu vận hành.

Chỉ báo mức dịch vụ (SLI)

Các mức độ dịch vụ của hệ thống được đo bằng các biện pháp như tính khả dụng (thời gian hoạt động) và độ trễ.

SLO, hoặc mục tiêu cấp độ dịch vụ

Các chỉ tiêu đo lường mức độ dịch vụ đã được thống nhất bao gồm:

ngân sách sai lầm

Trong thời gian dài nhất, một hệ thống có thể gặp trục trặc hoặc hoạt động dưới mức mong đợi mà không vi phạm nghĩa vụ hợp đồng của SLA. Nhóm kỹ thuật về độ tin cậy của trang web sử dụng ngân sách lỗi, không chỉ là thước đo, để tự động cân bằng tỷ lệ đổi mới của công ty với độ tin cậy của dịch vụ.

Kỹ sư độ tin cậy trang web Mô tả công việc

Mô tả công việc của kỹ sư độ tin cậy của trang web thường khuyến khích các ứng dụng từ những người có nhiều nền tảng khác nhau, chẳng hạn như kỹ sư phần mềm có kinh nghiệm vận hành, quản trị viên hệ thống có chuyên môn lập trình, chuyên gia vận hành CNTT có kinh nghiệm viết mã, kiến ​​trúc sư hệ thống và quản lý tự động hóa sản xuất.

Giám sát, tự động hóa và nâng cao hiệu suất, tính khả dụng và độ tin cậy của hệ thống phần mềm bên trong một tổ chức là nhiệm vụ của SRE. Họ được giao nhiệm vụ ngăn ngừa sự cố, quản lý cơ sở hạ tầng, phát triển các phương pháp giám sát hiệu quả và đảm bảo hệ thống máy tính chạy không trục trặc.

Cách viết bản mô tả công việc của kỹ sư độ tin cậy trang web

Việc xây dựng mô tả công việc của một kỹ sư độ tin cậy của trang web sẽ đơn giản hơn khi các trách nhiệm và năng lực chung của chức năng đã được xác định.

‍Sẽ hữu ích nếu bạn tập trung vào việc truyền đạt các yếu tố quan trọng của vị trí, chẳng hạn như:

  • Luân phiên nhân sự trực để chủ động ứng phó sự cố
  • Tạo nhật ký hành động sau khi xảy ra sự cố để có thể phát triển các giải pháp tự động nhằm ứng phó sự cố.
  • Các công cụ SRE được sử dụng để giám sát cơ sở hạ tầng và các công cụ được khuyến nghị khi cần thiết.
  • Tạo cơ chế ứng phó sự cố và giám sát báo động.
  • Tăng cường tinh thần đồng đội và quy trình hoạt động
  • Tự động hóa cơ sở hạ tầng đường ống CI/CD thông qua mã hóa
  • Duy trì độ tin cậy bằng cách lập kế hoạch, xây dựng và cập nhật cơ sở hạ tầng cơ bản khi giải pháp mở rộng quy mô.
  • Cần thể hiện khả năng lập trình mạnh mẽ và hiểu biết sâu về hệ thống.
  • Thực hiện các thay đổi về văn hóa để đặt nền móng cho các cải cách về quy trình.

Các yêu cầu kỹ thuật của vị trí phải được cân bằng với các khả năng mềm cần thiết để thành công ở vị trí đó, như được mô tả trong bản mô tả công việc.

Vai trò của kỹ sư độ tin cậy của trang web

Điều quan trọng cần lưu ý là vai trò của kỹ sư độ tin cậy của trang web hiếm khi yêu cầu sinh viên năm nhất và cần có một số kinh nghiệm thực tế. Vị trí này đòi hỏi sự hiểu biết mang tính chiến lược và thực tế về nhiều chức năng riêng biệt, điều không thể đạt được thông qua học tập hàn lâm thuần túy.

Vai trò công việc của kỹ sư độ tin cậy trang web sẽ đề cập đến các nhiệm vụ và trách nhiệm sau:

#1. Chuyên môn phát triển phần mềm

Các nhà quản lý trang web sản phẩm và CNTT truyền thống, những người phụ thuộc vào các quy trình thủ công và lặp đi lặp lại, có sự thay thế thông minh và bền vững hơn trong SRE. Họ cần tạo ra phần mềm hữu ích và được thiết kế đặc biệt để nâng cao hệ thống hiện tại. Chẳng hạn, một kỹ sư về độ tin cậy của trang web có thể được giao nhiệm vụ xây dựng từ đầu một nền tảng cho các cảnh báo tự động trên thiết bị đeo được. Xét cho cùng, các hoạt động là một vấn đề phần mềm—một nguyên tắc cơ bản trong kỹ thuật độ tin cậy của trang web. Do đó, các SRE cần có kiến ​​thức về phát triển phần mềm và thông thạo các ngôn ngữ kịch bản phổ biến.

#2. Khả năng hỗ trợ leo thang sự cố và khắc phục sự cố

Tự động hóa hoặc bàn trợ giúp con người với các kỹ năng cơ bản thường có thể xử lý các sự cố cơ sở hạ tầng CNTT ở cấp độ một. Các nhóm kỹ thuật về độ tin cậy của trang web phải sẵn sàng cho các tình huống leo thang và khắc phục sự cố khó khăn hơn vì không phải tất cả các sự cố đều có thể được khắc phục kịp thời. Khi các biện pháp can thiệp cấp một và cấp hai không giải quyết được vấn đề về môi trường sản xuất, sự cố sẽ leo thang. SRE tham gia ở cấp độ cao hơn để họ có thể thực hiện các giải pháp tiên tiến cho các vấn đề cấp bách. Để tránh những sự leo thang tương tự trong tương lai, họ cũng phải ghi lại sự cố và tạo phản hồi tự động.

#3. Việc ghi lại các thủ tục và thông tin

Các chuyên gia đa chức năng từ nhiều phòng ban khác nhau, bao gồm phát triển phần mềm, vận hành CNTT, bộ phận trợ giúp dịch vụ cấp một và hỗ trợ cấp hai, v.v., sẽ thường xuyên cộng tác với các kỹ sư về độ tin cậy của trang web. Điều này có nghĩa là theo thời gian, các cá nhân phát triển một lượng thông tin quan trọng thường không được ghi lại. Không có tài liệu, các phòng ban tiếp tục hoạt động trong các silo và chỉ một số người nhất định có đủ điều kiện để thực hiện một số công việc nhất định. Do đó, nhiệm vụ tạo tài liệu nội bộ, sách giải trí và các kho lưu trữ kiến ​​thức tập trung khác có thể hỗ trợ các nhóm hiện tại và các nguồn lực được tuyển dụng sắp tới đã được giao cho SRE.

#4. Đánh giá sự cố sau khi giải quyết 

“Văn hóa sau khi chết” là một trong những nguyên tắc chính của kỹ sư độ tin cậy của trang web. Điều này ngụ ý rằng một vấn đề hoặc sự cố sẽ không tự động đóng lại sau khi nó đã được giải quyết. Thay vào đó, SRE xem xét các chi tiết và hoàn cảnh dẫn đến sự cố mà không đổ lỗi để cải thiện cơ sở hạ tầng trong tương lai và tránh sự cố ngừng hoạt động do nguyên nhân gốc rễ. Một tài liệu khám nghiệm tử thi được viết tốt bao gồm các chi tiết quan trọng là cần thiết để tiến hành đánh giá khám nghiệm tử thi. Thời gian và ngày tháng, tên của các bên liên quan, tác động đến người dùng và doanh thu, nguyên nhân gốc rễ, bài học kinh nghiệm và các điểm hành động đều sẽ được đưa vào bài báo.

#5. quản lý tải

Các quy trình và phương pháp được sử dụng để cân bằng việc cung cấp tài nguyên trung tâm dữ liệu với lưu lượng truy cập và nhu cầu dịch vụ được gọi là quản lý tải. Nhiều trường hợp khác nhau, chẳng hạn như nhu cầu tăng đột biến do xu hướng thị trường bất ngờ hoặc tai nạn vật lý, có thể khiến tính khả dụng của dịch vụ bị gián đoạn bất cứ lúc nào. Mặc dù hiểu rằng không bao giờ đạt được 100% thời gian hoạt động về mặt vật lý, nhưng các chuyên gia về độ tin cậy của trang web luôn cố gắng đảm bảo khả năng cung cấp dịch vụ nhiều nhất có thể. Họ phải sử dụng các chiến lược sẽ can thiệp nếu một giải pháp tự động không thành công, chẳng hạn như khóa chuyển đổi và ghi đè thủ công. SRE thường chịu trách nhiệm về hệ thống quản lý tải gồm ba phần bao gồm cân bằng tải, giảm tải và tự động thay đổi quy mô.

#6. Kiến thức về hệ thống xử lý dữ liệu

Để đáp ứng ba nhu cầu về lưu lượng lớn và dịch vụ băng thông rộng, các đường ống xử lý dữ liệu hiệu quả là rất cần thiết. Một doanh nghiệp hiện đại sẽ sử dụng dữ liệu từ nhiều nguồn, bao gồm cả dữ liệu lớn. Để cung cấp năng lượng cho các tính năng của ứng dụng hoặc hướng dẫn việc ra quyết định, các kỹ sư về độ tin cậy của trang web phải tạo các đường ống xử lý dữ liệu để chuyển đổi các bộ dữ liệu bị phân mảnh và không có thứ tự này thành thông tin có tổ chức. Các vấn đề về sử dụng có thể do sự chậm trễ hoặc khiếm khuyết trong quy trình và mất nhiều thời gian cũng như công việc để khắc phục. Trách nhiệm của SRE là giảm thiểu những rủi ro này và cung cấp mức độ sẵn sàng dịch vụ cao nhất cho các ứng dụng dựa vào đường ống xử lý dữ liệu.

#7. Chuyên môn thiết kế cấu hình

Các hệ thống phần mềm phải được thiết lập thường xuyên đúng cách vì chúng không cứng nhắc và thay đổi liên tục để đáp ứng nhu cầu lưu lượng và kinh doanh. Quản lý cấu hình cho các sản phẩm phần mềm, bộ dữ liệu và hệ thống sản xuất chạy các dịch vụ là một phần của vị trí công việc SRE. Hai yếu tố phải được ưu tiên hàng đầu trong thiết kế cấu hình: tính đơn giản để các nhóm SRE trong tương lai điều chỉnh hệ thống với ít công việc nhất và độ tin cậy để người dùng tận hưởng tính khả dụng cao và các dịch vụ ứng dụng không bị gián đoạn. Các kỹ sư về độ tin cậy của trang web có thể tạo các công cụ để giúp tạo và quản lý cấu hình trong tình huống này.

#số 8. Khả năng tái cân bằng khối lượng công việc 

Mỗi kỹ sư trong nhóm SRE có chính xác khối lượng công việc phù hợp để sử dụng các kỹ năng và khả năng của họ. Do đó, không ai bị quá tải. Tuy nhiên, sự mất cân bằng nhiệm vụ có thể là kết quả của những thay đổi về tài nguyên, kỳ nghỉ và các gián đoạn khác. Vì các SRE quản lý cơ sở hạ tầng quan trọng trong kinh doanh không thể chịu đựng được sự gián đoạn dù chỉ một ngày, nên đây là một thách thức nghiêm trọng. Các kỹ sư thường làm việc quá sức, bị phân tâm bởi những công việc lặt vặt và dành ít thời gian hơn cho sự phát triển làm tăng thêm giá trị khi thiếu lao động. Để quản lý khối lượng công việc, họ phải có khả năng tái cơ cấu nhóm, điều chỉnh công cụ hoặc thực hiện cả hai việc cùng một lúc.

Mức lương kỹ sư độ tin cậy của trang web

Chúng tôi có thể tự tin tuyên bố rằng các kỹ sư về độ tin cậy của trang web không chỉ chịu trách nhiệm cho rất nhiều việc mà bất kỳ tổ chức nào muốn tránh thảm họa kỹ thuật số hoàn toàn đều cần tận dụng tài năng và kỹ năng của họ. Một cách khác để nói rằng một kỹ sư độ tin cậy của trang web có thể kiếm được rất nhiều tiền dưới dạng tiền lương. Như với bất kỳ cuộc tranh luận về tiền lương nào, các yếu tố có ảnh hưởng lớn nhất đến số tiền bạn có thể kiếm được là kinh nghiệm, địa điểm và công ty của bạn.

Theo ZipRecruiter, mức lương trung bình hàng năm cho một kỹ sư về độ tin cậy của trang web ở Hoa Kỳ là 130,238 USD.
Con số trung bình, bao gồm thu nhập khác, là 236,000 đô la, theo một ngoại lệ. Gremlin đã chứng kiến ​​​​thu nhập cao tới 450,000 đô la hàng năm.

Chứng nhận kỹ sư độ tin cậy của trang web

Bằng chứng về kỹ năng và kiến ​​thức của SRE là Chứng chỉ Kỹ sư Độ tin cậy Trang web mà GSDC cung cấp. Nó chứng minh rằng người nộp đơn có khả năng sử dụng các kỹ thuật, thực hành và khái niệm SRE để giải quyết các vấn đề trong thế giới thực.

Đối với các chuyên gia muốn cải thiện cơ hội việc làm và phát triển sự nghiệp của họ trong lĩnh vực kỹ thuật độ tin cậy của trang web, Chứng chỉ kỹ sư độ tin cậy của trang web là rất quan trọng. Nó mang lại cho ứng viên lợi thế cạnh tranh trong thị trường việc làm và thể hiện sự cống hiến của họ cho việc học tập và phát triển suốt đời.

Chứng nhận của một kỹ sư về độ tin cậy của trang web cũng có thể hữu ích cho các tổ chức muốn đảm bảo rằng SRE của họ có khả năng quản lý và bảo trì các hệ thống phức tạp. Nó đảm bảo rằng ứng viên có thể tạo, xây dựng và chạy các hệ thống đáng tin cậy đáp ứng hoặc vượt quá các mục tiêu cấp độ dịch vụ cần thiết.

Trong môi trường công nghệ phát triển nhanh và phức tạp ngày nay, chứng chỉ kỹ sư về độ tin cậy của trang web từ GSDC là một tài sản lớn cho cả cá nhân và doanh nghiệp.

Nó xác minh khả năng và kiến ​​thức của SRE, đồng thời thể hiện sự cống hiến cho độ tin cậy, khả năng mở rộng và hiệu suất.

SRE phù hợp với nhóm của bạn ở đâu?

Vai trò và nhiệm vụ của các kỹ sư về độ tin cậy của trang web là điều cần thiết đối với sự cải tiến liên tục của bất kỳ tổ chức nào đối với con người, quy trình và công nghệ của tổ chức đó. Kỹ thuật độ tin cậy của trang web mang lại nhiều lợi thế về tốc độ và độ tin cậy, cho dù nhóm của bạn đã áp dụng văn hóa DevOps chính thức hay bạn vẫn đang làm việc với sự thay đổi.

SRE tự nhiên nằm ở mối liên hệ giữa công nghệ phần mềm, vận hành và hỗ trợ. SRE là sự kết hợp lý tưởng của các khả năng nhằm củng cố mối quan hệ giữa CNTT và nhà phát triển, dẫn đến chu kỳ phản hồi nhanh hơn, tinh thần đồng đội tốt hơn và phần mềm đáng tin cậy hơn.

SRE có phải là một công việc được trả lương cao không?

Mức lương trung bình hàng năm cho một kỹ sư độ tin cậy trang web ở Hoa Kỳ là $103,480, theo Glassdoor [1]. Các SRE cũng có thể nhận thêm $22,321 tiền bồi thường, chẳng hạn như tiền thưởng hoặc chia sẻ lợi nhuận, với mức lương hàng năm là $125,801.

Các kỹ sư độ tin cậy của trang web có viết mã không?

SRE sẽ dành nhiều thời gian để viết mã và tạo các công cụ cho phép các kỹ sư giao tiếp với cơ sở hạ tầng. Chẳng hạn, một SRE có thể tạo ra các báo cáo đáng tin cậy có tính đến hiệu suất dài hạn.

Bạn có cần bằng cấp cho SRE không?

Bạn phải hoàn thành chương trình cử nhân nếu muốn làm kỹ sư độ tin cậy của trang web. Nhà tuyển dụng thường ưu tiên những người có bằng cấp về khoa học máy tính. Điều này có nghĩa là chương trình dự bị đại học của bạn sẽ tập trung vào máy tính và kiến ​​thức về máy tính.

Tổng kết

Kỹ thuật độ tin cậy trang web có thể cung cấp những lợi ích gì? Chúng tôi nghĩ rằng đó là một siêu nhóm gắn kết, một sự hợp tác giữa các nhóm khiến mọi người cùng làm việc hướng tới cùng một mục tiêu. Chúng ta sống trong một xã hội kết nối nơi công nghệ đang nâng cao chúng ta hơn là xa lánh chúng ta. Trong phát triển phần mềm, không có gì khác biệt.

Các kỹ sư về độ tin cậy của trang web sẽ có một mức độ tự do và độc lập mà họ không thường thấy trong các ngành nghề khác, đây là một khía cạnh quan trọng khác của SRE. Đây là nghề dành cho bạn nếu bạn thích làm thí nghiệm hoặc thay đổi cơ cấu tổ chức để cải thiện độ tin cậy của hệ thống. Ngoài ra, rất có thể bạn sẽ tạo ra sự khác biệt đáng kể trong cuộc sống của đồng nghiệp và đó không phải là thành tích nhỏ.

Ngoài ra, bạn sẽ tìm hiểu về toàn bộ các hoạt động CNTT và nguyên tắc phát triển phần mềm. Điều này ngụ ý rằng, ngoài việc tập hợp các nhóm đa dạng lại với nhau, bạn cũng sẽ liên tục mở rộng bộ kỹ năng của mình. Nhờ điều này, bạn sẽ cải thiện không chỉ với tư cách là nhà phát triển mà còn với tư cách là người quản lý.

Tài liệu tham khảo:

Bình luận

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *

Bạn cũng có thể thích