SITE RELIABILITY ENGINEERING LÀ GÌ VÀ NHỮNG CÂU HỎI THÚ VỊ VỀ SRE LÀ GÌ,

      7

Site Reliability Engineering là gì?

Site Reliability Engineering (SRE), hay có cách gọi khác là Kỹ sư cai quản độ tin cậy, là khái niệm thành lập tại Google vào khoảng thời gian 2003, trước lúc DevOps ban đầu thịnh hành. Khi ấy nhóm kỹ sư phần mềm được giao nhiệm vụ làm cho những trang website của Google trở nên đáng tin cậy, công dụng và luôn sẵn sàng nhằm mở rộng. Các cách thức mà họ cách tân và phát triển đã đáp ứng tốt nhất nhu cầu của Google đến mức những công ty công nghệ lớn khác, chẳng hạn như Amazon với Netflix, cũng vận dụng và đưa về các công dụng rất tốt.Bạn vẫn xem: Sre là gì

Google vẫn mô tả kinh nghiệm tay nghề và phân phát hiện của chính bản thân mình trong cuốn “Site Reliability Engineering – How Google Runs Production Systems”. Bạn cũng có thể tải về phát âm miễn phí. Cuốn sách trình làng các định nghĩa như error budgets (tức thời gian tối đa nhưng mà hệ thống hoàn toàn có thể bị lỗi nhưng mà không vướng lại hậu quả tác động đến khách hàng hay hòa hợp đồng), Service cấp độ Objective (SLO – là một thỏa thuận về một vài liệu ví dụ như thời gian hoạt động hoặc thời gian phản hồi). Đồng thời cuốn sách cũng miêu tả các cách thức của Google về tự động hóa hóa, xử lý các trường hợp khẩn cấp và sự cố, hạn chế và khắc phục sự chũm và giám sát, thống trị rủi ro cũng như xây dựng những hệ thống rất có thể mở rộng. Cuốn sách cũng kể về các khía cạnh như tổ chức nhóm SRE và những nhiệm vụ theo yêu cầu.

Bạn đang xem: Site reliability engineering là gì và những câu hỏi thú vị về sre là gì,


*

Site Reliability Engineering book

Các Kỹ sư Site Reliability có tác dụng gì?

Ben Traynor, phó tổng giám đốc kỹ thuật tại Google với là người sáng lập Google SRE, đã xác minh chính xác thực chất của sứ mệnh SRE trong một cuộc rộp vấn:

“Về cơ bản, SRE vẫn thực hiện quá trình mà trước đó được thực hiện bởi một đội vận hành (operations). Điều khác biệt là SRE sử dụng những kỹ sư có trình độ về phần mềm và rất nhiều kỹ sư này còn có khả tự động hóa những hoạt động của con người. Nói chung, nhóm SRE chịu trách nhiệm về tính sẵn sàng, độ trễ, hiệu suất, hiệu quả, cai quản thay đổi, giám sát, ứng phó cần thiết và hoạch định công suất. ”

Các Site Reliability Engineer tạo ra cầu nối giữa phát triển và vận hành bằng cách áp dụng tứ duy kỹ thuật ứng dụng vào các chủ đề quản ngại trị hệ thống. Họ phân chia thời gian giữa việc quản lý và vận hành và phát triển giúp tăng cường mức độ tin cậy và năng suất của hệ thống. Google không chất nhận được các Site Reliability Engineer dành hơn một nửa thời gian của họ cho những tác vụ quản lý và coi bất kỳ vi phạm nào đối với quy tắc này là dấu hiệu của một hệ thống không tốt.

Theo Google, mục tiêu sau cuối của Site Reliability Engineering là tự động hóa hóa để dứt công việc. Một cách đặc biệt để làm vấn đề này là xây dựng các công thay tự phục vụ cho các nhóm người dùng phụ thuộc vào dịch vụ họ cần (ví dụ: cung ứng môi trường phân tách tự động, ghi logs, hiển thị báo cáo.. ). Làm bởi thế sẽ sút bớt các bước cần tiến hành cho tất cả các bên, được cho phép các nhà trở nên tân tiến tập trung trọn vẹn vào việc cải cách và phát triển tính năng và có thể chấp nhận được họ triệu tập vào nhiệm vụ tiếp theo sau để auto hóa. Các Site Reliability Engineer cùng tác nghiêm ngặt với những nhóm cách tân và phát triển sản phẩm để bảo đảm an toàn rằng chiến thuật đưa ra thỏa mãn nhu cầu được những yêu mong phi tác dụng như tính khả dụng, hiệu suất, bảo mật và kỹ năng bảo trì. Chúng ta cũng thao tác làm việc với các kỹ sư xuất bản để bảo vệ rằng tiến trình phát hành ứng dụng là kết quả nhất bao gồm thể.

Làm sao để biến một Site Reliability engineer?

Để biến đổi một Site Reliability Engineer, bạn cần phải có background là kỹ sư phần mềm hoặc kỹ sư hệ thống. Điều đặc trưng là bạn đã đạt được một nền tảng vững chắc trong cả hai nghành nghề dịch vụ đó. Đồng thời bạn cần có ý thức về sự đổi mới và tự động hóa hóa. Nếu khách hàng là một kỹ sư khối hệ thống và muốn cách tân kỹ năng lập trình, hoặc bạn là 1 trong kỹ sư ứng dụng và mong học cách làm chủ những khối hệ thống có quy mô lớn thì SRE đó là vị trí chúng ta nên hướng tới.

Tại sao Site Reliability Engineering lại quan tiền trọng?

SRE đem đến rất nhiều tiện ích ý nghĩa:

Giảm thiểu thời gian để sửa lỗi (time lớn repair – MTTR) và thời gian trung bình thân hai lỗi (mean time between failures – MTBF)Đẩy nhanh việc cập nhật phần mềm với sửa lỗi.Giảm thiểu các rủi ro vị con tín đồ bằng cách auto hóa.Giảm thiểu sự quá sở hữu của nhân viên.Cân bởi sự nỗ lực giữa những developers với đội SRE bởi vì cả hai tất cả cùng mục tiêuNâng cao sự bảo mật và tương thíchCân bằng các yêu cầu.

Xem thêm: Cày Game Thuê No 1 - Bán Rẻ Tương Lai Cho Nghề “Cày” Game Thuê

Mức lương của những SRE cầm cố nào?

Trên những site tuyển dụng chuyên ngành IT có thể dễ dàng kiếm tìm thấy những vị trí SRE vẫn tuyển với khoảng lương vừa đủ từ 1,000 mang đến 1,500 USD. Riêng những vị trí lead lương có thể lên mang đến 3,500 USD tại Việt Nam.


*

Một tin tuyển chọn dụng về địa chỉ Lead Site Reliability Engineer

Tại Mỹ, lương mức độ vừa phải của một SRE là vào khoảng $120K theo Glassdoor.

Khác nhau giữa Site Reliability Engineer cùng DevOps?

Bạn rất có thể nghĩ SRE bao gồm vẻ y hệt như DevOps. Nhưng sự thật không buộc phải vậy. DevOps và SRE đề xuất được coi là các quy tắc bổ sung cho nhau. Thân DevOps cùng SRE có một số trong những điểm khác nhau cơ bản:

DevOps ưu tiền về việc triệu tập vào việc tăng tốc vòng đời vạc triển ứng dụng (Soft Ware Development Life Cycle – SDLC) với thắt chặt sự hợp tác giữa đội ngũ vận hành và những kỹ sư phần mềm. DevOps giúp các developer tiếp xúc sâu hơn với các khối hệ thống đang hoạt động và cho phép các đội vận hành dễ ợt thông báo những vấn đề nghiêm trọng đến nhóm phạt triển.Trên thực tế, những nhóm SRE là một trong những phần không thể thiếu hụt trong bài toán xây dựng kiểm thử nhà động, tài năng quan sát, độ tin cậy của dịch vụ và tốc độ để cấu thành một nhóm chức rước DevOps làm trung tâm.SRE là một phương pháp để xác định các điểm yếu của hệ thống, kiểm demo các môi trường xung quanh production và giải quyết các vấn đề trước khi chúng trở đề nghị nghiêm trọng. SRE như là 1 phần của DevOps, trong các số đó team tập trung vào việc cải thiện độ tin cậy của những dịch vụ kỹ thuật trải qua việc hợp tác ký kết chặc chẽ và chủ động tối ưu hóa những dư thừa cũng giống như các hoạt động giám ngay cạnh và cảnh báo.

Bảng sau đây giúp bạn tưởng tượng sự khác biệt giữa DevOps cùng SRE theo Google:

DevOps

SRE

Tăng cường sự hợp tác trong tổ chức

Chia sẻ quyền sở hữa với các developers bằng phương pháp dùng chung những công nuốm và chuyên môn trên toàn cục hệ thống. 

Chấp nhận những thất bại

Có công thức cho việc thăng bằng giữa các sự cố kỉnh và thất bại trong những lần tạo ra mới

Thực hiện tại sự biến đổi từng bước

Khuyến khích biến đổi nhanh chóng bằng phương pháp giảm chi phí thất bại (failure cost) .

Tận dụng luật và tự động hóa hóa

Khuyến khích việc tự động hóa hóa các công việc và bớt thiểu các quá trình làm bằng tay thủ công để triệu tập vào các nỗ lực mang về giá trị vĩnh viễn cho hệ thống. 

Đo lường phần đa thứ

Cho rằng các chuyển động (operations) là sự việc của phầm mềm, và định nghĩa những cách theo hình thức để đo lường và thống kê mức độ sẵn sàng, thời hạn hoạt động, thời hạn ngừng…

Các vị trí có thể có vào team SRE?

Có những tên gọi không giống nhau tùy công ty cho các vị trí vào team SRE trong những số ấy có một trong những vị trí thịnh hành như SRE Team Lead, System Architect, SRE Infrastructure Engineer, Release manager, Monitoring engineer


*

Sơ thứ một team SRE đặc trưng. Ảnh Relevant Software

Các năng lực một SRE cần có là gì?

Trách nhiệm chính của SRE bao gồm theo dõi với phân tích hiệu suất thao tác làm việc của các hệ thống đang được vận hành. Tùy nằm trong và hệ thống hay thương mại & dịch vụ mà các chuyên gia SRE dùng các công cụ phù hợp trong các bước của mình. Mặc dù nhiên, cho dù làm với hệ thống nào với dùng giải pháp gì thì một số kĩ năng kỹ thuật với phi nghệ thuật sau đây là yêu cầu cần có đối với mỗi Site Reliability Engineer 

Kỹ năng kỹ thuật:

Nắm vững kỹ năng và kiến thức về làm chủ phiên phiên bản (version control)Chuyên gia về hệ quản lý điều hành LinuxHiểu về DevOps và biết cách áp dụng.Chuyên gia về CI/CD (Continuous Integration và Continuous Delivery)Chuyên gia về sử lý vấn đề, cách xử trí sự cố.Có kinh nghiệm tay nghề về viết code.Hiểu về nền tảng ứng dụng (software stack)

Kỹ năng mềm:

Phân tích nghiệp vụ (Business analysis)Làm câu hỏi nhómKỹ năng giải quyết và xử lý vấn đềLàm vấn đề dưới áp lực caoKỹ năng giao tiếp, bao gồm cả viết lẫn nóiKỹ năng diễn giải kỹ thuật đến các đối tượng người sử dụng khác nhau.

Kết luận

Site Reliability Engineering ngày càng quan trọng trong các công ty. Bởi vậy bài toán tuyển dụng những vị trí SRE càng ngày phổ biến không chỉ là tại Silicon Valley mà ngay đến ở Việt Nam. Nếu bạn muốn trở thành một SRE hãy ban đầu chuẩn bị ngay từ bây giờ. Thời cơ sẽ có rất nhiều ở phía trước.

 

Bạn bao gồm biết?

tham gia xã hội binhkhipho.vn bên trên Linkedin, Facebook và những kênh mạng xã hội khác có thể giúp bạn mau lẹ tìm được gần như chủ đề phát triển nghề nghiệp và cập nhật thông tin về bài toán làm IT tiên tiến nhất Linkedin Page: https://bit.ly/Linkedinbinhkhipho.vn Facebook Group: https://bit.ly/binhkhipho.vnvn thời cơ việc làm cho IT : binhkhipho.vn

tăng like fanpage