Site Reliability Engineering (SRE)
O Site Reliability Engineering (SRE), ou "Engenheiro de Confiabilidade de Sites" (em uma tradução livre), é um profissional com background em engenharia de software responsável por apoiar a resolução de problemas de operações de TI. Ou seja, eles atuam, de forma multidisciplinar na gestão e na automação do ambiente de tecnologia. Isso inclui participar de decisões de arquitetura, de desenvolvimento, de segurança - entre outras - interagindo com diversos times e garantindo que todos os times trabalhem de forma coesa.
O conceito de Site Reliability Engineering foi criado no Google em 2003, quando Ben Treynor foi contratado para liderar uma equipe de sete engenheiros de software responsáveis por um ambiente de produção.
Com o foco na confiabilidade do sistema, o objetivo do SRE está em encontrar formas para aprimorar o design e a operação dos sistemas para fazê-los mais escaláveis, confiáveis e mais eficientes. Em geral, uma equipe SRE é responsável pela disponibilidade, latência, desempenho, eficiência, gerenciamento de mudanças, monitoramento, resposta a emergências e planejamento de capacidade dos serviços sob sua supervisão.
São algumas das vantagens do SRE:
- Reduzir os silos dentro da organização;
- Compartilhar a responsabilidade com os desenvolvedores,;
- Incentivar os desenvolvedores e gestores de produtos a se movimentarem rapidamente, reduzindo o impacto e custo de falhas;
- Alavancar o uso de ferramentas e automação e gerar métricas.
- Artigo "[SRE] O que é Site Reliability Engineering?"
- Artigo "Site reliability engineering (SRE): A simple overview"
- Livros da O'Reilly sobre Site Reliability Engineering
- O livro "Site Reliability Engineering" está disponível online
Nenhum comentário:
Postar um comentário