Páginas

dezembro 19, 2018

[Carreira] Site Reliability Engineering

Preocupados em como garantir a correta gestão de seus sites, há poucos anos atrás o pessoal do Google teve a idéia de criar um grupo multidisciplinar responsável por isso. Enquanto a maioria das empresas deixam essas tarefas sob responsabilidade do time de Arquitetura e Operação dos sistemas, o Google criou o conceito de...

Site Reliability Engineering (SRE)


O Site Reliability Engineering (SRE), ou "Engenheiro de Confiabilidade de Sites" (em uma tradução livre), é um profissional com background em engenharia de software responsável por apoiar a resolução de problemas de operações de TI. Ou seja, eles atuam, de forma multidisciplinar na gestão e na automação do ambiente de tecnologia. Isso inclui participar de decisões de arquitetura, de desenvolvimento, de segurança - entre outras - interagindo com diversos times e garantindo que todos os times trabalhem de forma coesa.

O conceito de Site Reliability Engineering foi criado no Google em 2003, quando Ben Treynor foi contratado para liderar uma equipe de sete engenheiros de software responsáveis por um ambiente de produção.

Com o foco na confiabilidade do sistema, o objetivo do SRE está em encontrar formas para aprimorar o design e a operação dos sistemas para fazê-los mais escaláveis, confiáveis e mais eficientes. Em geral, uma equipe SRE é responsável pela disponibilidade, latência, desempenho, eficiência, gerenciamento de mudanças, monitoramento, resposta a emergências e planejamento de capacidade dos serviços sob sua supervisão.

São algumas das vantagens do SRE:
  • Reduzir os silos dentro da organização;
  • Compartilhar a responsabilidade com os desenvolvedores,;
  • Incentivar os desenvolvedores e gestores de produtos a se movimentarem rapidamente, reduzindo o impacto e custo de falhas;
  • Alavancar o uso de ferramentas e automação e gerar métricas.
Para saber mais:

Nenhum comentário:

Postar um comentário