julho 05, 2008

[Internet] O dia em que a Internet parou (continuação)

A pane no backbone Internet da Telefônica foi notícia de capa em vários jornais, o que certamente causou um enorme prejuízo de imagem para a empresa. O sistema foi estabelecido e hoje também surgiram algumas explicações para o problema: o presidente da companhia no Brasil, Antonio Carlos Valente, informou em entrevista coletiva que a pane no acesso Internet teve origem nos equipamentos responsáveis pelo roteamento de rede, mais precisamente em um roteador na região de Sorocaba. "O problema estava no roteamento dinâmico, que faz com que as máquinas se atualizem", disse.

Isso pode indicar uma falha de configuração dos equipamentos, a propagação acidental de uma rota errada ou mesmo problemas na atualização das rotas, que geralmente em diversas redes é feito pelo protocolo Spanning Tree (STP) - há uma animação no site da CISCO que mostra como o protocolo funciona. Embora muito utilizado para controlar o roteamento dinâmico em redes, o Spanning Tree protocol normalmente não é recomendado para grandes redes, justamente porque ele tem a fama de demorar muito para se atualizar. Além do mais, sua configuração é complexa.

O presidente da Telefônica não descartou a hipótese de falha humana mas não acredita na possibilidade de ter sofrido ataque de "hackers".

Também há notícias na imprensa que, com a falha na Telefônica, outros backbones ficaram congestionados. Ou seja, num cenário onde a fornecedora de quase 70% do tráfego Internet sai do ar, as outras empresas certamente ficam sobrecarregadas.

Se tem uma coisa que eu aprendi assistindo os programas do Discovery Channel (e vejo sempre no dia-a-dia) é que nenhum grande acidente acontece em função de uma única causa. Normalmente, vários eventos colaboram para causar uma tragédia de grande proporção. E o que temos visto até agora sobre este caso? Monopólio de mercado, plano de demissões e de terceirização de pessoal (logo, funcionários descontentes e necessidade de manter o conhecimento durante a troca de equipes), ambiente tecnológico complexo, sistema no gargalo e com contingência insuficiente (há notícias que no final de 2007 o Instituto de Defesa do Consumidor fez um estudo segundo o qual o Speedy estava com problemas de estabilidade).



Outras referências:

Um comentário:

Andre disse...

Alo, Anchises

Bem, interessante o post e dá coisas para pensar, mas eu ressalvaria que não deve ter nada relacionado ao STP como causa, porque essa é uma rede de grande porte e portanto baseada em roteamento e em MPLS, enquanto o STP é típico de segmentos ethernet.

Abraço,
Andre

Creative Commons License
Disclaimer: The views expressed on this blog are my own and do not necessarily reflect the views of my employee.