Amazon Pede Desculpas e Aponta Bug em Automação como Causa da Pane na AWS
A Amazon Web Services (AWS) pediu desculpas pelo incidente que afetou seus serviços na última segunda-feira (20). De acordo com a empresa, o problema foi causado por um bug em um software de automação para gestão de DNS, que gerou um registro vazio e impediu que as instâncias se conectassem entre si.
A falha ocorreu em servidores localizados nos Estados Unidos e afetou vários serviços, incluindo o DynamoDB, o balanceador de carga de rede (NLB) e o EC2. A pane geral só foi resolvida à noite, quando a Amazon restabeleceu os serviços impactados.
A Amazon explicou que o bug no software de automação de DNS gerou um registro vazio, o que impediu que as instâncias se conectassem entre si. Isso causou um “efeito dominó” que afetou vários serviços, incluindo o NLB, o NC2 e outros.
Como resposta, a AWS desativou globalmente a automação de DNS do DynamoDB até realizar correções e adicionar novas proteções para evitar planos incorretos. Além disso, a empresa planeja implementar mudanças nos serviços, incluindo:
- Adicionar um mecanismo de controle de velocidade ao NLB para limitar a capacidade que um único controlador pode remover quando falhas na verificação de integridade causam failover em Zonas de Disponibilidade (AZ).
- Criar uma bateria extra de testes para o fluxo de recuperação do EC2 e aprimorar o “throttling” com base no tamanho das filas, reduzindo o risco de colapsos sob carga.
A Amazon afirmou que “pedimos desculpas pelo impacto que este evento causou aos nossos clientes” e que fará tudo o que for possível “aprender com este evento e usá-lo para melhorar ainda mais a disponibilidade dos serviços”. A empresa também destacou que tem um “sólido histórico de operação de nossos serviços com os mais altos níveis de disponibilidade” e que está comprometida em evitar que incidentes semelhantes ocorram no futuro.
Este conteúdo pode conter links de compra.
Fonte: link