...

Falha no DNS da AWS derruba DynamoDB e afeta diversos serviços, expondo a fragilidade da nuvem

A manhã da última segunda-feira (horário do pacífico) começou agitada para usuários da Amazon Web Services (AWS) na região US-EAST-1. Um problema no DNS (Domain Name System), sistema que traduz nomes de domínio em endereços IP, impactou a API do DynamoDB, um serviço de banco de dados chave, causando instabilidade em vários serviços da AWS e de seus clientes.

Embora a causa raiz do incidente, aparentemente, tenha afetado uma única API em apenas uma das muitas regiões da AWS, o impacto foi significativo por se tratar de um serviço de banco de dados fundamental. Muitos serviços, tanto da própria Amazon quanto de seus clientes, dependem do DynamoDB para funcionar corretamente, dentro e fora da região afetada. Essa dependência centralizada expõe a fragilidade da infraestrutura de nuvem e a importância da redundância e do monitoramento constante.

Impacto generalizado

A empresa de busca por inteligência artificial Perplexity relatou estar “enfrentando uma interrupção relacionada a um problema operacional da AWS”. A ferramenta de design online Canva, sem mencionar diretamente a AWS, também reportou um problema grave com seu provedor de nuvem, resultando em um aumento nas taxas de erro para seus usuários durante o mesmo período. O site Downdetector, que monitora o status de serviços online, observou que interrupções no Venmo, Roku, Lyft, Zoom e no aplicativo do McDonald’s estavam “possivelmente relacionadas a problemas na Amazon Web Service.”

A própria AWS reconheceu o incidente em sua página de status de saúde do serviço, relatando “taxas de erro e latências aumentadas para vários serviços da AWS na região US-EAST-1”. A investigação subsequente identificou que o problema estava relacionado à resolução de DNS do endpoint da API do DynamoDB na região afetada. A empresa afirmou estar trabalhando em “múltiplos caminhos paralelos para acelerar a recuperação”.

Dependência global

O impacto não se limitou aos usuários e serviços na Costa Leste dos Estados Unidos. “Serviços ou recursos globais que dependem de endpoints US-EAST-1, como atualizações do IAM e tabelas globais do DynamoDB, também podem estar enfrentando problemas”, alertou a AWS. Isso demonstra a interconexão dos serviços de nuvem e como uma falha em uma única região pode ter consequências globais.

Após cerca de duas horas de investigação, a AWS implementou mitigações iniciais e recomendou que os clientes repetissem solicitações com falha, alertando sobre a possibilidade de latência adicional, já que alguns serviços acumulariam um backlog de tarefas. Três horas após o início da investigação, a empresa informou que os serviços e recursos globais que dependiam de US-EAST-1 haviam se recuperado e prometeu fornecer mais informações assim que disponíveis.

Lições aprendidas

Apesar da rápida resolução, o incidente serve como um lembrete de que, mesmo na nuvem, existem pontos únicos de falha que podem ter consequências em escala mundial. Recentemente, a Microsoft também enfrentou problemas semelhantes com o Azure, assim como a IBM Cloud em outras ocasiões. Esses eventos levantam questões sobre a resiliência das arquiteturas de nuvem e a necessidade de estratégias de redundância e recuperação de desastres.

É crucial que empresas que dependem de serviços de nuvem considerem cuidadosamente a arquitetura de seus sistemas, implementando mecanismos de redundância e monitoramento robustos para minimizar o impacto de possíveis falhas. A diversificação de provedores de nuvem e a adoção de arquiteturas multi-cloud também podem ser consideradas como estratégias para aumentar a resiliência e evitar a concentração de riscos.

Em última análise, o incidente com o DynamoDB destaca a importância da transparência e da comunicação eficiente por parte dos provedores de nuvem. A capacidade de diagnosticar rapidamente problemas, implementar mitigações eficazes e manter os clientes informados é fundamental para construir e manter a confiança no ecossistema da nuvem.

Compartilhe:

Descubra mais sobre MicroGmx

Assine agora mesmo para continuar lendo e ter acesso ao arquivo completo.

Continue reading