Resumo
Às 5h50 UTC de 17 de julho de 2024, uma ação de manutenção agendada foi executada na instância principal do banco de dados da Degreed na região dos EUA no Azure. Durante essa manutenção, o banco de dados não se recuperou conforme o esperado, resultando em um erro de tempo limite ao tentar acessar a plataforma da Degreed. O sistema foi totalmente restaurado e voltou a ficar operacional às 10h28 UTC.
Causa
Nossa equipe de engenharia foi alertada a respeito de um aumento nos tempos de resposta devido à manutenção aplicada no Microsoft Azure. Depois de identificado, a equipe de engenharia encaminhou o problema imediatamente para o suporte da Microsoft. Para restaurar os serviços imediatamente, a Degreed iniciou um failover para nossa região secundária às 10h22 UTC. O sistema principal da Degreed foi recuperado com sucesso logo em seguida, às 10h28 UTC.
Planos de melhoria e prevenção
Para resolver esse problema, a equipe de engenharia atualizou processos de tratamento de cenários de failover para garantir uma recuperação mais rápida no futuro.
No momento, estamos aguardando uma atualização da Microsoft e uma análise de causa raiz (RCA) formal nos próximos dias. Faremos uma atualização quando a RCA estiver disponível.
Pedimos desculpas por qualquer inconveniente que isso possa ter causado e agradecemos sua compreensão enquanto trabalhamos continuamente para melhorar a estabilidade e o desempenho de nossos sistemas.