Resumo
Por volta das 04h06 UTC, começamos a receber relatos de falhas de conexão com a Degreed de usuários que estavam tentando acessar nosso data center no Canadá via SSO. Após identificar o problema, nossa equipe de banco de dados iniciou um processo de failover para nossos servidores secundários às 09h50 UTC. Após a conclusão desse processo, o sistema foi totalmente restaurado e voltou a operar às 10h30 UTC.
Causa
Nossa equipe de engenharia foi alertada sobre falhas de conexão no data center no Canadá devido a uma atualização de rotina da infraestrutura de rede do Microsoft Azure. Devido a essa atualização, o login de SSO baseado em SAML ficou inativo para os usuários desse data center. Após o processo de failover para nossos servidores secundários que não foram afetados pela atualização da Microsoft, o data center no Canadá foi totalmente recuperado.
Planos de melhoria e prevenção
Para garantir a nossa proatividade em incidentes desse tipo, estamos trabalhando para criar testes automatizados regulares para logins por SSO baseados em SAML, além de alertas adicionais para monitorar atualizações regulares da Microsoft nesse ambiente.