Résumé
À environ 4 h 06 UTC, nous avons commencé à recevoir des signalements d’échecs de connexion à Degreed de la part d’utilisateurs essayant d’accéder à notre centre de données canadien (CA) via SSO. Une fois le problème identifié, notre équipe responsable des bases de données a commencé le processus de basculement vers nos serveurs secondaires à 9 h 50 UTC. Une fois ce processus terminé, le système a été entièrement rétabli et opérationnel à 10 h 30 UTC.
Cause
Notre équipe d’ingénierie a été alertée par des échecs de connexion au centre de données canadien à la suite d’une mise à jour de routine de l’infrastructure réseau par Microsoft Azure. En raison de cette mise à jour, la connexion SSO basée sur SAML a été interrompue pour les utilisateurs de ce centre de données. Après le basculement vers nos serveurs secondaires qui n’avaient pas été affectés par la mise à jour de Microsoft, le centre de données canadien a été entièrement rétabli.
Plans d’amélioration et de prévention
Pour veiller à ce que nous soyons proactifs dans ce type d’incident, nous travaillons à la création de tests automatisés réguliers pour les connexions SSO basées sur SAML, ainsi que d’alertes supplémentaires pour surveiller les mises à jour régulières de Microsoft dans cet environnement.