Résumé
À 5 h 50 UTC le 17 juillet 2024, une action de maintenance planifiée a été effectuée sur l’instance de base de données principale de Degreed dans la région des États-Unis sur Azure. Au cours de cette maintenance, la base de données n’a pas été récupérée comme prévu, ce qui a entraîné un dépassement du temps imparti lors de la tentative d’accès à la plateforme Degreed. Le système a été entièrement rétabli et opérationnel à nouveau à 10 h 28 UTC.
Cause
Notre équipe d’ingénierie a été avertie d’une augmentation des délais de réponse en raison d’une maintenance appliquée à Microsoft Azure. Une fois le problème identifié, l’équipe d’ingénierie a rapidement fait remonter le problème en interne au sein du service d’assistance de Microsoft. Pour rétablir rapidement les services, Degreed a lancé un basculement vers la région secondaire à 10 h 22 UTC. Le système Degreed principal a été récupéré peu de temps après à 10 h 28 UTC.
Plans d'amélioration et de prévention
Pour remédier à ce problème, l’équipe d’ingénierie a mis à jour les processus de traitement des scénarios de basculement afin d’assurer une reprise plus rapide à l’avenir.
Nous attendons actuellement une déclaration de Microsoft et une analyse formelle des causes racines (RCA) dans les prochains jours. Nous vous informerons dès que cette RCA sera disponible.
Nous vous prions de bien vouloir nous excuser pour les éventuels désagréments occasionnés et vous remercions de votre compréhension, sachant que nous nous efforçons continuellement d’améliorer la fiabilité et les performances de nos systèmes.