Zusammenfassung
Am 17. Juli 2024 wurden um 5:50 Uhr UTC geplante Wartungsarbeiten an der primären Degreed-Datenbankinstanz in der Region USA auf Azure durchgeführt. Während dieser Wartungsarbeiten wurde die Datenbank nicht wie erwartet wiederhergestellt, was beim Versuch, auf die Degreed-Plattform zuzugreifen, zu einer Zeitüberschreitung führte. Das System wurde um 10:28 Uhr UTC vollständig wiederhergestellt und war wieder betriebsbereit.
Ursache
Unser Engineering-Team wurde darauf aufmerksam gemacht, dass sich das Ansprechverhalten aufgrund von Wartungsarbeiten mit Microsoft Azure verlangsamt hatte. Nachdem das Problem bestimmt wurde, eskalierte das Engineering-Team dieses umgehend intern innerhalb des Microsoft Supports. Um die Dienste zeitnah wiederherzustellen, hat Degreed um 10:22 Uhr UTC eine Ausfallsicherung für unsere sekundäre Region initiiert. Das primäre Degreed-System wurde kurz darauf um 10:28 Uhr UTC erfolgreich wiederhergestellt.
Pläne zur Verbesserung und Prävention
Um dieses Problem in Zukunft zu vermeiden, hat das Engineering-Team die Prozesse für den Umgang mit Ausfallszenarien aktualisiert, um in Zukunft eine schnellere Wiederherstellung zu gewährleisten.
Wir warten derzeit auf ein Update von Microsoft und erwarten in den kommenden Tagen eine offizielle Ursachenanalyse (RCA). Wir werden ein Update bereitstellen, sobald Ursachenanalyse abgeschlossen wurde.
Wir entschuldigen uns für eventuelle Unannehmlichkeiten und bitten um Ihr Verständnis. Wir arbeiten kontinuierlich daran, die Zuverlässigkeit und Leistung unserer Systeme zu verbessern.