Zusammenfassung
Ab ca. 04:06 UTC haben wir Berichte über Verbindungsfehler zu Degreed von Benutzer:innen erhalten, die versuchen, über SSO auf unser kanadisches Rechenzentrum zuzugreifen. Nachdem das Problem identifiziert wurde, hat unser Datenbankteam um 09:50 UTC mit dem FTP-Prozess auf unsere sekundären Server begonnen. Sobald dieser Prozess abgeschlossen war, war das System um 10:30 Uhr UTC vollständig wiederhergestellt und betriebsbereit.
Ursache
Unser Engineering-Team wurde aufgrund eines routinemäßigen Updates der Netzwerkinfrastruktur durch Microsoft Azure über Verbindungsausfälle im kanadischen Rechenzentrum alarmiert. Aufgrund dieses Updates ist die SAML-basierte SSO-Anmeldung für Benutzer:innen in diesem Rechenzentrum fehlgeschlagen. Nach einem FTP-Fehler auf unseren sekundären Servern, die nicht von dem Microsoft-Update betroffen waren, wurde das kanadische Rechenzentrum vollständig wiederhergestellt.
Pläne zur Verbesserung und Prävention
Um sicherzustellen, dass wir bei dieser Art von Vorfällen proaktiv sind, arbeiten wir an regelmäßigen automatisierten Tests für SAML-basierte SSO-Anmeldungen sowie an zusätzlichen Warnungen zur Überwachung regelmäßiger Microsoft-Updates in dieser Umgebung.