Überblick:
Wir entschuldigen uns für die Unterbrechung, die Ihre Benutzer:innen durch Webhook-Erledigungen erfahren haben. Im Folgenden finden Sie eine Zusammenfassung des Vorfalls, der Ursache und der Schritte, die wir unternehmen, um ähnliche Probleme in Zukunft zu vermeiden.
Was ist passiert?
-
Problem identifiziert (Februar 2025): Webhooks wurden vorübergehend deaktiviert, um Datensätze über die CSOD Required Learning API effizient zu laden. Nachdem die Arbeitslast erfolgreich abgeschlossen war, wurden die Webhooks wiederhergestellt. Es wurde jedoch entdeckt, dass CSOD einen rollierenden 72-Stunden-Rückstand an Webhook-Traffic hat. Als die Verbindung wiederhergestellt wurde, hat CSOD versucht, alle Webhook-Erledigungen der letzten drei Tage erneut zu senden, was zu einem Datenzufluss und Verzögerungen bei der Verarbeitung neuer Echtzeit-Erledigungen geführt hat.
Implementierte Korrekturen (Februar 2025): In Zusammenarbeit mit CSOD wurden die folgenden Schritte unternommen:
-
Verbesserte Webhook-Drosselung auf Degreed-Seite, um die Verarbeitung zu beschleunigen.
-
Anpassung der Webhook-Aufbewahrungsdauer in Abstimmung mit CSOD, um in Zukunft das massenweise erneute Senden von veralteten Webhook-Erledigungen zu verhindern.
-
Vorübergehendes Pausieren von Webhooks, während Systemeinstellungen vorgenommen wurden, um einen reibungslosen Übergang zurück zur Echtzeit-Verarbeitung zu gewährleisten.
Auswirkung auf Benutzer:innen: Durch den Rückstand ist es bei Benutzer:innen zu Verzögerungen bei der Anzeige von Fertigstellungsdaten im System gekommen. Es gehen zwar keine Daten verloren, aber Echtzeit-Updates für die Fertigstellung haben sich verzögert.
-
Ursache:
Degreed und CSOD haben identifiziert, dass Webhook-Daten von CSOD einen 72-Stunden-Vorhaltespeicher beinhalten, der zu einem unerwarteten Zustrom alter Erledigungsdatensätze führt, wenn die Webhook-Verbindung wiederhergestellt wird. Dies hat zu einer erheblichen Verzögerung bei der Echtzeit-Verarbeitung geführt, während das System den Rückstand abgearbeitet hat.
Lösungsansätze:
-
Kunden mit Echtzeit-Webhook-Abhängigkeiten wurden priorisiert, um die Auswirkungen zu minimieren.
-
Die Drosselung wurde erhöht, um den Rückstand zukünftig effizienter zu verarbeiten.
-
Die Webhook-Vorhalteeinstellungen wurden geändert, um ähnliche Probleme bei zukünftigen großen Bereitstellungen zu verhindern.
Nächste Schritte:
-
Verbesserte Kommunikation: In Zukunft werden wir Kunden proaktiv über alle Änderungen informieren, die sich auf die Webhook-Verarbeitung auswirken können, einschließlich Best Practices für große Bereitstellungen.
-
Systemoptimierung: Die Degreed-Engineering-Teams arbeiten aktiv an Verbesserungen, um die Bearbeitung des Webhook-Verkehrs für große Kunden zu optimieren.
-
Kundensupport und -abstimmung: Unser Team arbeitet eng mit CSOD und den betroffenen Kunden zusammen, um die Nutzung von Webhooks zu präzisieren und einen effizienten Datenfluss ohne unnötige Verzögerungen zu gewährleisten.
Wir bedauern die Unannehmlichkeiten, die durch dieses Problem verursacht wurden, und bedanken uns für Ihre Geduld, während wir an einer reibungslosen Lösung arbeiten. Falls Sie weitere Fragen oder Bedenken haben, wenden Sie sich bitte an uns.