Vue d’ensemble :
Nous vous prions de bien vouloir nous excuser pour les perturbations subies par vos utilisateurs en ce qui concerne les complétions du webhook. Vous trouverez ci-dessous un résumé de ce qui s’est produit, la cause sous-jacente et les mesures que nous prenons pour traiter et éviter des problèmes similaires à l’avenir.
Que s’est-il passé ?
-
Problème identifié (février 2025) : les webhooks ont été temporairement désactivés pour charger efficacement des données via l’API des formations obligatoires de CSOD. Une fois le chargement terminé, les webhooks ont été rétablis. Cependant, il a été découvert que CSOD conservait un historique de 72 heures sur le trafic des webhooks. Lorsque la connexion a été rétablie, CSOD a essayé de renvoyer tous les événements webhook des trois jours précédents, ce qui a entraîné un afflux de données et des retards dans le traitement en temps réel des nouveaux éléments terminés.
Correctifs mis en œuvre (février 2025) : en collaboration avec CSOD, les mesures suivantes ont été prises :
-
Renforcement de la régulation du webhook du côté de Degreed pour accélérer le traitement.
-
Ajustement de la période de rétention du webhook en collaboration avec CSOD pour empêcher de futurs renvois en bloc d’événements webhook obsolètes.
-
Suspension temporaire des webhooks pendant les ajustements du système pour garantir un retour fluide vers le traitement en temps réel.
Impact sur les utilisateurs : en raison de l’arriéré, des utilisateurs ont constaté des retards dans la publication des données de complétion dans le système. Bien qu’aucune donnée n’ait été perdue, les mises à jour en temps réel des complétions ont été différées.
-
Cause :
Degreed et CSOD ont constaté que les données webhook de CSOD étaient assorties d’une marge de conservation de 72 heures, ce qui a engendré un afflux inattendu d’anciennes données de complétion lorsque la connexion au webhook a été rétablie. Cela a entraîné un retard significatif dans le traitement en temps réel, car le système traitait l’arriéré.
Mesures d’atténuation :
-
Les clients ayant des dépendances webhook en temps réel ont été traités en priorité afin de minimiser l’impact.
-
La régulation a été accrue afin de traiter plus efficacement les tâches en attente.
-
Les paramètres de rétention du webhook ont été modifiés pour éviter des problèmes similaires lors de futurs déploiements à grande échelle.
Prochaines étapes :
-
Amélioration de la communication : à l’avenir, nous informerons les clients de manière proactive de toutes les modifications susceptibles d’avoir une incidence sur le comportement des webhooks, y compris les bonnes pratiques pour les déploiements à grande échelle.
-
Optimisation du système : les équipes d’ingénierie de Degreed travaillent sur des améliorations afin d’optimiser le traitement du trafic des webhooks pour les clients à fort volume.
-
Alignement et assistance client : notre équipe collabore étroitement avec CSOD et les clients concernés pour affiner l’utilisation des webhooks et assurer un flux de données efficace et sans retards inutiles.
Nous vous prions de bien vouloir nous excuser pour la gêne et la confusion occasionnées par ce problème et vous remercions pour votre patience tandis que nous cherchons à le résoudre. Pour toute question supplémentaire, n’hésitez pas à nous contacter.