Resumen
Nos disculpamos sinceramente por la interrupción que experimentaron los usuarios en relación con las finalizaciones de webhooks. A continuación, se muestra un resumen de lo que sucedió, la causa subyacente y los pasos que estamos tomando para abordar y prevenir problemas similares en el futuro.
Qué sucedió.
-
Problema identificado (febrero de 2025): los webhooks se desactivaron temporalmente para cargar registros de manera eficiente a través de la API de aprendizaje requerido de CSOD. Una vez que la carga se completó correctamente, se restablecieron. Sin embargo, se descubrió que CSOD retiene una acumulación de tráfico de webhook de 72 horas. Cuando se restableció la conexión, CSOD intentó reenviar todos los eventos de webhook de los tres días anteriores, lo que provocó una afluencia de datos y retrasos en el procesamiento de nuevas finalizaciones en tiempo real.
Correcciones implementadas (febrero de 2025): en colaboración con CSOD, se tomaron las siguientes medidas:
-
Se aumentó la limitación de webhooks en Degreed para acelerar el procesamiento.
-
Se ajustó el período de retención del webhook en coordinación con CSOD para evitar futuros reenvíos masivos de eventos de webhook obsoletos.
-
Se suspendieron los webhooks temporalmente mientras se realizaban ajustes en el sistema para garantizar que el retorno al procesamiento en tiempo real fuera sin complicaciones.
Impacto en los usuarios: como resultado de la carga acumulada, los datos de finalizaciones de los usuarios tardaron en reflejarse en el sistema. Si bien no se perdieron datos, se retrasaron las actualizaciones de finalizaciones en tiempo real.
-
Causa raíz:
Degreed y CSOD identificaron que los datos del webhook de CSOD incluyen un búfer de retención de 72 horas, lo que provocó una afluencia inesperada de registros de finalización antiguos cuando se restableció la conexión del webhook. Esto provocó un retraso significativo en el procesamiento en tiempo real mientras el sistema gestionaba la carga acumulada.
Labores de mitigación:
-
Se priorizó a los clientes con dependencias de webhook en tiempo real para garantizar un impacto mínimo.
-
Se aumentó la limitación para procesar la carga acumulada de manera más eficiente en el futuro.
-
Se modificaron los ajustes de retención de webhooks para evitar problemas similares en las implementaciones a gran escala en el futuro.
Próximos pasos:
-
Comunicación mejorada: en el futuro, notificaremos de manera proactiva a los clientes sobre cualquier cambio que pueda afectar el procesamiento de webhooks, incluidas las prácticas recomendadas para implementaciones a gran escala.
-
Optimización del sistema: los equipos de Ingeniería de Degreed están trabajando en mejoras para optimizar el manejo del tráfico de webhooks para clientes con gran volumen.
-
Atención al cliente y alineación: nuestro equipo colabora estrechamente con CSOD y los clientes afectados para mejorar el uso de los webhooks y garantizar que los datos fluyan de manera eficiente y sin retrasos innecesarios.
Lamentamos profundamente cualquier confusión e inconveniente causado por este problema, y agradecemos la paciencia mientras trabajamos para encontrar una solución eficaz. Si tienes más preguntas o inquietudes, no dudes en comunicarte con nosotros.