Resumen
Aproximadamente a las 4:06 UTC, comenzamos a recibir informes de errores de conexión a Degreed de usuarios que intentaban acceder a nuestro Centro de datos de Canadá a través de SSO. Después de identificar el problema, nuestro equipo de base de datos comenzó el proceso de conmutación por error a nuestros servidores secundarios a las 9:50 UTC. Una vez que se completó este proceso, el sistema se restauró por completo y estuvo operativo a las 10:30 UTC.
Causa raíz
Nuestro equipo de Ingeniería recibió una alerta sobre errores de conexión en el Centro de datos de Canadá debido a una actualización de rutina de la infraestructura de red por parte de Microsoft Azure. Debido a esta actualización, el inicio de sesión de SSO basado en SAML no funcionaba para los usuarios de ese centro de datos. Después de la conmutación por error a nuestros servidores secundarios que no se vieron afectados por la actualización de Microsoft, el Centro de datos de Canadá se restableció por completo.
Planes de mejora y prevención
Para garantizar la proactividad en este tipo de incidentes, trabajamos en la creación de pruebas automatizadas periódicas para los inicios de sesión de SSO basados en SAML, así como en alertas adicionales para monitorear las actualizaciones periódicas de Microsoft en este entorno.