Análisis postmortem de un DATA CENTER: caída masiva de CloudFlare

El Análisis postmortem de un DATA CENTER de  CloudFlare  que experimentó una interrupción prolongada de 36 horas en uno de sus centros de datos (DATA CENTER) en Oregon, EE.UU., provocando la caída de varios de sus servicios auxiliares. Si bien sus plataformas principales como DNS no resultaron afectadas, este incidente puso en evidencia que incluso las infraestructuras cloud más robustas con múltiples capas de redundancia no están exentas de riesgos ante una cadena de eventos desafortunados.

Análisis postmortem de un DATA CENTER

Origen del fallo: error en cascada en el suministro eléctrico

El DATA CENTER en cuestión contaba con dos líneas independientes de suministro eléctrico externo, baterías de reserva, generadores diésel de gran porte, entre otros mecanismos de resiliencia.

Sin embargo, una concatenación de eventos provocó finalmente una caída total del fluido eléctrico. Primero, una de las líneas externas falló probablemente por una sobretensión. Si bien el centro estaba diseñado para operar sólo con la segunda línea, esta también debió desconectarse minutos después por una derivación a tierra en uno de sus transformadores.

Ante la pérdida de ambos suministros principales, entraron en operación las baterías de reserva. Pero por razones aún no confirmadas, su autonomía de 10 minutos se vio dramáticamente reducida a sólo 4 minutos. Y en ese exiguo lapso los sistemas no lograron arrancar los generadores diésel de emergencia.

Efecto en cadena sobre los sistemas

La falta total de energía desencadenó entonces una caída en cascada de todos los sistemas del DATA CENTER. Si bien la arquitectura de alta disponibilidad de CloudFlare está distribuida en varios centros con replicación automática, había dependencias no gestionadas adecuadamente entre ellos.

Por ejemplo, ciertos servicios auxiliares como registros centralizados y monitoreo no tenían la debida redundancia distribuida. Por lo que la interrupción total tuvo un efecto dominó sobre los demás centros, impidiéndoles restaurar varios servicios con la rapidez esperada.

Incluso tras restablecer la electricidad y levantar los sistemas críticos, la recuperación total tomó mucho más tiempo del pronosticado por diversos problemas con algunos circuitos de potencia.

Video del Análisis postmortem de un DATA CENTER

Si bien los altos estándares del sector no aseguran 100% de disponibilidad, este incidente y el Análisis postmortem de un DATA CENTER pone de relieve la importancia de revisar en profundidad todas las capas de redundancia, sus interdependencias y planes de recuperación. CloudFlare publicó un muy detallado informe de análisis post-mortem examinando causas y estableciendo acciones correctivas.

Este video forma parte del curso  gratuito de Redes de alto Rendimiento y Data Centers, que estamos haciendo junto a  Eduardo Colado y Eduardo Taboada de Tecnocratica