Revelan la posible causa de la caída de AWS que provocó problemas en internet a medio mundo, y la situación pinta complicada
Una caída para recordar que un simple fallo puede provocar el caos mundial.


El pasado lunes día 20 de octubre la caída de Amazon Web Services provocó un caos mundial en diversos servicios: desde el pago con tarjeta hasta diversos videojuegos, pasando por incluso camas inteligentes. Banco Santander, CaixaBank, Movistar, Visa o Canva fueron solo algunas de las aplicaciones y entidades afectadas. Una semana después parece haberse encontrado la causa del desplome y fue mínimo: una sola línea de código.
Según se puede leer en Ars Technica, la caída fue provocada sorprendentemente por un único fallo de software cuyos efectos se propagaron por los sistemas de AWS, aunque nadie parece estar involucrado. El culpable fue un error de software en DynamoDB, el sistema de gestión de DNS de AWS. El DNS, o Sistema de Nombres de Dominio, suele compararse con la guía telefónica de internet, que traduce los nombres de dominio preferidos por los usuarios a las direcciones IP requeridas por los sistemas automatizados.

DNS Enactor, un componente de DynamoDB responsable de actualizar estas tablas, experimentó retrasos inusualmente altos, lo que le obligó a reintentar la actualización en varios endpoints DNS. Mientras Enactor se actualizaba, DynamoDB continuó generando nuevos planes, que otro DNS Enactor puntual intentó implementar.
Un bug en AWS que desafió la lógica: cómo una configuración obsoleta paralizó parte de Internet
La reciente caída de AWS, que afectó a servicios globales durante horas, tuvo su origen en una inesperada cadena de errores dentro de su sistema de gestión de DNS. Todo comenzó cuando una nueva configuración fue sobrescrita por una versión obsoleta, debido a que uno de los procesos encargados de aplicar cambios (el Enactor) se ejecutó con retraso. Para empeorar la situación, la protección diseñada para evitar este tipo de conflictos también estaba experimentando demoras.
Aunque un segundo Enactor llegó a tiempo y eliminó el plan obsoleto al detectar su antigüedad, el daño ya estaba hecho. La inconsistencia provocó fallos en la infraestructura de AWS, obligando a los ingenieros a intervenir manualmente para diagnosticar y resolver el problema.
Este incidente pone de relieve cómo incluso en sistemas altamente automatizados y robustos, una simple desincronización puede desencadenar consecuencias globales.
Pieza optimizada con IA
Noticias relacionadas
Sigue el canal de MeriStation en Twitter. Tu web de videojuegos y de entretenimiento, para conocer todas las noticias, novedades y última hora sobre el mundo del videojuego, cine, series, manga y anime. Avances, análisis, entrevistas, tráileres, gameplays, podcasts y mucho más.
¡Suscríbete! Si estás interesado en licenciar este contenido, pincha aquí.
Rellene su nombre y apellidos para comentar