WebDeveloperZ, te envié un mensaje privado hace unos días por medio del foro no se si lo llegaste a ver.
Igualmente te quiero hacer llegar este
nuevo Post en nuestro Blog Corporativo, inspirado principalmente en tus comentarios en este foro.
nibby, en general trato de evitar irme "demasiado" por lo técnico fuera de las comunicaciones que enviamos a nuestros clientes, pero ya que surge el tema de "cuál fue el problema", voy a intentar resumirlo muy muy brevemente.
Toda la gama de servicios de un sitio (Web, Correo, FTP, Estadísticas, Panel de Control, Filtros antispam/antivirus, etc) es servida por varias docenas de servidores. Algunos son para web, otros para otros servicios.
Particularmente para la Web, siendo una estructura una especial de Cluster con componentes de hardware y software. El objetivo es eliminar cualquier posible
SPOF. El cluster Web contiene, sin embargo un SPOF que de producirse requiere un proceso de restauración bastante largo. Se trata del almacenamiento: Los datos de los sitios están almacenados en
hardware redundante utilizando
RAID 6E, sobre (en aquel entonces) un Filesystem
ReiserFS. Fue este FileSystem que se corrompió y lo tornó inaccesible. Todo el tiempo de downtime (principalmente web) fue dado por: 2 intentos de restaurar el FS sin recurrir al último backup, y finalmente la desgrabación de los backups y puesta en marcha nuevamente.
Desde aquel incidente tomamos medidas para manejar mejor una eventual situación como esta, que incluyen entre otras cosas un cambio de filesystem y trabajar con particiones más pequeñas para tener tiempos de recuperación más rápidos. A todo esto, el resto de los servidores funcionaban perfectamente.. sólo que no tenían datos que leer :/
Si hubiera sido un problema de ancho de banda, creeme, hubiera sido
mucho más fácil decir "faltó ancho de banda, ya compramos más" que andar tratando de explicar lo que te acabo de comentar.