Ich habe mir die Überschrift dieses Eintrages ganz bewusst beim Hostblogger abgeguckt, denn die Ursache ist die selbe. Nur hatten wir letzten Montag vermutlich einfach ein wenig mehr Pech.
Gegen 9:00 Uhr morgens fiel bei uns im Rechenzentrum der Strom aus. Den Ausfall haben wir natürlich (was man bei einem Komplett-Ausfall erwarten kann) richtig zeitnah entdeckt, zunächst gingen wir aber von einem Routing-Problem oder einem DDos-Angriff aus. Zumindest letzteres gab es auf das Rechenzentrum schon öfter und ich weiß, dass ich mich in so einem Fall zu 100% auf die Techniker vor Ort verlassen kann.
Am Montag jedoch stellte sich alles als etwas komplizierter heraus. Zwar sind einige wichtige Systeme bei uns redundant ausgelegt - jedoch nur innerhalb des Rechenzentrums, sodass die Kommunikation mit den Menschen vor Ort nur sehr schleppend und ausschließlich per Telefon voran ging. Schlussendlich gelang es uns gemeinsam die Probleme zu beheben und nahezu syncron alle Systeme (bis auf einen kleinen Ausreißer) wieder online zu bringen.
Insgesamt dauerte der Ausfall bedauerliche 8 Stunden und war damit mit Abstand der längste und überhaupt schwerwiegenste den wir jemals hatten und wenn wir einen Krieg mit Atomwaffen mal ausschließen wollen hoffentlich auch jemals gehabt haben werden.
Auch wenn es mir am Montag abend richtig fies ging, habe ich unsere Kunden noch am selben Abend über den Ausfall, seine Ursachen und die Konsequenzen die wir aus ihm ziehen informiert. Die große Anstrengung dieses Tages war weniger alles zu reparieren, sondern vielmehr die knapp 180 Telefonate die ich mit unseren Kunden geführt habe. Den Dienstag habe ich dann überwiegend mit Schweigen (arbeitend) verbracht. Auch wenn ich den Bericht für den Blog ständig im Hinterkopf hatte, so habe ich doch lieber mit Nachdruck an den von uns beschlossenen Konsequenzen und im Support gearbeitet.
Kommentare