Major Incident – und wie man richtig damit umgeht

In jeder IT-Landschaft – ob klassisch on-prem, hybrid oder cloudbasiert – ist es nur eine Frage der Zeit, bis ein Major Incident auftritt. Ein Server fällt aus, ein zentraler Dienst ist nicht mehr erreichbar, oder ein Sicherheitsvorfall legt Teile des Betriebs lahm. Entscheidend ist wie professionell damit umgegangen wird.

Was ist ein Major Incident?

Ein Major Incident ist eine schwerwiegende Störung, die den Betrieb eines oder mehrerer geschäftskritischer IT-Services beeinträchtigt.

Die Auswirkungen sind in der Regel:

– Hohe Dringlichkeit
– Große Reichweite (mehrere Nutzer, Systeme oder Standorte betroffen)
– Eskalation bis in das Management

Typische Beispiele:

Exchange-Server nicht erreichbar → kein Mailverkehr möglich
Authentifizierungsdienste fallen aus → niemand kann sich anmelden
Produktionssysteme nicht verfügbar → Geschäftsprozesse stehen still

Praxisbeispiel: Proxmox-Ausfall durch Netzwerkproblem

In einem Unternehmen trat ein schwerwiegender Ausfall innerhalb eines produktiven Proxmox-Clusters auf. Mehrere virtuelle Maschinen waren plötzlich instabil, es kam zu nicht nachvollziehbaren Latenzen und Storage-Fehlern in einem Ceph-Storage-Verbund.

Die ersten Symptome:

– Hohe I/O-Wartezeiten
– sporadische Timeouts im Management-Interface
– Storage-Fehlermeldungen in den Logs

Sofortmaßnahmen:
Um den Betrieb kurzfristig zu stabilisieren, wurde eine gezielte Abschaltung einzelner Switches im Storage-Verbund vorgenommen. Diese Maßnahme führte unmittelbar zu einer Beruhigung der Umgebung – ein starker Hinweis auf eine Netzwerkschleife oder ein STP-/VLT-Problem.

Root Cause Analysis:
Die RCA zeigte: In einem bestimmten VLAN kam es zu einem Loop, vermutlich ausgelöst durch fehlerhafte Spanning-Tree-Konfiguration in Verbindung mit einem Firmware-Bug auf den Dell-Switches. VLANs, die über VLT verbunden waren, verhielten sich unterschiedlich – eine detaillierte Analyse der Trunk-Ports, Firmwarestände und MAC-Adresstabellen brachte schließlich die Ursache ans Licht.

Dauerhafte Maßnahmen:

– Firmware-Update der betroffenen Switches
– Anpassung der STP- und VLT-Konfiguration
– Separierung von Ceph- und VM-Netzwerk zur besseren Fehlereingrenzung in Zukunft
– Ausbau des Monitorings zur frühzeitigen Erkennung von Netzwerkloops

Lernpunkt:
Die schnelle Wiederherstellung war nur möglich, weil das Team sofort handlungsfähig war – doch die nachhaltige Stabilisierung gelang erst durch konsequente Ursachenanalyse und Architekturkorrekturen.

Drei Phasen für den professionellen Umgang mit Major Incidents

Sofortmaßnahmen & Kommunikation

Ziel ist es, den Schaden schnell zu begrenzen und erste Transparenz zu schaffen:

Einschätzung: Was ist betroffen? Wie viele Nutzer?

Workarounds: Gibt es eine temporäre Lösung?

Kommunikation: Frühzeitig, regelmäßig, adressatengerecht (IT, Fachbereich, Management)

Systemstabilisierung & Wiederherstellung

Technische Analyse und temporäre Wiederherstellung

Koordination mit Dienstleistern oder Herstellern

Absicherung des wiederhergestellten Zustands durch Monitoring

Root Cause Analysis & Lessons Learned

Analyse der technischen und organisatorischen Ursachen

Ableitung und Umsetzung nachhaltiger Maßnahmen

Dokumentation und interne Wissenssicherung

Fazit: Geschwindigkeit, Struktur und Nachhaltigkeit

Ein Major Incident ist kein Zeichen von Schwäche – sondern eine Chance, die eigene Krisenfestigkeit zu beweisen. Wer strukturiert, transparent und nachhaltig handelt, schützt nicht nur Systeme, sondern auch das Vertrauen von Kunden, Partnern und Kollegen.

Neugierig geworden?
Ob akute Störung oder strategische IT-Architektur – ich unterstütze Sie zuverlässig und lösungsorientiert.

Jetzt Erstgespräch vereinbaren