Rechenzentren brauchen Verantwortung

Funktionierende Rechenzentren werden als Basisinfrastruktur benötigt.

Deutschlands führende Nachrichtenseite ist offline, ein öffentlich-rechtlicher Rundfunksender im Südwesten der Republik kann keine aktuellen Wetterdaten auf seiner Webseite veröffentlichen, weil der Partner, der diese Daten liefert, ebenfalls offline ist. Der Grund: Ein Stromausfall in einem großen deutschen Rechenzentrum.

Strukturiertes Risikomanagementkonzept für den Betrieb kritischer technischer Anlagen

Banken, Kliniken, Airlines, Verwaltungen, Hochschulen, Onlinedienste: Die Liste der Unternehmen, die auf reibungslos funktionierende Rechenzentren angewiesen sind, lässt sich beliebig lang erweitern. Gerade die Unternehmen, deren Tagesgeschäft stark von der technischen Infrastruktur abhängig ist, können sich weder einen Ausfall von wenigen Sekunden noch einen längeren Stillstand erlauben. Funktionierende Rechenzentren werden als Basisinfrastruktur vor allem in Branchen wie Finanzdienstleistungen, verarbeitende Industrie, Logistik und Handel, Verwaltung und Bildung, Forschung & Entwicklung, Dienstleistungen dringend benötigt.

Das ist nicht nur eine Herausforderung für Server und Datennetze, sondern auch für die Infrastruktur, in der diese hochsensible Technik zu finden ist. Ein strukturierter Ansatz für ein verantwortungsvolles Facility Management in Rechenzentren ist also erforderlich. Ein Prinzip, das all diese Faktoren berücksichtigt und integriert betrachtet. Die obersten Ziele beim FM in diesem Herzstück der Dateninfrastruktur: die Sicherstellung von Verfügbarkeit, Ausfallsicherheit und Effizienz, 24 Stunden am Tag und 365 Tage im Jahr. Apleona hat sich mit einem in der Branche einzigartigen Managementkonzept das Ziel gesetzt, potenzielle Ausfallursachen in der Versorgungsinfrastruktur seiner Kunden und innerhalb der Betriebsprozesse zu identifizieren und zu beseitigen. Dies erhöht die Zuverlässigkeit der kritischen Systeme des Kunden und minimiert das Risiko eines Ausfalls.

Das von Apleona entwickelte »4P Critical Engineering Framework« ist ein strukturiertes  Risikomanagementkonzept, das für den Betrieb und das Management von kritischen technischen Anlagen konzipiert ist, um die maximal mögliche Zuverlässigkeit der Systeme sicherzustellen. Dies ist absolut notwendig in einer Gesellschaft, in der Risikomanagement in kritischen Umgebungen nicht mehr nur eine Option ist, sondern unabdingbar für den Schutz der operativen Abläufe sowie der Integrität und der Ertragskraft eines Unternehmens.

Die Grundlage für das 4P Framework bildete von Anfang an der Wunsch der Kunden nach einem holistischen Konzept für den Betrieb kritischer Systeme, das flexibel an die Gegebenheiten der Anlagen und Standorte angepasst werden kann. Dies legte den Grundstein für das 4P- Konzept, das auch seinen Weg in die  Apleona-Unternehmenskultur gefunden hat. Die spezielle Herangehensweise an die Betreuung kritischer Anlagen basiert auf mehreren voneinander getrennten Schwerpunkten beziehungsweise Bestandteilen, die alle zum Schutz des Geschäftsbetriebs der Kunden beitragen.

Die vier Schwerpunkte People, Processes, Performance, Plant bilden das Grundgerüst des 4P-Konzepts, dessen Grundgedanken und Hauptziele dafür sorgen, dass:

  • das betriebliche Risiko deutlich gesenkt wird,
  • das Risikobewusstsein und der Sinn für Risikominimierung innerhalb des Betreiberteams gestärkt wird,
  • das Risiko von Betriebsunterbrechungen als Folge von fehlerhaften Arbeiten an kritischen technischen Anlagen oder Systemen angemessen eingeschätzt wird,
  • effektive Kontrollmöglichkeiten zur Minderung des Risikos von Betriebsstörungen eingesetzt werden,
  • Anlagen entsprechend ihrer Kritikalität instand gehalten und überwacht werden,
  • sich Mitarbeiter, die an kritischen technischen Anlagen oder an kritischen Systemen arbeiten, der Bedeutung von Fehlern und deren potenziellen Folgen für den Geschäftsbetrieb bewusst sind,
  • für den Betrieb von kritischen technischen Anlagen und den Umgang mit unerwarteten Ereignissen effektive, umfassende und bewährte Best Practices angewendet werden,
  • Ersatzteile für kritische technische Systeme effektiv verwaltet werden, sodass Betriebsunterbrechungen durch fehlende Ersatzteile ausgeschlossen werden können,
  • die Risikotransparenz und Sichtbarkeit potenzieller Gefahren verbessert wird,
  • ein unternehmensweit einheitlicher Ansatz durch spezifische, eindeutig festgelegte Prozesse besteht,
  • ein kontinuierlicher Lernprozess durch Review- und Feedback-Prozesse stattfindet.

Schwerpunkt People (Mitarbeitermanagement)

Nach verschiedenen Untersuchungen sind bis zu 75 Prozent aller kritischen Ereignisse und Systemausfälle in Rechenzentren auf Fehler von Mitarbeitern beziehungsweise auf Vorgänge zurückzuführen, die von menschlichem Handeln und menschlicher Interaktion abhängig sind. Fehler der Kategorie »menschliches Versagen« können in jeder Phase des Lebenszyklus eines kritischen Systems auftreten, egal ob bei der Planung, dem Bau oder dem Betrieb. Sie sind die größte Quelle für systembedingte Ausfälle der Infrastruktur. Eines der zahlreichen Beispiele ist ein schlecht ausgebildeter oder eingearbeiteter Mitarbeiter, der in einer kritischen Umgebung arbeitet und mit den besten Absichten zum entscheidenden Zeitpunkt den falschen Knopf drückt und so unnötigerweise die gesamte Anlage ausschaltet.

Deshalb legt Apleona beim 4P-Konzept besonderen Wert auf das Mitarbeitermanagement. Denn nur mit einem durchdachten Ansatz kann sichergestellt werden, dass Mitarbeiter über die notwendigen Fähigkeiten verfügen, Risiken zu erkennen, aufzuzeigen und aktiv zu minimieren. Im Fokus dabei stehen aber auch das Erkennen von Qualifikationsdefiziten und das Aufzeigen der nötigen Schulungsmaßnahmen, um diese auszugleichen, so wie Weiterbildungsmaßnahmen für Mitarbeiter, sodass sie neue Technologien und Methoden schneller anwenden und die Risiken einer Betriebsunterbrechung angemessen einschätzen können.

Alle Mitarbeiter, die bei Apleona in Rechenzentren eingesetzt werden, benötigen fundiertes Wissen über die kritischen Umgebungen und die damit verbundene Infrastruktur ihres jeweiligen Verantwortungsbereichs. Außerdem müssen sie sich sowohl der operativen Anforderungen als auch der potenziellen Auswirkungen ihres Handelns auf das Kerngeschäft des Kunden bewusst sein. Denn der Betrieb hochtechnischer und komplexer kritischer Systeme erfordert hochqualifizierte Mitarbeiter. Um das hohe technische Leistungsniveau zu halten, bedarf es der kontinuierlichen Förderung der Mitarbeiter. Dies wird durch Einzel- und Teamtrainings erreicht, bei denen unter anderem Soft Skills wie beispielsweise Kommunikationsfähigkeit und Hard Skills wie zum Beispiel technische Fähigkeiten gelehrt und geprüft werden.

Schulungen an den zu betreuenden Anlagen und Systemen gelten als besonders effektiv. Das Wissen wird nicht isoliert, sondern praxisnah und vor dem Hintergrund des Gesamtsystems vermittelt. Dieses objektspezifische Wissen führt zu einer Reduzierung der Risiken für die kritischen technischen Anlagen beim Kunden.

All diese Schulungs- und Weiterbildungsmaßnahmen bilden dann die Basis für die unternehmenseigene Mitarbeiterzertifizierung zum »Data Center Operator«. Ein eigenes Kompetenzzentrum bei Apleona übernimmt genau diese Zertifizierung in einem eigens dafür etablierten Schulungszentrum für Rechenzentrumstechniker.

Schwerpunkt Process (Prozesssteuerung)

Der Managementprozess für Prozesssteuerung in kritischen Umgebungen sorgt für klare und einheitliche Prozessstandards im gesamten Unternehmen, für die strikte Einhaltung dieser Standards und eine hohe Risikotransparenz durch einen robusten Prozessrahmen sowie für kontinuierliches Feedback und Lernen.

Die in 4P enthaltenen Betriebsverfahren und -prozesse basieren auf Best-Practice-Lösungen für den Betrieb von kritischen Anlagen. In einigen Fällen müssen die Prozesse selbstverständlich an die standortspezifischen Anforderungen angepasst werden. Apleona nutzt sie in solchen Fällen als Orientierungshilfe und adaptiert die Musterabläufe, um die lokale Arbeitspraxis und  Betriebsvorschriften in die Abläufe zu integrieren.

Die Betriebsprozesse werden kontinuierlich geprüft und verbessert, um sicherzustellen, dass diese dem aktuellen Standard für den Umgang mit kritischen Anlagen entsprechen. Außerdem wird die Umsetzung dieser Betriebsprozesse im Feld regelmäßig geprüft, um deren Einheitlichkeit und Einhaltung im gesamten Unternehmen zu gewährleisten. Bereichen wie Dokumentation, Prozesse und Mitarbeiterschulung kommt dabei eine besondere Bedeutung zu, da mangelnde Kenntnisse im Betrieb kritischer Infrastrukturen geschäftskritische Folgen haben können. Um das Risiko von Fehlern zu minimieren, werden alle Möglichkeiten genutzt, um die Mitarbeiter im Rahmen der Start-up-Phase oder im Rahmen der Einarbeitung in allen wesentlichen Abläufen ausreichend zu schulen.

Schwerpunkt Performance (Leistungsregulierung)

Viele Unternehmen verlassen sich heute bei der Ausübung ihres Kerngeschäfts auf ihre kritische Infrastruktur. Aus diesem Grund müssen diese Systeme kontinuierlich überwacht sowie sorgsam betrieben und instand gehalten werden, damit die zentralen Geschäftsaktivitäten durch die Integrität und Langlebigkeit der Anlagen geschützt und nicht unterbrochen werden. Vereinfacht gesagt: Wird die Leistungsgrenze des elektrischen Versorgungssystems oder des Kühlsystems erreicht, besteht ein Risiko für das Kerngeschäft. Über diese Grenze hinaus ist eine Erweiterung der zu versorgenden kritischen Systeme nicht möglich, solange die Versorgungsinfrastruktur nicht adäquat ausgebaut ist. Apleona als Betreiber dieser sensiblen Hightech-Umgebungen trägt die Verantwortung für eine effektive Kapazitätsanalyse der Versorgungssysteme, eine eindeutige Bewertung des technischen Zustandes der Versorgungsinfrastruktur und auch dafür, die eigenen Leistungen immer wieder zu hinterfragen und ständig zu verbessern. 

Neben der Verfügbarkeit liegt der Energieverbrauch kritischer Anlagen im Fokus, da kritische Anlagen durchgehend in Betrieb sind. Die Ermittlung, Darstellung und Optimierung des energetischen Zustandes von kritischen Anlagen ist deshalb, ebenso wie der Gedanke der größtmöglichen Verfügbarkeit, fest im »4P Critical Engineering Framework« verankert.

Schwerpunkt Plant (Anlagenbetrieb)

Geplante präventive Instandhaltungsarbeiten sind für den Werterhalt von kritischen Anlagen essenziell. Für bestimmte kritische Anlagen sind darüber hinausgehende Instandhaltungsstrategien notwendig, die auf das spezifische Risikoprofil der Anlage ausgerichtet sind und speziell für dieses entwickelt wurden.

Ebenso wie die präventive Instandhaltung spielt die Herangehensweise an Reparaturen von kritischen technischen Anlagen eine wichtige Rolle bei der Reduzierung geschäftskritischer Ausfälle. Die diesen Tätigkeiten zugrundeliegenden Prozesse sind hierbei für eine sichere und effiziente Reparatur oder Wiederinbetriebnahme entscheidend. Wenn Ersatzteile nicht umgehend zur Verfügung gestellt werden können, kann dies erhebliche Auswirkungen auf das Kerngeschäft des Kunden haben. Damit Ersatzteile für kritische Anlagen sofort verfügbar sind, bedarf es adäquater Prozesse für das Management von kritischen Ersatzteilen. Diese sofortige Bereitstellung von Ersatzteilen am Einsatzort, der transparente Einsatz dieser Teile sowie Echtzeitdaten zum Lagerbestand erfordern präzise und maßgeschneiderte Prozesse für die Verwaltung der Lagerbestände.

Die Verfügbarkeit kritischer Ersatzteile ist ein wesentlicher Bestandteil des Anlagenbetriebs. Für die ständige Verfügbarkeit und Zuverlässigkeit der Versorgungsinfrastruktur ist eine proaktive Steuerung und Kontrolle sowie eine kontinuierliche Überwachung ihrer Auslastung unabdingbar! Eine Tatsache, die oft übersehen wird. Es ist daher wichtig, beurteilen zu können, ob die Gefahr einer Kapazitätsüberschreitung besteht, wodurch die Zuverlässigkeit und Verfügbarkeit stark beeinträchtigt werden können.

Es muss aber auch ehrlich gesagt werden, dass Betriebsausfälle auch durch eine noch so gut instand gehaltene Anlage nicht vollständig verhindert werden können. Selbst wenn sich viele Risiken durch ein durchdachtes Facility-Management-Konzept und den 4P-Ansatz verringern lassen, durch menschliche Fehler bedingte Ausfälle können nicht gänzlich verhindert werden. Die Schulung und damit die Verankerung dieser spezifischen Prozesse des Anlagenmanagements sind ein entscheidender Faktor bei der Senkung des Ausfallrisikos und ein wichtiger Teil des Trainings, das alle Techniker bei Apleona regelmäßig durchlaufen.

Verantwortungsvolles Facility Management in kritischen Umgebungen wie beispielsweise Rechenzentren setzt sich also nicht nur aus einer Komponente zusammen, sondern ist vielmehr das Zusammenspiel eines durchdachten Konzepts aus gut geschulten und motivierten Mitarbeitern, standardisierten Prozessen sowie einem effektiven Anlagebetrieb. Und mit dem richtigen Facility Manager wäre für manch eine Nachrichtenseite, Rundfunksender oder meteorologischen Dienst am 28. März 2017 das Wort offline ein Fremdwort gewesen.

Ihr Ansprechpartner

Markus Mayer
Data Center & Critical Systems
Apleona ITS GmbH
An der Gehespitz 50
63263 Neu-Isenburg
Telefon: +49 172 8388166

Unsere Lösungen

4P Critical Engineering Framework heißt unsere Service-Konzept für Rechenzentren und kritische Umgebungen

Weitere Informationen