Chaos im Alarmsystem bändigen – Teil 2
Die wichtigste Technologie zur Verbesserung des Alarmsystems
Es gibt eine Methode, die bei geringem Kosten- und Arbeitsaufwand mehr Wirkung zeigt als jede andere Technologie zur Verbesserung eines bestehenden, aber schlecht funktionierenden Alarmsystems. Aber wann funktioniert ein Alarmsystem „schlecht“? Das sind ein paar Beispiele, mit denen wir im Laufe der Zeit zu tun hatten – und die alle viel besser hätten funktionieren können!
• Viele verschiedene Steuerungssysteme mit Einzelalarmen, die über 100.000 Mal pro Monat auslösten
• Ein Alarmsystem, bei dem über 70 % aller Alarme (etwa 1.000 pro Tag) durch nicht funktionierende Geräte verursacht wurden, die gewartet werden mussten
• Ein System mit einigen wenigen, dafür aber dominanten Fehlalarmen, sodass 98 % aller Meldungen von nur sieben Alarmen ausgelöst wurden – durchschnittlich über 600 Mal pro Tag
• Ein System ohne gutes Änderungsmanagement, bei dem durch eine unkontrollierte und nicht verfolgbare manuelle Alarmunterdrückung 98 % aller Alarme (etwa 18.000 pro Tag) den Bedienern nicht angezeigt wurden. Dadurch wurden auch einige sehr wichtige Alarme unterdrückt
• Viele Systeme mit durchschnittlich mehr als 25.000 Alarmen pro Tag, einige sogar mit mehr als 100.000 Alarmen: also 1 Alarm alle 3 Sekunden bis zu mehr als 1 Alarm pro Sekunde
• Ein System mit einer wahren Alarmflut mit durchschnittlich fast 40 Alarmen pro Minute über vier Tage
• Ein Einzelalarm, der an EINEM TAG über 200.000 Mal ausgelöst wurde
• Ein großes vernetztes Unternehmen mit mehreren Standorten, bei dem über eine
MILLIARDE Alarme pro Jahr ausgelöst wurden – oder 2,7 Millionen pro Tag
Auf den ersten Blick scheinen solche Probleme überwältigend zu sein. Wie soll man mit 50.000 Alarmen pro Tag fertig werden? Wir garantieren Ihnen, dass sich solche Fälle mit ein paar klug eingesetzten Maßnahmen in wenigen Tagen bis Wochen erheblich verbessern lassen.
Sieben Schritte
Zur Verbesserung bestehender Alarmsysteme sind nur sieben Schritte nötig. Es ist einfach und hat sich in über tausend Projekten zur Verbesserung der Alarmsysteme bewährt.
1. Erstellung eines Alarmkonzepts – so funktioniert die Alarmierung richtig
2. Analyse der vorhandenen Alarmdaten zur Schaffung einer Ausgangsbasis und Ermittlung der Problembereiche
3. Ermittlung von sogenannten „bad actors“
4. Dokumentation und Rationalisierung (D&R) von Alarmen und Erstellung einer Master-Alarmdatenbank
5. Einführung von Systemen zur Alarmprüfung und -durchsetzung für das Änderungsmanagement
6. Einführung der Echtzeitalarmierung, z. B. über zustandsbasierte Alarme
7. Kontrolle und Pflege des verbesserten Systems mit laufenden Analysen und Arbeitsabläufen
Die ersten drei Schritte werden in der Regel gleichzeitig durchgeführt, denn sie sind einfach, schnell und kostengünstig und binden nicht viele interne Ressourcen. Und sie führen zu ersten Ergebnissen.
Die Meldephilosophie ist wichtig, aber keine „Voraussetzung“ für das Auffinden und Beheben Ihrer häufigsten Alarme. Der Schritt der Alarmanalyse beinhaltet auch die Einrichtung eines Alarmsystems zur Überwachung der zukünftigen Leistung. Beides sind obligatorische Anforderungen der Norm ISA 18.2 für das Alarmmanagement. Aber selbst die anfängliche Basislinie kann Ihnen den Weg zum entscheidenden Schritt 3 weisen - dem Auffinden und Beheben der häufigsten und störendsten Alarme - der „Bad Actors “! Wir werden alle anderen Schritte in zukünftigen Blogs behandeln.
Haben Sie die „Bad Actors“ in Ihrem System ermittelt, können Sie Ihre Alarmhäufigkeit um 60 bis 80 % oder sogar mehr senken. Und Sie können viele der bereits genannten Probleme damit lösen. Dieser Schritt erfordert häufig nur wenige Tage oder Wochen und bindet nur teilweise Ressourcen. Berater sind in der Regel nicht notwendig. Auch wenn viele Probleme damit nicht gelöst werden können (z. B. schlecht priorisierte Alarme), ist damit ein guter Anfang gemacht und das Projekt zur Verbesserung Ihres Alarmsystems wird dadurch glaubwürdig. So gewinnen Sie Akzeptanz und können eine gewisse Dynamik aufbauen.
Es gibt verschiedene Kategorien von (störenden) Fehlalarmen und unterschiedliche Methoden, mit ihnen umzugehen. Gibt es zu viele „Bad Actors“, ist das Alarmsystem im Prinzip unbrauchbar. Das kann zu gefährlichen Anlagenzuständen führen, da wichtige oder kritische Alarme in der Flut der Fehlalarme untergehen.
Aus Erfahrung wissen wir, dass vergleichsweise wenige konfigurierte Alarme die meisten Alarmereignisse und damit die Probleme mit hohen Alarmhäufigkeiten verursachen. „Wenige“ sind dabei 20 bis 50 konfigurierte Einzelalarme. Sicher hat niemand jemals absichtlich einen Alarm so konfiguriert, dass er mehr als 20.000 Mal pro Monat auftritt – aber solche Fälle gibt es und sie können gelöst werden!
Die 20 häufigsten Alarme machen in der Regel zwischen 25 und 95 % der gesamten Systembelastung aus. Wenn diese Alarme erfolgreich behandelt werden, kommt es zu erheblichen Systemverbesserungen. Es ist erstaunlich, dass es eine so hohe Anzahl von Störungsalarmen gibt, denn es ist zweifelhaft, dass der beste Steuerungsingenieur in einem Unternehmen Alarme absichtlich so gestalten könnte, dass sie sich so verhalten, wie wir es hier besprechen werden. Dennoch gibt es sie; alle Varianten sind in fast jedem von uns analysierten System vorhanden.
Abbildung 1: Die 10 häufigsten Alarme in einem Einzelsystem – Daten über 8 Wochen
In Abbildung 1 machen nur zehn Alarme 96 % der gesamten Alarmlast aus. Das Diagramm enthält Daten von lediglich acht Wochen und mehrere der Alarme wurden dabei über 100.000 Mal ausgelöst. Diese Leistung war so natürlich nicht beabsichtigt und die Behebung dieser zehn Alarme könnte die Systemlast dann auch um 96 % verringern. Interessanterweise führen fünf der zehn Alarme (die „BADPV“-Alarme) zu konkreten Geräten, die nicht richtig funktionieren. Die Reparatur von fünf Geräten sollte doch nicht allzu schwierig sein, oder?
Die Tabelle enthält Vorher-Nachher-Beispiele für Schritt 3 von fünfzehn verschiedenen Steuerungssystemen:
Abbildung 2: Verbesserungen durch Lösung der Bad-Actor-Alarme
In den oben genannten Systemen wurden jeweils weniger als 50 Alarme mit den von uns erläuterten Maßnahmen analysiert. Die durchschnittliche prozentuale Verringerung lag dabei bei über 65 %. Das ist wirklich ein beträchtlicher Gewinn für wenig Arbeit. Würden Sie sich nicht freuen, wenn Sie etwa 30 Alarme analysieren und Ihre Alarmrate um mehr als die Hälfte senken könnten? So geht's.
Hier sind die wichtigsten Arten von Störungsalarmen:
• Sich wiederholende Alarme (hören schnell auf, wiederholen sich dann sofort)
• Flüchtige Alarme (dauern nur ein paar Sekunden, bevor sie aufhören, können aber später erneut auftreten)
• Standalarme (bestehen schon seit Tagen, Wochen oder Monaten ohne Unterbrechung)
• Unterdrückte Alarme (der Bediener sieht nicht, wenn sie auftreten, und ihre Unterdrückung wird nicht kontrolliert oder verfolgt)
• Doppelte Alarme (dynamisch, d. h. eine Bedingung verursacht mehrere, jedoch unterschiedliche Alarmauslösungen)
• Doppelte Alarme (konfiguriert, d. h. mehrere verknüpfte Punkte lösen einen Alarm aus, wenn an einer Stelle ein Alarm auftritt)
• Fehlalarme aufgrund der Gerätediagnose (z. B. vom Typ „falsche Messung“)
Die ersten beiden Alarme – sich wiederholende und flüchtige Alarme – bereiten die größten Probleme. Sie sind der häufigste Grund für hohe Alarmraten. Aber für ihre Behebung ist oft eine Berechnung erforderlich, deren Beschreibung den verbleibenden Rahmen dieses Blogs sprengen würde. Daher behandeln wir sie im nächsten Blog dieser Reihe ausführlich.
Standalarme (lang andauernde Alarme)
Standalarme werden ausgelöst und bleiben über einen längeren Zeitraum im Alarmzustand. Um sie zu finden, sollte nach Alarmen gesucht werden, die bereits länger als 24 Stunden andauern. Wir haben Alarme gefunden, die schon seit Monaten oder sogar Jahren bestanden. Sie „verstopfen" Alarmbildschirme und kompromittieren die Wichtigkeit der anderen Alarme.
Gibt es wirklich so viele abweichende Bedingungen, die ein Eingreifen des Bedieners erfordern, um Folgen zu vermeiden, die länger als einen Tag andauern? Oder Monate? Diese Alarme zeigen in der Regel einen stabilen Zustand einer Anlage, z. B. absichtlich ausgeschaltete Geräte. Häufig sind dies Alarme, die nicht nach den Grundsätzen des Handbuchs für das Alarmmanagement konfiguriert wurden.
Bei Standalarmen ist ein Verständnis der entsprechenden Prozesszustände und der beteiligten Hardware wichtig. Sie werden in der Regel behoben, indem die Alarme erneut konfiguriert werden, um der Definition eines Alarms zu entsprechen. Alarme, die zu Standalarmen werden, sind meist gar keine Alarme, sondern lediglich Statusanzeigen. Häufig zeigen sie einfach an, ob eine beliebige Komponente „an“ oder „aus“ ist. Es sollte im Prinzip niemals ein Alarm ausschließlich auf dem Zustand einer Komponente als „an“ oder „aus“ konfiguriert werden. Es gibt immer triftige Gründe, warum eine Komponente ausgeschaltet sein kann. Stattdessen sollte der Alarm so konfiguriert werden, dass er beispielsweise darauf hinweist, dass „diese Komponente eingeschaltet sein sollte, aber ausgeschaltet ist“ (oder umgekehrt). Das ist ein abweichender Zustand, der ein Eingreifen des Bedieners erfordert. Die Konfiguration eines solchen Alarms erfordert möglicherweise etwas Fantasie, die Umsetzung einer Logik oder den Entwurf eines einfachen zustandsbasierten Alarms. Mehr über zustandsbasierte Alarme erfahren Sie in einem zukünftigen Blog.
Unterdrückte Alarme
Bei einer ersten Analyse zur Ermittlung der Liste mit den „Bad Actors“ müssen auch alle konfigurierten Alarme berücksichtigt werden, die unterdrückt sind. Diese Alarme sind zwar konfiguriert, aber durch eine Übersteuerung wird die Meldung dem Bediener nicht angezeigt. Dies ist bei fast allen Steuerungssystemen möglich, aber diese Funktionalität wird häufig auch missbraucht. Die Alarmunterdrückung wird in der Regel nicht kontrolliert. Wir haben sehr wichtige Alarme gefunden, die monatelang unterdrückt waren, ohne dass dies jemandem aufgefallen wäre. Wurden also alle „Bad Actors“ ermittelt, dürfen auch keine unterdrückten Alarme mehr vorhanden sein. Alarme werden häufig unterdrückt, weil sie störend sind und beispielsweise immer wieder auftreten. Das kann jedoch behoben werden. Die Unterdrückung von Alarmen muss streng kontrolliert werden, transparent sein und nachverfolgt werden können. Das ist die sogenannte „Alarmverwaltung“.
Doppelte Alarme: Unter dieser Alarmkategorie gibt es zwei Alarme.
1. Dynamische doppelte Alarme
Das sind Alarme, die regelmäßig innerhalb einer kurzen Zeitspanne nach bestimmten anderen Alarmen auftreten. Wenn die Software zur Alarmanalyse also die Alarme auflistet, die immer im Abstand von z. B. einer Sekunde zusammen auftreten, ist dies ein guter Ausgangspunkt. Höchstwahrscheinlich sind das Alarme, die mehrfach ein und dasselbe Prozessereignis auf unterschiedliche Weise melden. Wenn also eine Pumpe stoppt, werden sofort Alarme für niedrigen Druck, niedrigen Durchfluss und niedrige Stromstärke ausgelöst. Natürlich sind diese Alarme beim Betrieb der Pumpe gerechtfertigt, gelten jedoch nicht, wenn die Pumpe absichtlich gestoppt wurde und diese Werte normal sind.
Im Einzelfall muss also entschieden werden, welche Alarme beibehalten werden sollen und welche nicht bzw. an welchen logische Anpassungen vorgenommen werden müssen.
2. Konfigurierte doppelte Alarme
Durch Verbindungen zwischen Punkten in einem Prozessleitsystem (DCS) kann es zu doppelten Alarmkonfigurationen kommen. So kann beispielsweise ein Prozessmesssensor mit einem Selektor, einem Zähler, einer Logik, einem Regler usw. verbunden sein. Oft ist für jeden dieser Punkte ein Alarm vom Typ „falsche Messung“ konfiguriert (in der Regel standardmäßig). Wenn der Sensor also einen solchen Alarm auslöst, werden gleichzeitig auch weitere Alarme ausgelöst. So wird der Bediener durch die Anzeige mehrerer Alarme abgelenkt, die aber durch ein einziges Ereignis (den fehlerhaften Sensor) verursacht werden. Es sollte nur einen Alarm geben, der an dem Punkt konfiguriert ist, an dem der Bediener am ehesten eingreifen wird. Speist der Sensor einen separaten Regler, wäre der Regler die richtige Adresse für den Alarm bei einer falschen Messung. Grund dafür ist, dass der Bediener bei einem falschen Messwert wahrscheinlich den Regler in den manuellen Modus versetzen und die Ausgabe manuell anpassen würde. Der Regler selbst meldet dann, dass die eingegebene Messung fehlerhaft ist.
Fehlalarme aufgrund der Gerätediagnose
Überraschenderweise kommt es recht häufig vor, dass Alarme durch eine falsche Messung oder ein ähnliches Problem am Gerät ausgelöst werden. Ihre Anzahl geht oft in die Hunderte oder Tausende!
Abbildung 3: Alarmsystem, in dem vor allem Alarme aufgrund der Gerätediagnose auftreten
Hat jemand bei der Entwicklung eines Regelkreises zum Steuerungstechniker gesagt: „Ach, und übrigens, ich möchte, dass dieser Sensor häufig einen Alarm aufgrund einer falschen Messung auslöst und ich möchte dazu mindestens 650 Alarme pro Woche.“? Wir denken nicht. Und selbst wenn man das dem besten Steuerungstechniker im Unternehmen gesagt hätte, hätte er es dann überhaupt umsetzen können? Wahrscheinlich nicht. Aber doch finden wir diese Alarme in fast jedem System, das wir untersuchen.
Natürlich wurde kein Gerät für einen solchen Zustand konzipiert und jede dieser Situationen kann und muss behoben werden. Es kann sein, dass der Messbereich oder die gemessene Spannkraft falsch konfiguriert wurde oder ein Problem mit der Installation aufgetreten ist (z. B. sich füllende Impulsleitungen). Ursprünglich wurde der Einbau eines Durchflussmessers wahrscheinlich nicht damit begründet, dass es in Ordnung wäre, wenn das Messgerät die Hälfte der Zeit nicht funktioniere würde! Aber man hat sich damit abgefunden. Aber würden wir uns mit einem kaputten Tachometer in unserem Auto abfinden?
Diese Situationen müssen thematisiert werden. Durch die Fehlfunktion des Geräts wird dem Bediener ein Prozessindikator nicht angezeigt. Der Bediener muss also einen Gerätefehler quittieren und kann sich nicht auf andere Bedieneraufgaben konzentrieren. Wird ein nicht funktionierendes Gerät nicht mehr benötigt, sollte es nach einem ordnungsgemäßen Änderungsmanagement (MOC) aus dem System entfernt werden. Ein auf unbestimmte Zeit nicht funktionierendes Gerät ist ebenfalls eine MOC-Verletzung.
Vor einigen Jahren musste bei analogen Gerätesensoren noch ein Kompromiss zwischen Genauigkeit (gültige Ziffern) und dem Messbereich eingegangen werden. Eine hohe Genauigkeit war nur in einem kleinen Bereich möglich, der wahrscheinlich geringer war als die mögliche Schwankung im Prozess. Steuerungstechniker kannten diesen Kompromiss und waren daran gewöhnt, innerhalb dieser Grenzen zu agieren. Wenn aber Sensoren mit eingeschränkten Bereichen in ein DCS eingebaut werden, treten die Alarme bei „falschen Messungen“ häufig auf und bedeuten keine Abweichung.
Die digitale elektronische Revolution brachte uns nicht nur das DCS, sondern sorgte auch für wesentlich verbesserte Messsensoren. Moderne Sensoren bieten in der Regel die erforderliche Genauigkeit über den gesamten Messbereich, auch bei Prozessschwankungen. Aber einige Installationen folgen weiterhin der alten Konfiguration und berücksichtigen die Folgen nicht, die sich aus dem Auslösen vieler Alarme aufgrund falscher Messungen beim Hochfahren und Ausschalten beispielsweise ergeben. Steuerungen haben in der Regel sogenannte „Auswurfmodi“. Dies sind im Vorfeld festgelegte Aktionen für den Fall, dass die eingehende Messung falsch ist, z. B. volle Ausgabe, Ausgabe auf null, letzte Ausgabe beibehalten. Diese Aktionen sollten sorgfältig gewählt werden und minimieren die Wahrscheinlichkeit, dass es überhaupt zu einer falschen Messung kommt!
Heutzutage sollte der Messbereich eines Geräts standardmäßig über den gesamten Bereich möglicher Werte konfiguriert werden, die im Prozess auftreten können (einschließlich Ausschalt- und Umgebungsbedingungen). Erst danach sollte geprüft werden, ob die erzielte Genauigkeit hoch genug ist. Ist das nicht der Fall (was bei modernen Messumformern selten auftritt), kaufen Sie einen besseren Messumformer! Keinesfalls aber sollten Sie den Bereich so konfigurieren, dass bereits vorher klar ist, dass unter den zu erwartenden Bedingungen ein Alarm aufgrund einer falschen Messung ausgelöst wird.
Häufig sind Differenzdruckströme die schlimmsten Übeltäter. Kommt es bei einem Strom von null zu einem leichten Ungleichgewicht in den Leitungen, meldet das Messgerät einen geringen Rückwärts- oder Negativstrom. Ist der Strömungsbereich aber nicht für ein leichtes Minus konfiguriert, kommt es zu einer falschen Messung und zu einem Alarm. Diese Punkte müssen konfiguriert werden, sodass auch der Nullfall berücksichtigt wird. Es kann ein Grenzwert festgelegt und an den Nullwert gekoppelt werden, sodass ein geringer negativer Strom gar nicht gemessen wird, was auch Auswirkungen auf nachgeschaltete Berechnungen haben kann.
Die meisten DCS sind in der Lage, einen analogen Wert am Ende des Bereichs zu fixieren und eben keinen Alarm aufgrund einer falschen Messung auszulösen. Diese Möglichkeit muss jedoch gut verstanden und richtig eingesetzt werden (d. h. die Dokumentation muss genau gelesen werden!).
Laufender Prozess
Mithilfe eines Arbeitsablaufs müssen neue Fehlalarme erkannt und behoben werden. Dieser Ablauf kann sich ändern oder überarbeitet werden, Sensoren können altern oder mit Problemen verbunden sein und neue Fehlalarme können auftreten. Laufende Alarmanalysen können solche Fälle erkennen und melden, aber es muss immer jemanden geben, der Maßnahmen ergreift und die Situation löst. Wir haben die Erfahrung gemacht, dass Bediener – sobald Fehlalarme behoben wurden – erkennen, dass diese Aufgabe machbar ist. In Zukunft werden sie Fehlalarme nicht mehr tolerieren.