Backlog Handling nach System Downtimes

Nach Wartungsarbeiten am Server und Systemausfällen entstehen in der Workload-Automatisierung zwangsläufig Rückstaus mit Ressourcen-Engpässen, die schnellstmöglich aufgelöst werden müssen. Das Operator-Team muss in einer Backlog-Situation die notwendigen Maßnahmen treffen, um den Produktionsbetrieb aufrecht zu erhalten und möglichst schnell zum Normalbetrieb zurückkehren zu können. Dafür ist es notwendig, dass wichtige bzw. kritische Batches und Jobs höher priorisiert werden. Unwichtige bzw. unkritische Jobs müssen mit geringerer Priorität ausgeführt oder ganz angehalten werden. Diese Eingriffe müssen auch für neu submittete Batches/Jobs durchgeführt werden. Ohne Unterstützung durch das Scheduling System ist dafür viel manuelle Arbeit nötig.

Backlog-Situationen nach Downtimes erzeugen Stausituationen, die eine Rettungsgasse benötigen

Hinzu kommt, dass die für diese Entscheidungen wichtigen Fragestellungen wie etwa „Was ist wichtig?“ „Was muss laufen?“ „Was darf angehalten werden?“ im Vorfeld mit dem Management geklärt werden müssen, damit der Operator die richtigen Maßnahmen einleiten kann. Während das bei geplanten Wartungsarbeiten noch recht einfach ist, weil sich das Operator-Team entsprechend vorbereiten kann, finden Systemausfälle nach Murphys Law oft genau dann statt, wenn die Hütte ohnehin gerade brennt.

Bietet das Scheduling System in dieser Situation keine gute Unterstützung, müssen unter Zeitdruck Eingriffe vorgenommen werden, die einerseits konform den vom Management gewünschten Vorgaben und gleichzeitig der aktuellen, möglicherweise chaotischen Lage angepasst sind. Der Verantwortungsdruck und Stress wird sehr groß, denn gleichzeitig muss das System wieder zum Laufen gebracht und der Rückstau aufgelöst werden. Vor allem aber benötigen einige extrem kritische und zeitsensible Batches und Jobs eine Rettungsgasse, um an den wartenden, weniger kritischen und möglicherweise noch sehr lange laufenden Jobs vorbei zu kommen.

In einer komplexen heterogenen Systemumgebung mit hunderten Servern, tausenden Jobs und unendlichen Abhängigkeiten kommt der Operator dabei ziemlich ins Schwitzen. Aus diesem Grund haben wir in der ENTERPRISE Edition der BICsuite, die speziell für sehr große und hoch komplexe Systemumgebungen entwickelt wurde, die Nice Profiles entwickelt. Nice Profiles erlauben es, die mit dem Management abgestimmten Maßnahmen schon vor dem Backlog in eine strukturierte Form zu gießen und mit minimalem Aufwand zur Anwendung zu bringen.

Das BICsuite Enterprise Scheduling System unterstützt damit in der ENTERPRISE Edition gleich zwei wirksame Mechanismen für das kontrollierte Backlog Handling: Den Suspend Timeout bei Time Scheduling Submits und die Nice Profiles (ab BICsuite R2.6.1). Für alle BICsuite Editionen gilt: Nach einer Downtime des BICsuite Scheduling Servers werden ‘verpasste’ Time Scheduling Submits ‘suspended’ submittet, wenn seit dem geplanten Submit zu viel Zeit vergangen ist (Suspend Timeout). Der Suspend Timeout kann je scheduled Batch oder Job konfiguriert werden. Der Operator kann also nach einer längeren Downtime entscheiden, ob und welche Abläufe noch zur Ausführung kommen sollen.

Ein Nice Profile ermöglicht über diese Funktionalität hinaus eine Infrastruktur und Organisation, die schon im Vorfeld definiert, was im Falle eines Backlogs zu tun ist. Um bei dem Autobahnbeispiel zu bleiben: Krankenwägen und Notärzte erhalten eine eingebaute Vorfahrt, besonders langsame und unwichtige Transporte müssen auf dem Seitenstreifen warten, bis der normale Verkehr wieder flüssig läuft. Dafür definiert der Operator für eine Liste von Abläufen bzw. Foldern eine Veränderung der Priorität (Nice Value) und/oder des Suspend Status. Ein Folder-Eintrag gilt für alle Abläufe, welche unter diesem Folder definiert sind. Bei Aktivierung werden diese Veränderungen automatisch auf alle bereits submitteten (laufenden) und neu submittete Abläufe angewendet. Mehrere Nice Profiles können gleichzeitig aktiviert werden. Bei der Deaktivierung eines Nice Profiles werden die durch die Aktivierung vorgenommenen Änderungen an allen noch laufenden Abläufen zurückgenommen.

Die Batches und Jobs wurden in die Folder “Critical”, “Normal” und “Optional” sortiert, für die nun ein Nice Profile zur Backlog-Verarbeitung definiert wird

Für ein Nice Profile werden Folder-Namen oder Scheduling Entity-Namen (Batches bzw. Jobs) erfasst und es wird angegeben, welche Aktion für diese erfolgen soll. Wird ein Folder Name erfasst, so gilt die Aktion für alle Scheduling Entities unterhalb dieses Folders.

Das Nice Profile zur Backlog-Verarbeitung

In dem Nice Profile “Backlog” wird die Priorität des Folders “Critical” erhöht und die des Folders “Normal” herabgesetzt. Alle Batches im Folder “Optional” werden angehalten. Wird dieses Nice Profile aktiviert, ergibt sich im Monitoring folgendes Bild:

Im Monitoring wird sichtbar, dass der Batch “Cleanup Logfiles” angehalten wurde

Der Batch Cleanup Logfiles befindet sich im Status “aktiv”, weil vor dem Aktivieren des Nice Profiles bereits Jobs im Batch gestartet wurden. Es werden allerdings keine weiteren Jobs in diesem Batch gestartet, bis das Nice Profile wieder deaktiviert oder der Batch durch einen Administrator resumed wird.

BICsuite stellt mit den Nice Profiles ein effektives Werkzeug zur Behandlung von Backlog-Situationen – nämlich die Rettungsgasse durch den Datenstau – zur Verfügung. Probleme im Betrieb nach geplanten und ungeplanten Downtimes können so schnell und systematisch wieder behoben werden. Stress-Situationen durch Systemausfälle werden für die Administratoren entschärft. Bitte nehmen Sie Kontakt mit uns auf, wenn Sie Fragen zu den Nice Profiles oder dem BICsuite Enterprise Scheduling System im Allgemeinen haben.