Inhalt gelöscht Inhalt hinzugefügt
Zeile 8:
Zeile 8:
Teilnehmende Maschinen an einem HACMP-Cluster werden ''Knoten'' genannt. Auf diesen Knoten laufen sogenannte ''Resource Group''s (RG), die den zentralen Begriff in HACMP darstellen: eine RG ist die logische Zusammenfassung
Teilnehmende Maschinen an einem HACMP-Cluster werden ''Knoten'' genannt. Auf diesen Knoten laufen sogenannte ''Resource Group''s (RG), die den zentralen Begriff in HACMP darstellen: eine RG ist die logische Zusammenfassung
* eines oder mehrerer [[Dateisystem(削除) |Fileysteme (削除ここまで)]]
* eines oder mehrerer [[Dateisystem]](追記) e (追記ここまで)
* einer oder mehrerer IP-Adressen
* einer oder mehrerer IP-Adressen
* eines oder mehrerer [[(削除) Prozess_ (削除ここまで)(Informatik)#(削除) Prozesse_beim_Betriebssystem_UNIX (削除ここまで)|(削除) Prozessen (削除ここまで)]] und dazugehöriger Start-/(削除) Stop (削除ここまで)-(削除) Scripte (削除ここまで)
* eines oder mehrerer [[(追記) Prozess (追記ここまで)(Informatik)#(追記) Prozesse beim Betriebssystem UNIX (追記ここまで)|(追記) Prozesse (追記ここまで)]] und dazugehöriger Start-/(追記) Stopp (追記ここまで)-(追記) Skripte (追記ここまで)
Beim Aktivieren einer solchen Resource Group auf einem (削除) Cluster-Knoten (削除ここまで) werden zunächst die zugehörigen (削除) Filesysteme (削除ここまで) (削除) gemountet (削除ここまで), (削除) sodann (削除ここまで) mit Hilfe von in der RG-Definition hinterlegten Start-/(削除) Stop (削除ここまで)-(削除) Scripten (削除ここまで) die Prozesse der RG gestartet. Danach wird die IP-Adresse (die sogenannte ''Service IP'') als IP-Alias auf (削除) ein (削除ここまで) dafür (削除) bestimmtes (削除ここまで) (削除) Interface (削除ここまで) aufgebracht.
Beim Aktivieren einer solchen Resource Group auf einem (追記) Clusterknoten (追記ここまで) werden zunächst die zugehörigen (追記) Dateisysteme (追記ここまで) (追記) eingehängt (追記ここまで), (追記) anschließend (追記ここまで) mit Hilfe von in der RG-Definition hinterlegten Start-/(追記) Stopp (追記ここまで)-(追記) Skripten (追記ここまで) die Prozesse der RG gestartet. Danach wird die IP-Adresse (die sogenannte ''Service IP'') als IP-Alias auf (追記) eine (追記ここまで) dafür (追記) bestimmte (追記ここまで) (追記) Schnittstelle (追記ここまで) aufgebracht.
Wird die Resource Group auf einen anderen Clusterknoten verschoben (''Takeover''), so wird erst mit Hilfe des (削除) Stop (削除ここまで)-(削除) Scripts (削除ここまで) die (削除) Applikation (削除ここまで) beendet, die (削除) Filesysteme (削除ここまで) (削除) abgehängt (削除ここまで) und der IP-Alias mit der Service-IP gelöscht, (削除) sodann (削除ここまで) auf dem anderen (削除) Ziel-Knoten (削除ここまで) die Aktivierungsroutine (siehe oben) abgearbeitet. Für den Client entsteht lediglich eine kurze Unterbrechung (die notwendige Zeit für den Wechsel) bis der Service wieder unter derselben IP-Adresse zur Verfügung steht. Dass diese IP-Adresse nun eine andere Maschine repräsentiert, merkt der Client nicht.
Wird die Resource Group auf einen anderen Clusterknoten verschoben (''Takeover''), so wird erst mit Hilfe des (追記) Stopp (追記ここまで)-(追記) Skripts (追記ここまで) die (追記) Anwendung (追記ここまで) beendet, die (追記) Dateisysteme (追記ここまで) (追記) ausgehängt (追記ここまで) und der IP-Alias mit der Service-IP gelöscht, (追記) anschließend (追記ここまで) auf dem anderen (追記) Zielknoten (追記ここまで) die Aktivierungsroutine (siehe oben) abgearbeitet. Für den Client entsteht lediglich eine kurze Unterbrechung (die notwendige Zeit für den Wechsel) bis der Service wieder unter derselben IP-Adresse zur Verfügung steht. Dass diese IP-Adresse nun eine andere Maschine repräsentiert, merkt der Client nicht.
Der größte Teil der Funktionen in HACMP bzw. PowerHA wird durch (削除) Scripte (削除ここまで) (in [[(削除) Korn Shell|Korn-Shell (削除ここまで)]]) erledigt, lediglich ein kleiner Kernel-Patch (der sogenannte ''Dead-Man-Switch'') greift direkt verändernd in das darunterliegende Betriebssystem ein. Diese offene Architektur macht HACMP sehr flexibel.
Der größte Teil der Funktionen in HACMP bzw. PowerHA wird durch (追記) Skripte (追記ここまで) (in(追記) der (追記ここまで) [[(追記) Kornshell (追記ここまで)]]) erledigt, lediglich ein kleiner Kernel-Patch (der sogenannte ''Dead-Man-Switch'') greift direkt verändernd in das darunterliegende Betriebssystem ein. Diese offene Architektur macht HACMP sehr flexibel.
Das größte Problem das Clustersoftware lösen (削除) muß (削除ここまで), ist die sogenannte ''Split Brain Condition'': beide Knoten glauben, der aktive zu sein bzw. werden zu müssen. In HACMP/PowerHA werden bei der Konfiguration des Clusters verschiedene Kommunikationsstrecken definiert, über die sich die Clusterknoten wechselseitig Nachrichten über ihre Funktionsfähigkeit zukommen lassen. Dies wird ''Heartbeat'' genannt und kann über
Das größte Problem das Clustersoftware lösen (追記) muss (追記ここまで), ist die sogenannte ''Split Brain Condition'': beide Knoten glauben, der aktive zu sein bzw. werden zu müssen. In HACMP/PowerHA werden bei der Konfiguration des Clusters verschiedene Kommunikationsstrecken definiert, über die sich die Clusterknoten wechselseitig Nachrichten über ihre Funktionsfähigkeit zukommen lassen. Dies wird ''Heartbeat'' genannt und kann über
* eigens dafür eingerichtete IP-(削除) Interfaces (削除ここまで)
* eigens dafür eingerichtete IP-(追記) Schnittstellen (追記ここまで)
* die (削除) Platten (削除ここまで) der Resource Groups, auf die(削除) ja (削除ここまで) beide Knoten zugreifen können müssen
* die (追記) Festplatten (追記ここまで) der Resource Groups, auf die beide Knoten zugreifen können müssen
* serielle Leitungen (die klassische Methode und bis HACMP 4.4 unbedingt erforderlich)
* serielle Leitungen (die klassische Methode und bis HACMP 4.4 unbedingt erforderlich)
bewerkstelligt. Kommt ein Knoten aufgrund nicht mehr empfangener Heartbeats zu dem (削除) Schluß (削除ここまで), nicht mehr mit dem Partner bzw. der Außenwelt kommunizieren zu können, wird der Dead-Man-Switch ausgelöst und der Knoten schaltet sich je nach Konfiguration entweder ab oder startet neu. Der jeweils aktive Knoten prüft darüber hinaus, ob die Kommunikation mit den Clients noch möglich ist, bevor er sich abschaltet, damit der Standby-Knoten übernehmen kann.
bewerkstelligt(追記) werden (追記ここまで). Kommt ein Knoten aufgrund nicht mehr empfangener Heartbeats zu dem (追記) Schluss (追記ここまで), nicht mehr mit dem Partner bzw. der Außenwelt kommunizieren zu können, wird der Dead-Man-Switch ausgelöst und der Knoten schaltet sich je nach Konfiguration entweder ab oder startet neu. Der jeweils aktive Knoten prüft darüber hinaus, ob die Kommunikation mit den Clients noch möglich ist, bevor er sich abschaltet, damit der Standby-Knoten übernehmen kann.
=== Typische Konfigurationen ===
=== Typische Konfigurationen ===
Zeile 30:
Zeile 30:
==== Rotating Cluster ====
==== Rotating Cluster ====
Die Resource Group läuft auf einem von üblicherweise (削除) 2 (削除ここまで) (Bei Bedarf aber auch mehr) Knoten, auf dem anderen Knoten läuft lediglich das Betriebssystem und der ''Cluster Manager''. Fällt der aktive Knoten aus, so führt der andere einen Takeover durch. Der Modus wird ''rotating'' genannt, weil die Resource Group zwischen den Knoten hin- und herverschoben wird, also quasi "rotiert".
Die Resource Group läuft auf einem von üblicherweise (追記) zwei (追記ここまで) (Bei Bedarf aber auch mehr) Knoten, auf dem anderen Knoten läuft lediglich das Betriebssystem und der ''Cluster Manager''. Fällt der aktive Knoten aus, so führt der andere einen Takeover durch. Der Modus wird ''rotating'' genannt, weil die Resource Group zwischen den Knoten hin- und herverschoben wird, also quasi "rotiert".
Diese Betriebsart wird meist für (削除) ''Mission (削除ここまで) (削除) Critical''- (削除ここまで)Systeme eingesetzt und hat den Vorteil, gut planbar bei relativ geringer Komplexität zu sein. Der Nachteil ist, (削除) daß (削除ここまで) ein erheblicher Teil der Kapazität (der/die Standby-Knoten) die meiste Zeit über nicht genutzt wird.
Diese Betriebsart wird meist für (追記) [[missionskritisch]]e (追記ここまで) Systeme eingesetzt und hat den Vorteil, gut planbar bei relativ geringer Komplexität zu sein. Der Nachteil ist, (追記) dass (追記ここまで) ein erheblicher Teil der Kapazität (der/die Standby-Knoten) die meiste Zeit über nicht genutzt wird.
==== Cascading Cluster ====
==== Cascading Cluster ====
Die Resource Group mit der (削除) Hauptapplikation (削除ここまで) läuft auf einem Knoten, auf einem weiteren Knoten laufen Resource Groups, die bei Bedarf abgeschaltet werden können. Im (削除) Fehlerfalle (削除ここまで) führt der Standby-Knoten zunächst die (削除) Stop (削除ここまで)-(削除) Scripte (削除ここまで) seiner eigenen Resource Groups aus, danach wird ein Takeover auf die RG der (削除) Hauptapplikation (削除ここまで) durchgeführt.
Die Resource Group mit der (追記) Hauptanwendung (追記ここまで) läuft auf einem Knoten, auf einem weiteren Knoten laufen Resource Groups, die bei Bedarf abgeschaltet werden können. Im (追記) Fehlerfall (追記ここまで) führt der Standby-Knoten zunächst die (追記) Stopp (追記ここまで)-(追記) Skripte (追記ここまで) seiner eigenen Resource Groups aus, danach wird ein Takeover auf die RG der (追記) Hauptanwendung (追記ここまで) durchgeführt.
Diese Betriebsart ist typisch für Systeme, bei denen eine Produktivinstanz einer oder mehreren Test- bzw. Entwicklungsinstanzen gegenübersteht, etwa bei [[SAP ERP]] oder größeren [[Datenbank]]en. Die Testinstanzen werden dann, solange kein Fehler auftritt, auf dem Standby-Knoten betrieben, im Fehlerfall stehen sie für einige Zeit nicht zur Verfügung.
Diese Betriebsart ist typisch für Systeme, bei denen eine Produktivinstanz einer oder mehreren Test- bzw. Entwicklungsinstanzen gegenübersteht, etwa bei [[SAP ERP]] oder größeren [[Datenbank]]en. Die Testinstanzen werden dann, solange kein Fehler auftritt, auf dem Standby-Knoten betrieben, im Fehlerfall stehen sie für einige Zeit nicht zur Verfügung.
Version vom 5. Oktober 2014, 20:44 Uhr
Der Cluster Manager für AIX wird HACMP (High Availability Cluster Multi-Processing) genannt. Er wird bei Applikationen eingesetzt, die eine hohe Verfügbarkeit aufweisen müssen. Dies sind in der Regel unternehmenskritische Applikationen (z. B. das Abrechnungssystem für Wertpapiergeschäfte bei einer Bank).
Mit Version 6.1 wurde HACMP in PowerHA umbenannt. Auch wenn die Software mittlerweile nicht mehr so heißt, ist die Bezeichnung HACMP - auch für neue Versionen - in Fachkreisen immer noch üblich.
Mit Version 7.1 wurden SmartAssist-Agenten eingeführt, die eine automatische Erkennung und Konfiguration von verschiedenen Applikationen als HA-Lösung ermöglichen.
Funktionsweise
Teilnehmende Maschinen an einem HACMP-Cluster werden Knoten genannt. Auf diesen Knoten laufen sogenannte Resource Groups (RG), die den zentralen Begriff in HACMP darstellen: eine RG ist die logische Zusammenfassung
- eines oder mehrerer Dateisysteme
- einer oder mehrerer IP-Adressen
- eines oder mehrerer Prozesse und dazugehöriger Start-/Stopp-Skripte
Beim Aktivieren einer solchen Resource Group auf einem Clusterknoten werden zunächst die zugehörigen Dateisysteme eingehängt, anschließend mit Hilfe von in der RG-Definition hinterlegten Start-/Stopp-Skripten die Prozesse der RG gestartet. Danach wird die IP-Adresse (die sogenannte Service IP) als IP-Alias auf eine dafür bestimmte Schnittstelle aufgebracht.
Wird die Resource Group auf einen anderen Clusterknoten verschoben (Takeover), so wird erst mit Hilfe des Stopp-Skripts die Anwendung beendet, die Dateisysteme ausgehängt und der IP-Alias mit der Service-IP gelöscht, anschließend auf dem anderen Zielknoten die Aktivierungsroutine (siehe oben) abgearbeitet. Für den Client entsteht lediglich eine kurze Unterbrechung (die notwendige Zeit für den Wechsel) bis der Service wieder unter derselben IP-Adresse zur Verfügung steht. Dass diese IP-Adresse nun eine andere Maschine repräsentiert, merkt der Client nicht.
Der größte Teil der Funktionen in HACMP bzw. PowerHA wird durch Skripte (in der Kornshell) erledigt, lediglich ein kleiner Kernel-Patch (der sogenannte Dead-Man-Switch) greift direkt verändernd in das darunterliegende Betriebssystem ein. Diese offene Architektur macht HACMP sehr flexibel.
Das größte Problem das Clustersoftware lösen muss, ist die sogenannte Split Brain Condition: beide Knoten glauben, der aktive zu sein bzw. werden zu müssen. In HACMP/PowerHA werden bei der Konfiguration des Clusters verschiedene Kommunikationsstrecken definiert, über die sich die Clusterknoten wechselseitig Nachrichten über ihre Funktionsfähigkeit zukommen lassen. Dies wird Heartbeat genannt und kann über
- eigens dafür eingerichtete IP-Schnittstellen
- die Festplatten der Resource Groups, auf die beide Knoten zugreifen können müssen
- serielle Leitungen (die klassische Methode und bis HACMP 4.4 unbedingt erforderlich)
bewerkstelligt werden. Kommt ein Knoten aufgrund nicht mehr empfangener Heartbeats zu dem Schluss, nicht mehr mit dem Partner bzw. der Außenwelt kommunizieren zu können, wird der Dead-Man-Switch ausgelöst und der Knoten schaltet sich je nach Konfiguration entweder ab oder startet neu. Der jeweils aktive Knoten prüft darüber hinaus, ob die Kommunikation mit den Clients noch möglich ist, bevor er sich abschaltet, damit der Standby-Knoten übernehmen kann.
Typische Konfigurationen
Mit HACMP/PowerHA ist eine Vielzahl von Clusterkonfigurationen möglich, die bei weitem häufigsten sind aktiv/passiv-Cluster (im HACMP-Jargon rotating Cluster genannt) und aktiv/aktiv-Cluster (cascading Cluster).
Rotating Cluster
Die Resource Group läuft auf einem von üblicherweise zwei (Bei Bedarf aber auch mehr) Knoten, auf dem anderen Knoten läuft lediglich das Betriebssystem und der Cluster Manager. Fällt der aktive Knoten aus, so führt der andere einen Takeover durch. Der Modus wird rotating genannt, weil die Resource Group zwischen den Knoten hin- und herverschoben wird, also quasi "rotiert".
Diese Betriebsart wird meist für missionskritische Systeme eingesetzt und hat den Vorteil, gut planbar bei relativ geringer Komplexität zu sein. Der Nachteil ist, dass ein erheblicher Teil der Kapazität (der/die Standby-Knoten) die meiste Zeit über nicht genutzt wird.
Cascading Cluster
Die Resource Group mit der Hauptanwendung läuft auf einem Knoten, auf einem weiteren Knoten laufen Resource Groups, die bei Bedarf abgeschaltet werden können. Im Fehlerfall führt der Standby-Knoten zunächst die Stopp-Skripte seiner eigenen Resource Groups aus, danach wird ein Takeover auf die RG der Hauptanwendung durchgeführt.
Diese Betriebsart ist typisch für Systeme, bei denen eine Produktivinstanz einer oder mehreren Test- bzw. Entwicklungsinstanzen gegenübersteht, etwa bei SAP ERP oder größeren Datenbanken. Die Testinstanzen werden dann, solange kein Fehler auftritt, auf dem Standby-Knoten betrieben, im Fehlerfall stehen sie für einige Zeit nicht zur Verfügung.
Weblinks