Systemüberwachung mit Nagios und SNMP

Die Serversysteme der m-privacy GmbH verfügen über Sensoren für NRPE-basierte Monitoringsysteme (z. B. Nagios) oder für SNMP-basiretes Monitoring-Systeme. Damit lassen sich wichtige Betriebszustände aus der Ferne prüfen, sodass bereits vor einer Überschreitung kritischer Grenzwerte Gegenmaßnahmen ergriffen werden können. Nachfolgende Aufstellung gibt einen Überblick über die implementierten Prüfpunkte (Checks).

Nicht jedes System verfügt über die Gesamtzahl der möglichen Sensoren, sodass nicht immer alle Prüfpunkte aktiv sein müssen. Die angegebenen Schwellwerte sind vordefiniert, können jedoch bei Bedarf geändert werden.

Hinweis

Damit TightGate-Pro mit einem Monitoring-System überwacht werden kann, muss die Überwachung als Administrator config unter Dienste > Nagios-NRPE-Unterstützung bzw. SNMP-Dienst starten aktiviert werden. Zusätzlich muss unter config > Netzwerk > Nagios/SNMP IP die IP-Adresse des Monitoring-Servers hinterlegt sein.

Warnung

Es ist sicherzustellen, dass die Checks nicht gleichzeitig ausgeführt werden, insbesondere nicht parallel auf allen Nodes. Eine gleichmäßige Verteilung der Checks ist anzustreben. Checks, die ohnehin nur einmal täglich (alle 1440 Minuten) durchgeführt werden, sollten vorzugsweise nachts erfolgen, wobei auch hier eine gleichzeitige Ausführung vermieden werden sollte.

Als root in der Konsole folgenden Befehl eingeben:

 cd /usr/lib/nagios/plugins/
 ./check_nrpe -H [IP-Adresse des TightGate-Pro] -c check_[Name des Prüfpunktes]

Bsp. für den Prüfpunkt maint:

 ./check_nrpe -H 192.168.4.1 -c check_maint

Folgenden Befehl vom überwachenden Rechner eingeben, zum Auslesen einzelner Checks:

 snmpget -v3 -u snmp-user -A [PASSWORD] -a SHA -l authnoPriv [IP-Adresse des TightGate-Pro] [einzelne MIB oder OID]
PrüfpunktBeschreibungZustand
OK
Zustand
Warning
Zustand
Critical
Aktivität bei
Warning
Aktivität bei
Critical
Prüfintervall (in Minuten)
maintPrüft, ob ein Node verfügbar ist und sich nicht im Wartungsmodus befindet. Zeigt ggf. den Zeitpunkt einer geplanten Wartung an.Node verfügbar und nicht im WartungsmodusNode im Wartungsmodus Nach beendeter Wartung als Administrator maint anmelden und Wartungsmodus beenden. 30
loadGibt die durchschnittliche Systemlast zurück für die Zeitpunkte: 1, 5 und 15 Minuten.Die Systemlast ist geringer als der vom Administrator config unter den Systemvorgaben gesetzte WertDie Systemlast ist höher als der vom Administrator config unter den Systemvorgaben gesetzte Wert aber geringer als das doppelte des WertesDie Systemlast ist höher als das Doppelte des vom Administrator config unter den Systemvorgaben gesetzten WertesAls Administrator root anmelden und eine Konsole öffnen. Der Befehl atop zeigt die Prozessübersicht unter Angabe der Last pro Prozess. Die Liste kann durch Eingabe von p im Fenster nach dem Lastwert sortiert werden. Prozesse, die besonders hohe Last verursachen, können mittels kill beendet werden. Auch ein Neustart des Systems kann helfen. In jedem Fall ist bei übermäßiger Systemlast der technische Kundendienst der m-privacy GmbH zu informieren. 5
softmodePrüft, ob sich der Node im Softmode befindet, d.h. in einem nicht durch RSBAC geschützten Zustand.Softmode ist nicht aktiviert Softmode ist aktiviertBitte Softmode als Benutzer Security deaktivieren. 10
usersPrüft auf die als config hinterlegte maximale Anzahl von VNC-Verbindungen (TightGate-Viewer) und gibt die aktuelle Anzahl der Viewer- und Schleusen-Verbindugen aus.< Max VNCÜber Max VNC aber unter Max VNC +10> Max VNC +10Bei Überschreitung der Grenzwerte ist mit Performance-Einbußen zu rechnen. 30
disksPrüft freien Speicher auf den Festplatten.> 20% freiZwischen 20% und 10% frei< 10% freiStatusseite des entsprechenden Systems aufrufen und Massenspeicher auf Belegung überprüfen. Bei Platzmangel sollten insbesondere die Benutzerverzeichnisse in /home geprüft werden. Evtl. können z. B. alte Backups gelöscht werden. Weiterhin sollten die Logdateien in /var/log geprüft werden. Zu große Logdateien können gelöscht werden, um Platz auf dem Datenträger zu schaffen. 60
zombie_procsUnterminierte Zombieprozesse, können auf Fehler hinweisen.Keine ZombieprozesseUnter 10 ZombieprozessenÜber 10 ZombieprozessenZombieprozesse können gelegentlich auftreten und beeinträchtigen den Systembetrieb in der Regel nicht. Gehäuftes Auftreten von Zombieprozessen deutet auf Fehler in der Dateibehandlung hin. Es wird empfohlen, den technischen Kundendienst der m-privacy GmbH zu informieren. 60
ntpPrüft die Erreichbarkeit von NTP-Zeitservern und zeigt Abweichungen zur lokalen Systemzeit an.Zeitdifferenz < 60 SekundenZeitdifferenz zwischen 60 und 120 SekundenNicht erreichbar oder Zeitdifferenz > 120 SekundenInsbesondere in Clustersystemen müssen alle Nodes dieselbe Systemzeit aufweisen. Ist die Zeitdifferenz zur Referenz des hinterlegten NTP-Servers > 1 Minute, besteht Handlungsbedarf!
Bitte als Administrator config anmelden und mit dem Menüpunkt Netzwerk prüfen das Problem verifizieren und ggf. die Zeit gleich anpassen. Ggf. sollte ein alternativer externer NTP-Server konfiguriert werden, um einwandfreien Systembetrieb sicherzustellen.
30
memavailableAnzeige des verfügbaren Speichers in kByte.über 1.000.000 (1 GB RAM)Wert zwischen 1.000.000 und 100.000Wert unter 100.000 (100 MB RAM)Erhöhung des Arbeitsspeichers oder Verringerung der Anzahl der User auf dem Server. 5
memorypressurekilledAnzahl der Benutzer-Sitzungen, welche auf Grund akuten Speichermangels innerhalb der letzten 24 Stunden automatisch abgemeldet wurden.0Wert kleiner 0Erhöhung des Arbeitsspeichers oder Verringerung der Anzahl der User auf dem Server. 1440
pressure_cpuPrüft, ob Anfragen auf Grund eines Engpasses in der CPU verzögert bearbeitet werden.Verzögerungen <20% aller AnfragenVerzögerungen zwischen 20%>50% aller AnfragenVerzögerungen >50% aller AnfragenDie Anzahl der zugelassenen Benutzer sollte auf dem Node gesenkt werden. 5
pressure_ioPrüft, ob Anfragen auf Grund eines Lese-/Schreib-Engpasses oder auf Grund von Netzwerkengpässen verzögert bearbeitet werden.Verzögerungen <20% aller AnfragenVerzögerungen zwischen 20%>50% aller AnfragenVerzögerungen >50% aller AnfragenSofern SSDs verwendet werden, sind treten Engpässe meist im Zusammenhang mit Netzwerkengpässen aus. 5
pressure_memoryPrüft, ob Anfragen auf Grund eines Engpasses im Speicher verzögert bearbeitet werden.Verzögerungen <2% aller AnfragenVerzögerungen zwischen 2%>10% aller AnfragenVerzögerungen >10% aller AnfragenDas verfügbare RAM sollte erweitert werden oder die Anzahl der zugelassenen Benutzer auf dem Node gesenkt werden. 5
sshPrüft die Erreichbarkeit einer Secure Shell und gibt die SSH-Version zurück.ErreichbarNicht erreichbarFalls SSH als unerreichbar moniert wird, sollte zunächst als Administrator config ein Anwenden ausgeführt werden. Wird SSH danach weiterhin als nicht erreichbar ausgewiesen, ist ein Neustart des Systems im Recover-Modus erforderlich. Es empfiehlt sich in diesem Fall eine Rücksprache mit dem technischen Kundendienst der m-privacy GmbH. 5
dnsPrüft den eingetragenen DNS-Server. Gibt die IP-Adresse und die Antwortzeit des DNS-Servers zurück.Auslösung der IP-Adresse möglich. Auflösung der IP-Adresse nicht möglich.DNS-Server überprüfen ggf. alternativen DNS-Server eintragen. 5
bugSucht in der Datei kern.log nach Schlüsselworten, die auf Kernfehler hindeuten.Keine Fehler gefunden Fehler gefundenTechnischen Kundendienst der m-privacy GmbH informieren. 1440
cronPrüft die Anzahl der laufenden Cron-Jobs.1 bis 10 Cron-JobsZwischen 11 und 20 Cron-Jobs> 20 oder keine Cron-JobsAls Administrator root anmelden und Konsole aufrufen. Befehlsfolge ps tree -ah lokalisiert den blockierten Cron-Job.Infrage kommende Dienste prüfen und entsprechende Maßnahmen ergreifen, z. B. als Administrator config Anwenden oder auch Neustart des Systems. 60
versionsVergleicht die installierte Softwareversion mit dem aktuell verfügbaren Softwarestand.
Hinweis: Dieser Check kann nur noch maximal 2 mal täglich direkt aufgerufen werden. Jeder weitere Aufruf liefert das letzte Ergebnis mit dem Hinweis "(cached)". Möchte man den Abruf erzwingen, kann man vorher einmal "Verfügbare Updates" aufrufen (update wieder abmelden nicht vergessen). Anschließend wir der Check einmal neu ausgeführt.
Keine neuere Version verfügbarUpdates verfügbarUpdates seit mehr als 6 Monaten verfügbarAls Administrator update anmelden und Autoupdate durchführen 1440
vncPrüft die Erreichbarkeit des VNC-Servers und gibt dessen Antwortzeit sowie den gesetzten Port zurück.Erreichbar Nicht erreichbarIst VNC in der Konfiguration aktiviert und wird dennoch als unerreichbar moniert, sollte zunächst als Administrator config ein Voll Anwenden ausgeführt werden. Wird VNC danach weiterhin als nicht erreichbar ausgewiesen, ist ein Neustart des Systems im Recover-Modus erforderlich. Es empfiehlt sich in diesem Fall eine Rücksprache mit dem technischen Kundendienst der m-privacy GmbH. 5
diskerrorSucht in der Datei kern.log nach Schlüsselworten, die auf Festplattenfehler hindeuten.Keine Fehler gefunden Fehler gefundenWarnungen deuten auf fehlerhafte Festplatten hin. Dies kann zu Dateninkonsistenzen oder Datenverlust führen. Kontaktieren Sie bitte den technischen Kundendienst der m-privacy GmbH. 1440
licensePrüft auf gültige Lizenz und gibt die Anzahl der genutzten Lizenzen sowie das Ablaufdatum zurück.Lizenz gültig Lizenz ungültigDie Lizenz muss über den technischen Kundendienst der m-privacy GmbH erneuert werden. 1440
applyPrüft, ob ein Anwenden als Administrator Config notwendig ist.Kein Anwenden notwendig Anwenden notwendigWird im Nagios signalisiert, dass ein Anwenden notwendig ist, bitte als Administrator config anmelden und ein Anwenden ausführen. 10
slabsPrüfung auf Speicherbereiche im Kern.< 10 Mio.Zwischen 10 und 100 Mio.> 100 Mio.Deutet auf Speicherlecks und Kernfehler hin. 60
backupPrüft auf vorhandenes Backup und eventuell aufgetretene Fehler. Gibt Datum und Uhrzeit des zuletzt angelegten Backups zurück, falls gefunden.Backup ist vorhanden und fehlerfreiBackup ist fehlerhaft, bzw. es wurde keine automatisches Backup konfiguriertBackup nicht vorhanden oder Dienst nicht verfügbarAls Administrator backuser anmelden und Protokoll auf Fehler überprüfen. Es kann mit dem Befehl Letztes Protokoll anzeigen aufgerufen werden.Überprüfen, ob als Administrator backuser unter Konfiguration > Häufigkeit eventuell unpassende Einstellungen gewählt wurden. Dann z. B. im Protokoll nachsehen, ob ein Backup erstellt wurde und ggf. Fehler überprüfen. 1440
smart_sd*Prüft den SMART-Status der jeweiligen Festplatte und gibt den festgestellten Status zurück. Das *-Zeichen ist durch den jeweiligen Kaufwerksbuchstaben zu ersetzen.Festplatte OK + aktuelle TemperaturTemperatur > 45 °CTemperatur > 50 °CWird eine zu hohe Temperatur ausgegeben, sollte die Kühlung des Systems geprüft werden. Falls die Festplatte nicht OK ist, werden auch die Fehler des S.M.A.R.T.-Checks der Platte ausgegeben. Maßnahmen können ein Systemstart vom Rettungssystem oder Ausführung eines fsck sein. 1440
definedusersPrüft die Anzahl an angelegten Benutzer in TightGate-Pro und zeigt an, wie viele Benutzerkennungen derzeit im TightGate-Pro angelegt sind.Es können noch mindestens 5 neue Benutzerkennungen angelegt werden.Es können nur noch maximal 5 neue Benutzer angelegt werden.Es kann maximal noch eine neue Kennung angelegt werden oder die maximale Anzahl von Benutzerkennungen ist bereits erreicht.Bitte erwerben Sie weitere Lizenzen von TightGate-Pro. 1440

Optimale Prüfpunkte können je nach Systemkonfiguration verwendet werden, um spezifische Prozesse zu überwachen.

Je nachdem wie viele Ceph-Server im Einsatz sind werden für jeden Ceph-Server alle Nagios-Prüfpunkte bereit gestellt. Nachfolgende Tabelle listet alle Checks für den ersten Ceph-Server auf. Die Prüfpunkte für den zweiten und weitere Ceph-Server sind analog zu verwenden, jedoch ist die im Prüfpunkt angegebene Nummer jeweils hochzuzählen.

PrüfpunktBeschreibungZustand
OK
Zustand
Warning
Zustand
Critical
Aktivität bei
Warning
Aktivität bei
Critical
Prüfintervall (in Minuten)
homeusermountPrüft, ob /home/user im Verzeichnisbaum eingehängt ist. Gibt den Pfad von /home/user zurück.Eingehängt Nicht eingehängtFestplatte überprüfen, ggf. Benutzerverzeichnisse probehalber von Hand einhängen. Es könnte sich auch um einen Dateisystemfehler handeln, daher wird die Benachrichtigung des technischen Kundendienstes der m-privacy GmbH empfohlen. 10
backupmountPrüft, ob /home/backuser/backup korrekt im Verzeichnisbaum eingehängt wurde.Eingehängt Nicht eingehängtFestplatte überprüfen, ggf. Benutzerverzeichnisse probehalber von Hand einhängen. Es könnte sich um einen Dateisystemfehler handeln, daher wird die Benachrichtigung des technischen Kundendienstes der m-privacy GmbH empfohlen. 60
ceph_hu_1_disksPrüft freien Speicher auf den Festplatten des ersten Ceph-Servers.> 20% freiZwischen 20% und 10% frei< 10 % freiIst der Speicher voll, nehmen Sie bitte Kontakt mit dem technischen Kundendienst der m-privacy GmbH auf. 60
ceph_hu_1_zombie_procsUnterminierte Zombieprozesse, können auf Fehler hinweisen.Keine ZombieprozesseUnter 10 ZombieprozessenÜber 10 ZombieprozessenZombieprozesse können gelegentlich auftreten und beeinträchtigen den Systembetrieb in der Regel nicht. Gehäuftes Auftreten von Zombieprozessen deutet auf Fehler in der Dateibehandlung hin. Es wird empfohlen, den technischen Kundendienst der m-privacy GmbH zu informieren. 60
ceph_hu_1_ntpPrüft die Erreichbarkeit von NTP-Zeitservern und zeigt Abweichungen zur lokalen Systemzeit an.Zeitdifferenz < 60 SekundenZeitdifferenz zwischen 60 und 120 SekundenNicht erreichbar oder Zeitdifferenz > 120 SekundenBei Abweichungen sollte unbedingt die Synchronizität wieder hergestellt werden, da sonst Cluster-Ausfälle drohen. 30
ceph_hu_1_sshPrüft die Erreichbarkeit einer Secure Shell und gibt die SSH-Version zurück.Erreichbar Nicht erreichbarFalls SSH als unerreichbar moniert wird, sollte zunächst als Administrator config ein Anwenden ausgeführt werden. Ggf. ist eine Rücksprache mit dem technischen Kundendienst der m-privacy GmbH zu nehmen. 5
ceph_hu_1_cronPrüft die Anzahl der laufenden Cron-Jobs.1 bis 10 Cron-Jobs laufen11 bis 20 Cron-Jobs laufen> 20 oder keine Cron-Jobs laufen 60
ceph_hu_1_cephGibt den HEALTH-Status des gesamten externen Cephs aus.Ceph ist in OrdnungCeph hat ein ProblemCeph ist nicht intaktJa, nach Problem muss auf die Fehlermeldungen des Cephs individuell reagiert werde. Ggf. mit dem technischen Kundendienst der m-privacy GmbH Kontakt aufnehmen. 10
ceph_hu_1_smart_sd*Prüft den SMART-Status der jeweiligen Festplatte und gibt den festgestellten Status zurück. Das *-Zeichen ist durch den jeweiligen Kaufwerksbuchstaben zu ersetzen.Festplatte OK + aktuelle TemperaturTemperatur > 45 °CTemperatur > 50 °CWird die Festplatte zu heiß, müssen die Lüftereinstellungen bzw. der Luftstrom im Server überprüft werden. 1440
PrüfpunktBeschreibungZustand
OK
Zustand
Warning
Zustand
Critical
Aktivität bei
Warning
Aktivität bei
Critical
Prüfintervall (in Minuten)
scannerPrüft, ob die Schadcodedefinitionen des Virenscanners aktuell sind und ob der Virenscanner läuft.Definitionen aktuell (oder nicht älter als 2 Tage)Definitionen älter als 2 Tage aber jünger als 1 WocheVirenscanner läuft nicht oder es sind keine Definitionen verfügbar oder die Definitionen sind älter als 1 Woche.Virendefinitionen gemäß Administrationshandbuch aktualisieren.Korrekte Konfiguration als Administrator config entsprechend Administrationshandbuch vornehmen. 1440
sensorsPrüft die Festplatten-TemperaturTemperatur unter 110°CTemperatur über 110°C und unter 120° CTemperatur über 120°CEs besteht Überhitzungsgefahr. Bitte prüfen Sie, ob die Lüfter ordnungsgemäß arbeiten. Ggf. sind dazu im BIOS des Servers Einstellungen vorzunehmen. Bitte prüfen Sie auch, dass der Luftstrom um den Server gewährleistet ist. 5
squidPrüft auf die Erreichbarkeit des hinterlegten Proxy-Servers und gibt die Antwortzeit sowie den Verbindungsport aus.Alles OK Port nicht Nicht erreichbarKann der Port nicht erreicht werden ist zu prüfen, ob der Dienst läuft. 5
httpPrüft auf die Erreichbarkeit des des HTTP-Protokolls und gibt gibt die Antwortzeit aus.Alles OK Port Nicht erreichbarKann der Port nicht erreicht werden ist zu prüfen, ob der Dienst läuft. 5
tempPrüft die Temperatur des Mainboards (falls Sensor vorhanden) und gibt sie aus.< 50 oC50 oC bis 60 oC> 60 oCBei Temperaturüberschreitung gesamtes Kühlsystem der Hardware (Lüfter, Kühlkörper, Luftkanäle, etc.) sowie Klimatisierung der Betriebsumgebung prüfen. 5
fanPrüft, ob ein Lüfter läuft (falls Sensor vorhanden).Läuft Läuft nichtBei Problemmeldung Hardware überprüfen. 10
timedupdatePrüft, ob eine Automatisches Update geplant ist. Der Prüfpunkt liefert nur Informative Werte zum geplanten Update-Zeitpunkt. 1440
identdPrüfung des Ident-Deamon für die Protokollierung von Proxy-Verbindungen.okKeine Protokollierung konfiguriert, aber Proxy läuftProtokollierung ist konfiguriert, aber der Proxy läuft nichtKorrektur der Einstellungen oder Neustart des Dienstes durch Anwenden als config. 5
adldapPrüfung auf Erreichbarkeit des LDAP-Servers / AD-Servers bei der Benutzerverwaltung Gibt Hinweise auf Fehler bei der Verwendung von Active Directory oder LDAP-Servern. Es sind Maßnahmen entsprechend der Hinweise des Checks durchzuführen. 5
nodesavailPrüft auf die Verfügbarkeit aller Nodes innerhalb eines Clusters von TightGate-Pro SystemenAlles Nodes sind verfügbarEs sind weniger Nodes verfügbar als definiert, aber die Mindestanzahl ist noch gegebenEs sind keine Nodes Erreichbar/Verfügbar.Informativ. 10
icapPrüft, ob ein konfigurierter ICAP-Server erreichbar ist. Wenn ICAP-Server erreichbar und ein Eicar-Testfile sowie eine txt-Datei so behandelt werden wie erwartet. Wenn ICAP-Server nicht erreichbar oder wenn die Wertrückgabe unerwartet ist.Erreichbarkeit des ICAP prüfen, bzw. Analyse auf dem ICAP-Server. 30