Supper & Supper GmbH - The Data Engineers
Data Science
Use Cases
Anomalie-Erkennung an Sensordaten eines Deep Learning-Entwicklungsserver-Clusters

Laden Sie hier unseren Anwendungsfall zur Anomalie-Erkennung an Sensordaten herunter.

Projektziel

Der Kern des Projektes ist es Anomalien im Verhalten eines Deep Learning Development Server Clusters anhand von Sensordaten zu identifizieren. Der Cluster besteht aus High-End GPU Servern, die dazu benutzt werden große Datenmengen im Rahmen von Deep Learning Projekten zu prozessieren. Durch lange Berechnungsdauern ist der Cluster eine Engpassressource. Um die Ausnutzung des Clusters besser planen zu können und Benachrichtigungen beim Start von großen Batch-Prozessen zu erhalten, war ein geeignetes Monitoring-System, mit integrierter Erkennung von Anomalien notwendig. So können Abweichung vom normalen Verhalten des Clusters erkannt und automatisierte E-Mail Benachrichtigungen versandt werden.

Datensätze

Für jeden Server werden sekündlich 58 Datenpunkte verschiedenster Sensoren aufgezeichnet und jeweils in eine CSV-Datei gespeichert. Die Sensoren erfassen verschiedene Leistungskennzahlen der Hardwarekomponenten. Mit der Speicherauslastung, Temperaturen, Taktfrequenzen und dem Energieverbrauch werden alle wichtigen Aspekte zum Clusterzustand und Auslastungen abgedeckt.

Herausforderungen & Lösungen

Das Machine Learning-Modell muss Trends und Saisonalitäten berücksichtigen und unerwartete Trendveränderungen oder Ausreißer erkennen. Der Algorithmus muss also in der Lage sein den Trend eigenständig zu erkennen und sich dahingehend anzupassen.
 
Wegen seiner Skalierbarkeit wurde der Elastic-Stack als Analyseumgebung gewählt. Mit dem Logstash-Modul können Datenströme in Echtzeit direkt in den Elasticsearch-Cluster geladen werden. Die eigentliche Analyse findet im Machine Learning Modul, in der Erweiterung X-Pack von Kibana statt.
Um die Log-Daten direkt verfügbar zu machen, wurde eine direkte Netzwerkfreigabe zu den entsprechenden Dateipfaden konfiguriert. Die aktuellsten Sensordaten sind somit in weniger als einer Sekunde Verzögerung bereit zur Analyse.
 
Das Machine Learning-Modul wurde so konfiguriert, dass es mehrere kritische Sensoren gleichzeitig analysiert und die Änderungen der Trends automatisch erkennt und übernimmt. Analysiert werden Temperaturen, Taktfrequenzen sowie Auslastung von CPU, GPU, RAM und Speicherkomponenten. E-Mail Benachrichtigungen für unerwartete Events wurden ebenfalls eingerichtet.

Projektergebnis

Ein Echtzeit-Monitoring Tool mit einem selbstlernenden Modell zur Erkennung von Anomalien wurde implementiert. Es wurde so konfiguriert, dass es bei unerwarteten Ereignissen automatisch E-Mail Alerts versendet. So kann die Nutzung des Deep Learning Server Clusters optimiert werden.