Project Description

Anomalie-Erkennung an Sensordaten eines Deep Learning-Entwicklungsserver-Clusters

Projektziel

Der Kern des Projektes ist es Anomalien im Verhalten eines Deep Learning Development Server Clusters anhand von Sensordaten zu identifizieren. Der Cluster besteht aus High-End GPU Servern, die dazu benutzt werden große Datenmengen im Rahmen von Deep Learning Projekten zu prozessieren. Durch lange Berechnungsdauern ist der Cluster eine Engpassressource. Um die Ausnutzung des Clusters besser planen zu können und Benachrichtigungen beim Start von großen Batch-Prozessen zu erhalten, war ein geeignetes Monitoring-System, mit integrierter Erkennung von Anomalien notwendig. So können Abweichung vom normalen Verhalten des Clusters erkannt und automatisierte E-Mail Benachrichtigungen versandt werden.

Datensätze

F√ľr jeden Server werden sek√ľndlich 58 Datenpunkte verschiedenster Sensoren aufgezeichnet und jeweils in eine CSV-Datei gespeichert. Die Sensoren erfassen verschiedene Leistungskennzahlen der Hardwarekomponenten. Mit der Speicherauslastung, Temperaturen, Taktfrequenzen und dem Energieverbrauch werden alle wichtigen Aspekte zum Clusterzustand und Auslastungen abgedeckt.

Herausforderungen und Lösungen

Das Machine Learning-Modell muss Trends und Saisonalit√§ten ber√ľcksichtigen und unerwartete Trendver√§nderungen oder Ausrei√üer erkennen. Der Algorithmus muss also in der Lage sein den Trend eigenst√§ndig zu erkennen und sich dahingehend anzupassen.

Wegen seiner Skalierbarkeit wurde der Elastic-Stack als Analyseumgebung gewählt. Mit dem Logstash-Modul können Datenströme in Echtzeit direkt in den Elasticsearch-Cluster geladen werden. Die eigentliche Analyse findet im Machine Learning Modul, in der Erweiterung X-Pack von Kibana statt.
Um die Log-Daten direkt verf√ľgbar zu machen, wurde eine direkte Netzwerkfreigabe zu den entsprechenden Dateipfaden konfiguriert. Die aktuellsten Sensordaten sind somit in weniger als einer Sekunde Verz√∂gerung bereit zur Analyse.

Das Machine Learning-Modul wurde so konfiguriert, dass es mehrere kritische Sensoren gleichzeitig analysiert und die √Ąnderungen der Trends automatisch erkennt und √ľbernimmt. Analysiert werden Temperaturen, Taktfrequenzen sowie Auslastung von CPU, GPU, RAM und Speicherkomponenten. E-Mail Benachrichtigungen f√ľr unerwartete Events wurden ebenfalls eingerichtet.

Projektergebnis

Ein Echtzeit-Monitoring Tool mit einem selbstlernenden Modell zur Erkennung von Anomalien wurde implementiert. Es wurde so konfiguriert, dass es bei unerwarteten Ereignissen automatisch E-Mail Alerts versendet. So kann die Nutzung des Deep Learning Server Clusters optimiert werden.

Kategorie

Mechanical Engineering
Predictive Maintenance

Technologien

Elastic Stack
Anomaly detection
Reinforcement Learning

Download

Social Sharing

Weitere Use Cases dieser Kategorie

Alle Use Cases im √úberblick

Kontakt

Stefanie Supper
CEO