Anomalie-Erkennung an Sensordaten

ein Supper & Supper Use Case

Der Kern des Projektes ist es Anomalien im Verhalten eines Deep Learning Development Server Clusters anhand von Sensordaten zu identifizieren. Der Cluster besteht aus High-End GPU Servern, die dazu benutzt werden große Datenmengen im Rahmen von Deep Learning Projekten zu prozessieren. Durch lange Berechnungsdauern ist der Cluster eine Engpassressource. Um die Ausnutzung des Clusters besser planen zu können und Benachrichtigungen beim Start von großen Batch-Prozessen zu erhalten, war ein geeignetes Monitoring-System, mit integrierter Erkennung von Anomalien notwendig. So können Abweichung vom normalen Verhalten des Clusters erkannt und automatisierte E-Mail Benachrichtigungen versandt werden.

Für jeden Server werden sekündlich 58 Datenpunkte verschiedenster Sensoren aufgezeichnet und jeweils in eine CSV-Datei gespeichert. Die Sensoren erfassen verschiedene Leistungskennzahlen der Hardwarekomponenten. Mit der Speicherauslastung, Temperaturen, Taktfrequenzen und dem Energieverbrauch werden alle wichtigen Aspekte zum Clusterzustand und Auslastungen abgedeckt.

Das Machine Learning-Modell muss Trends und Saisonalitäten berücksichtigen und unerwartete Trendveränderungen oder Ausreißer erkennen. Der Algorithmus muss also in der Lage sein den Trend eigenständig zu erkennen und sich dahingehend anzupassen.

Wegen seiner Skalierbarkeit wurde der Elastic-Stack als Analyseumgebung gewählt. Mit dem Logstash-Modul können Datenströme in Echtzeit direkt in den Elasticsearch-Cluster geladen werden. Die eigentliche Analyse findet im Machine Learning Modul, in der Erweiterung X-Pack von Kibana statt.

Um die Log-Daten direkt verfügbar zu machen, wurde eine direkte Netzwerkfreigabe zu den entsprechenden Dateipfaden konfiguriert. Die aktuellsten Sensordaten sind somit in weniger als einer Sekunde Verzögerung bereit zur Analyse.

Das Machine Learning-Modul wurde so konfiguriert, dass es mehrere kritische Sensoren gleichzeitig analysiert und die Änderungen der Trends automatisch erkennt und übernimmt. Analysiert werden Temperaturen, Taktfrequenzen sowie Auslastung von CPU, GPU, RAM und Speicherkomponenten. E-Mail Benachrichtigungen für unerwartete Events wurden ebenfalls eingerichtet.

Ein Echtzeit-Monitoring Tool mit einem selbstlernenden Modell zur Erkennung von Anomalien wurde implementiert. Es wurde so konfiguriert, dass es bei unerwarteten Ereignissen automatisch E-Mail Alerts versendet. So kann die Nutzung des Deep Learning Server Clusters optimiert werden.

Kategorie

→  MECHANICAL ENGINEERING
→  Predictive Maintenance

Technologien

Elastic Stack
Anomaly detection
Reinforcement Learning

Download

Social Sharing

Weitere Use Cases dieser Kategorie