Der Schwerpunkt des Projekts bestand darin, die Graph-Daten für das Training von Machine Learning Modellen zu nutzen. Aus diesem Grund wurden verschiedene Szenarien für Datenexport, -import und automatisierte Verarbeitungspipelines erstellt. In diesem Prozess wurde das gesamte Graph-Schema und die Inhalte gegen die ursprüngliche SQL-Datenbank verglichen und validiert, um zusätzliche Optimierungsansätze abzuleiten. Auch verschiedene Optionen zur Erweiterung des Graph-Schemas mit zusätzlichen Daten für weitere Analysen wurden evaluiert. Insbesondere die Integration von Wetterdaten, die in der SQL-Datenbank nicht abgedeckt wurden, war ein Ziel für dieses Projekt.
Es sollte dabei eine effiziente Möglichkeit geschaffen werden, Daten aus dem Graphen zu extrahieren und über Python- und R-Entwicklungsumgebungen zurückzuschreiben. Somit sollen Machine Learning Modelle dynamisch trainiert und auf die Daten des Graphen angewendet werden.
The neo4j graph is fed by an SQL database and should be used for flexible queries to forward data to development environments.