Automatisierte und nutzerfreundliche Pipeline zur Analyse landwirtschaftlicher Feldversuche

ein Supper & Supper Use Case

Projektziel

Ziel dieses Projekts war es ein Tool zu entwickeln, das eine allumfassende automatische Pipeline für die Analyse landwirtschaftlicher Daten beinhaltet. Diese Pipeline soll verschiedene Datenbanksysteme, Visualisierungswerkzeuge, Training von maschinellen Lernmodellen und statistische Inferenz integrieren. Das Werkzeug ermöglicht es Personen mit nicht-technischem Hintergrund, neue Analysen zu initialisieren und soll das Treffen von Geschäftsentscheidungen erleichtern.

Herausforderungen

Die größte Herausforderung bestand darin, die verschiedenen Datenverarbeitungswerkzeuge zu kombinieren. Die Realisierung erforderte ein breites Wissen über Datenspeicherung, Datenextraktion, Datenladen und Datenanalysetechniken. Die zweite Herausforderung war das Interface Design. Das Tool ist in erster Linie für Nicht-Technik-Anwender konzipiert. Daher musste es gut dokumentiert sein und erforderte eine intuitive, benutzerfreundliche Schnittstelle.

Angewandte Methoden (Umsetzung)

Interface Design: Die Benutzerschnittstelle wurde in R-shiny erstellt, einer interaktiven Webanwendung (App) direkt aus R. Über die Webschnittstelle können Benutzer die Daten visuell erforschen und grafische und statistische Ausgaben für verschiedene Anwendungsfälle erzeugen, ohne eine einzige Zeile Code schreiben zu müssen.
Datenextraktion– und Wrangling: Da die Rohdaten strukturiert gespeichert werden, kann das entwickelte Tool die benötigten Daten automatisch aus angeschlossenen relationalen Datenbankverwaltungssystemen, einem Neo4j-Knowledgegraph und verschiedenen Webdiensten beziehen. Das Data Wrangling und Zusammenführung der Daten wurde in R mit Paketen wie dplyr, tidyr und stringr realisiert.
Datenvisualisierung: Durch die Integration einer JavaScript-Bibliothek generiert das Tool interaktive Karten, welche die Versuchsstandorte und damit verbundene Informationen wie Wetterdaten, Bodeninformationen und weitere Metadaten anzeigen.
Statistisches Modelltraining: Für die Modelle werden Random Forest und XGBoosting verwendet. Der Benutzer erhält einen Überblick über die Leistungsfähigkeit des Modells (R²), die Bedeutung der verschiedenen Faktoren und Einflüsse einzelner Faktoren sowie die Stärke der Wechselwirkung zwischen den Faktoren.

Projektergebnis

Das entwickelte Tool wurde erfolgreich implementiert und wird Produktmanager in ihrer operativen Arbeit unterstützen. Es bietet einen leicht zugänglichen Überblick über alle Studieninformationen zu einem Produkt und ermöglicht es, die wichtigsten Faktoren für eine erfolgreiche Produktanwendung und eine hohe Wirksamkeit herauszufinden. Die Daten werden in interaktiven, benutzerfreundlichen Dashboards präsentiert.