Supper & Supper GmbH - The Data Engineers
Data Engineers

Die Data Engineers helfen Ihnen, komplexe Geschäftsherausforderungen mit Daten-Technologien, Algorithmen und dem richtigen Mindset zu bewältigen.
Wir unterstützen Sie dabei, hoch-volumige, digitale Geschäftsprozesse durch den Einsatz von Data Mining und Machine Learning autonom und effizient zu bewältigen und befähigen so Ihre Organisation, die Data Transformation aktiv zu gestalten. Damit schaffen wir mit Data Science-Technologien die Basis für mehr Absatz und nachhaltige Kundenbindung.

 

Laden Sie hier unsere komplette Service-Portfolio-Broschüre herunter.

Data Engineers - Supper & Supper GmbH

Data Consulting

Data vision

Am Anfang steht die Formulierung Ihrer Data Vision: Wir definieren, wohin Sie Ihre Data Transformation führen soll. Dieses „Big Picture“ dient als Leitfaden für Ihre Organisation im digitalen Wandel und unterstützt Sie in der Kommunikation auf allen Ebenen Ihres Unternehmens.

Data Strategie

Status Quo und Anforderung-Assessment

Im Status Quo und Anforderungs-Assessment erfahren Sie von uns die wichtigsten Grundlagen zu Big Data, Machine Learning, Data Science, Data Engineering und Data Operations. Wir ermitteln außerdem Ihren momentanen Wissensstand, Ihre aktuellen Fähigkeiten und Ihre derzeitige Daten-Architektur und bilden so das Fundament für Ihre Data Transformation.

Von der Use Case Pipeline zur Roadmap

Wir übersetzen Ihre Geschäftsprozesse in datengetriebene Fragestellungen und befüllen Ihre Use Case Pipeline. Die Use Cases werden priorisiert und in eine Roadmap eingebracht. So erstellen wir einen konkreten Umsetzungsplan, was wann implementiert werden soll und wie die Organisation mit der Veränderung schritthalten kann.

Data Operating Model

Im Data Operating Model legen wir die Grundlage für eine geeignete Organisationsstruktur, definieren beteiligte Prozesse und Rollen, formulieren die Data Governance, erstellen ein Datensicherheitskonzept und skizzieren Ihre zukünftige IT Landschaft.

Transformation Management

Wir begleiten Ihre Organisation im digitalen Wandel. Unsere Toolbox beinhaltet: Erstellen einer geeigneten Kommunikationsstrategie und Ihre Umsetzung, Hackathons, Workshops, Roadshow, Challenges und Data Science Trainings. So schaffen wir das nötige Bewusstsein auf allen Unternehmensebenen, um Ihre Data Transformation zu ermöglichen.

Data Engineers - Supper & Supper GmbH

Data Lab

Vom Konzept zum Prototyp

Im Data Lab werden maßgeschneiderte, robuste Data Mining und Machine Learning Prototypen entwickelt, die anschließend in den realen Geschäftsbetrieb überführt werden können.

 

Wir bilden zunächst Hypothesen zu Ihrem Use Case und analysieren daraufhin Ihre Daten. So entwickeln wir aus Ihrem geschäftsprozess-getriebenen Use Case ein datenanalytisches Konzept.
Danach setzen wir eine Testumgebung mit Ihren Daten auf und erforschen Ihren Use Case. An dieser Stelle haben sich Workshops und Hackathons bewährt, in denen wir ermitteln, ob Ihr Use Case umsetzbar ist. Wir implementieren dabei je nach Bedarf AI, Deep/Machine Learning, Realtime Predictive Analytics und Sie erhalten so einen Proof-of-Concept und eine Validierung Ihrer Daten.

 

In einer Testumgebung implementieren wir nun die erste Version Ihrer Big-Data App. Wir arbeiten mit Ihren Daten und Sie erhalten dadurch realistische Ergebnisse. Am Ende steht ein validierter Data Mining/Machine Learning Prototyp, der für Ihre Anwender den ersten Nutzen generiert.

Data Engineers - Supper & Supper GmbH

Data Operations

Vom Prototyp zum Data Mining/Machine Learning Produkt

Nun verlassen wir das Data Lab und bringen die dort entstandenen Applikationen in eine produktive Betriebsumgebung. Wir implementieren die Prototypen in Ihrer Organisation und machen die Apps im Rahmen der weiteren Industrialisierung einer großen Benutzerbasis zugänglich.

 

Dies gelingt am besten, indem wir zunächst mit einem Piloten beginnen und ein Minimum Viable Product implementieren. Wir skalieren die Applikationen auf immer mehr Nutzer und Daten und bringen Sie auf eine geeignete IT Plattform, die Stabilität, Verfügbarkeit, Datensicherheit und Performance garantiert.

 

Wir verbinden durch DevOps Betrieb und Weiterentwicklung und implementieren so eine Continuous-Delivery-Pipeline, die unsere Applikationen ständig auf Grundlage von Benutzer Feedback verbessert. Es entstehen stabile und robuste Data Mining/Machine Learning Produkte, die einen reibungslosen Betrieb gewährleisten und dauerhaft zu Ihrem Geschäftserfolg beitragen.

Data Engineers - Supper & Supper GmbH

Data Infrastructure

Beim Aufbau Ihrer Data Infrastructure unterstützen wir Sie bei Installation, Konfiguration, Wartung und Betrieb. Wir helfen Ihnen bei der Fehleranalyse und beim Troubleshooting und beraten Sie welches Produkt für Ihre Organisation am sinnvollsten einzusetzen ist. Selbstverständlich beinhaltend dies auch Sizing-Empfehlung für Ihre Hardware und Beratung zur Gestaltung Ihrer ETL- und Data Warehousing Lösung. Wir entwerfen Security-Konzepte, implementieren diese in Ihrer IT-Systemlandschaft und führen für Sie Daten- und Servermigration von Altsystemen durch.
Wir unterstützen folgende Technologien:

  • Umgebungen: Public Cloud, Private Cloud und Rechenzentrumsbetrieb

  • Betriebssystem / Backend: Linux (Debian, Ubuntu LTS, RHEL, CentOS, …), Windows Server ab 2008

  • Datenbanken: alle gängigen Datenbanksysteme (Oracle, SQL Server, PostgreSQL, MongoDB, MariaDB, Elasticsearch, …)

  • Big Data Technologien: Best-Practice Lösungen, wie Apache Hadoop / Spark / Hive, Cloudera,  …

  • Security: Verschlüsselung der Daten auf allen Speichermedien (state-of-the-art Technologien) und beim Datentransfer (in L2TP (over), IPSec, VPN)

  • Firewalls: Herstellerunabhängige Beratung bei der Auswahl und Konfiguration Ihrer Firewall

Data Engineers - Supper & Supper GmbH
Anwendungsfall 1:
Ertragsvorhersage von Hybriden

Laden Sie hier unseren kompletten Anwendungsfall zur Ertragsvorhersage von Hybriden herunter.

Supper & Supper GmbH

Projektziel

Projektziel war es, eine Prognose zu erstellen, wie sich hybrider Mais an neuen Standorten unter variierenden Umweltbedingungen verhält. Auf Basis der bereitgestellten Daten sollte ein Modell kreiert und trainiert werden, um die Maiserträge vorherzusagen. Anschließend sollte es auf neue Kombinationsmöglichkeiten von Hybridmais und -orte angewandt werden.

Supper & Supper GmbH

Datensätze

Es wurden mehrere Datensätze zur Verfügung gestellt, die insgesamt eine Zeitspanne von 15 Jahren für mehr als 2.000 Hybridtypen und Standorte sowie genetische Marker, Boden- und Wetterparameter abbildeten.

Supper & Supper GmbH

Herausforderungen & Lösungen

Für jeden zur Verfügung gestellten Datensatz wurde eine gründliche Analyse durchgeführt. Ausreißer innerhalb verschiedener Standorte wurden durch überlappende geographische Daten, Klimainformationen und eine Vielzahl von Events identifiziert. Die Ausreißer wurden dann entfernt.

 

Der genetische Datensatz wies eine große Schnittmenge auf. Deshalb konnte die Dimensionalität des Datensatzes ohne Informationsverlust signifikant reduziert werden.

 

Durch die Kombination von verschiedenen Raum-Zeit-Modellen war es möglich, das Wetter mit einer Genauigkeit von 95 % vorherzusagen.

 

Der reduzierte Datensatz des genetischen Materials, die Wetter-, Boden- und Ertragsdaten wurden in einen Datensatz zusammengefasst und als Trainingssatz für das Model verwendet. Mittels verschiedener Algorithmen wurde die Hybrid-Leistung mit einer Genauigkeit von 75 % vorausgesagt.

Supper & Supper GmbH

Projektergebnis

Das Modell wurde erfolgreich für die neuen Hybride an 20.000 neuen Standorten angewandt. Damit konnte die leistungsfähigste Spezies für das Jahr 2017 bestimmt werden.

Supper & Supper GmbH - The Data Engineers
Anwendungsfall 2:
Deep Learning Thorax-Röntgen-bilder

Laden Sie hier unseren kompletten Anwendungsfall zu Thorax-Röntgen-Bildern herunter.

Supper & Supper GmbH

Projektziel

Projektziel war die Entwicklung eines computergestützten Erkennungs- und Diagnose-Algorithmus (CAD), der mögliche Typen von Thorax-Erkrankungen in Bruströntgenbildern identifiziert. Radiologen können so bei der Analyse der Röntgenbilder und der Krebsdiagnose unterstützt werden.

 

Das entwickelte Modell sollte so auffällige Bereiche in den Röntgenbildern hervorheben und eine Klassifikation für Brusterkrankungstypen liefern.

Supper & Supper GmbH

Datensatz

Das Projekt basiert auf einem Training-Datensatz von 100.000 anonymisierten Brust-Röntgenbildern und den entsprechenden Diagnosetypen.

Supper & Supper GmbH

Herausforderungen & Lösungen

Zuerst wurden die Röntgenbilder bearbeitet, sodass die Farbunterschiede kohärent zum Röntgenbildersatz waren und die auffälligen Bereiche besser hervorgehoben werden konnten.

 

Im Rahmen der Feature-Verarbeitung wurden Algorithmen angewandt, die die wesentlichen Eigenschaften aus den Röntgenbildern in verschiedenen Farb-Clustern gruppierten. Diese ermöglichten die Hervorhebung und Identifizierung der auffälligen Bereiche.

 

Basierend auf den extrahierten Features wurden die relevanten Charakteristika (wie Größe, Orientierung, Form und Lage) der verschiedenen Diagnosetypen ausgewählt. Dies ermöglicht eine geeignete Diagnoseklassifizierung.

 

Nach der Extrahierung und Auswahl der wichtigen Eigenschaften der Röntgenbilder wurden Machine und Deep Learning Algorithmen angelernt, um die auffälligen Bereiche in den Röntgenbildern zu erfassen und je nach gewählter Eigenschaft einem Diagnosetyp zu klassifizieren.

Supper & Supper GmbH

Projektergebnis

Das Deep Learning und Bildverarbeitungs-Framework wurden erfolgreich im Röntgendatensatz angewandt und kann Radiologen bei der Identifizierung der verdächtigen Bereiche unterstützen, sowie eine Entscheidungshilfe bei der Diagnose geben.

Supper & Supper GmbH - The Data Engineers
Anwendungsfall 3:
Raum-Zeit-Analyse von CO2-Emissionen

Laden Sie hier unseren kompletten Anwendungsfall zur Raum-Zeit-Analyse von CO2-Emissionen herunter.

Supper & Supper GmbH

Projektziel

Im Rahmen der Verhandlungen zum globalen Klimawandel spielt das Monitoring und Reporting der CO2-Emissionen eine entscheidende Rolle. Das aktuelle System bezieht sich jedoch auf nichtstandardisierte und nur auf Industrie-Statistiken basierende, nationale Berichte. Dies hat nicht validierbare Schätzungen der nationalen CO2-Emissionen zur Folge.

 

Ziel dieses Projekts war es daher, alternative Methoden zu identifizieren, die globale CO2-Emissionen quantifizierbar und objektiv validierbar machen.

Supper & Supper GmbH

Datensätze

Der verwendete Hauptdatensatz beinhaltet die Messungen der CO2-Oberflächenkonzentrationen, die durch den Greenhouse Gases Observing Satellite (GOSAT) gewonnen wurden, und umfasst die überwiegende Landmasse von Europa und Asien, vgl. Abb. 1 zur Darstellung der Oberflächen-CO2-Konzentration für Dezember 2009.

Abbildung 1: CO2-Oberflächenkonzentration aus Satellitenmessungen

Als zusätzliche Datensätze dienten NASA-Satelliten-Messungen der Vegetationsindizes (s. Abb. 2 Messungen der lokalen Biomassen mit hoher Dichte in roten Bereichen), Bevölkerungsdichte, Kohlenstoffmonoxid und Stickstoffdioxid.

Abbildung 2: Vegetationsindex (NDVI) aus Satellitenbild

Supper & Supper GmbH

Herausforderungen & Lösungen

Die erste Herausforderung adressiert die hohe Dimensionalität in Raum und Zeit, die schnell zu Engpässen in der Rechenleistung führt. Dies wurde mit Ansätzen zur Approximation gelöst, die den Trade-Off zwischen Vorhersageleistung und Rechenanforderung analysieren.

 

Die zweite Aufgabe war die Erstellung eines Modell-Frameworks für die CO2-Konzentrationen, das eine Raum-Zeit-Vorhersage mit sehr niedriger Datendichte erlaubt und diese Korrelationsstruktur innerhalb der Daten verwendet. Mittels statistischer Modellierung wurden so die Raum-Zeit-Dynamiken erfasst.

 

Die Hauptherausforderung war die Ableitung der CO2-Quellen und -Senken und die Bestimmung, wieviel CO2 durch Menschen ausgestoßen wurde und wie hoch die Abweichung in der CO2-Oberflächenkonzentration aufgrund der Vegetation ist. Der gesamte Kohlenstoffzyklus inklusive der saisonal variierenden Vegetation wurde in das Modell integriert.

 

Letztlich war es möglich, die menschlich verursachten CO2-Emissionen zu quantifizieren (s. Abb. 3 Veranschaulichung der Hotspots der CO2-Emission in urbanen Industriegebieten, insbesondere in China und Korea).

Supper & Supper GmbH

Projektergebnis

Es wurde ein alternativer Ansatz zum bestehenden Monitoring- und Reporting-System der CO2-Emissionen entwickelt. Dieser ist in der Lage, den CO2-Konzentrationsprozess effizient global abzubilden, den gesamten terrestrischen Kohlenstoffzyklus und die auf objektiven Satellitenmessungen basierenden CO2-Emissionen zu erfassen.

Data Engineers - Supper & Supper GmbH
Anwendungsfall 4:
Die Döner-Challenge – Räumliche Optimierung von Verkaufsnetzwerken
Supper & Supper GmbH

Projektziel

Der richtige Standort sowie die Identifikation der Wettbewerbslage und der Zielgruppe entscheiden für Unternehmer besonders über den wirtschaftlichen Erfolg.

 

Hauptziel unseres nicht ganz ernst gemeinten Use Cases, der unsere Capability in räumlicher Optimierung aufzeigt, war die Erstellung einer Standort-Prognose. Auf Grundlage eines fiktiven Beispiels sollten für einen Unternehmer, der sich neu im Döner-Geschäft etablieren möchte, Standorte gefunden werden, die besonders viele hungrige Nachtclub-Besucher anziehen.

 

Als Forschungsort wurde mit Berlin nicht nur der Hauptsitz der Supper & Supper GmbH, sondern gleichzeitig auch die offizielle Döner-Hauptstadt gewählt.

 

Es sollten die Gebäude identifiziert werden, die in unmittelbarer Nähe von Clubs leer stehen und für den Unternehmer erwerbbar sind, sodass dieser nach Markteintritt mit seinem neuen Döner-Geschäft wenigstens ein Viertel des Marktanteils erreichen kann.

Supper & Supper GmbH

Datensätze

Der erste Datensatz umfasste die Koordinaten von leer stehenden Immobilien in Berlin. Ein weiterer beinhaltete die Positionen anderer Döner-Läden und schließlich ein dritter Datensatz erfasste die Koordinaten der Berliner Nachtclubs.

Supper & Supper GmbH

Angewandte Methoden

Es handelt sich bei diesem beispielhaften Use Case um eine räumliche Optimierungsaufgabe. Im Rahmen des Lösungsprozesses wurde die Geoinformationssystem-Software ArcGIS angewandt.

 

Es galt daher die Zielfunktion zu optimieren, um so den Marktanteil zu bestimmen. Dies geschah unter Berücksichtigung der folgenden Parameter:

  • definiertes Budget für den Immobilienerwerb,
  • Lage und Entfernung der Immobilie zu den Nachtclubs,
  • Lage und Entfernung der Immobilie zu konkurrierenden Döner-Läden und
  • Marktmacht der Konkurrenz.

 

In ArcGIS wurden abschließend all jene Döner-Läden identifiziert, die das Optimum aus diesen Parametern darstellten.

The Kebab Challenge - Spatial Optimization of Sales Networks

Abbildung 1 Räumliche Verteilung von leer stehenden Immobilien, Nachtclubs und Konkurrenzgeschäften in Berlin

Supper & Supper GmbH

Projektergebnis

Mit diesem Modell konnten erfolgreich zwei Standorte - in Friedrichshain und in Moabit - als potentielle Döner-Läden in Berlin bestimmt werden. Durch die Identifikation von leer stehenden Immobilien in Kombination mit den Vorgaben des Unternehmers kann dieser mit nur zwei Käufen ad hoc ein Verkaufsnetzwerk mit einen Marktanteil von 30 % erreichen.

Data Engineers - Supper & Supper GmbH
Anwendungsfall 5:
Vorhersage von Prüfstandzeiten für variierende Automobilkonfigurationen durch Machine Learning
Supper & Supper GmbH

Projektziel

Ziel des Projektes war es ein Modell zu entwickeln, das präzise die Testzeit bestimmt, welche ein Fahrzeug in der jeweiligen Konfiguration auf dem Prüfstand verbringen wird, sodass die künftige Planbarkeit der Prüfstandbelegungen optimiert werden kann.

Supper & Supper GmbH

Datensätze

Der Trainingsdatensatz beinhaltete 4.200 Fahrzeugkonfigurationen mit den zugehörigen Testzeiten sowie 400 Features.

 

Der Testdatensatz umfasste 4.200 neue Fahrzeugkonfigurationen mit den gleichen Features. Jedoch fehlten hier die entsprechenden Testzeiten.

Supper & Supper GmbH

Herausforderungen & Lösungen

Die erste Herausforderung lag darin, dass für die große Anzahl an Features verhältnismäßig wenige Datenpunkte zur Verfügung standen und daher mittels Dimension Reduction zunächst die wichtigsten Features bestimmt werden mussten. Im Vergleich mit anderen Datenanalyse-Techniken, gelang es mit der Multiple Correspondence Analysis (MCA) ohne Informationsverlust die 400 Features auf insgesamt lediglich 14 zu reduzieren. Daher diente diese anschließend als Basis für das zu entwickelnde Machine Learning-Modell.

 

Die zweite Herausforderung stellte die Wahl des geeignetsten Regressionsalgorithmus dar, da sich anwendbare Algorithmen in ihrem Grundsatz ähneln. Der Trainingssatz wurde mittels Cross Validation gesplittet. Nach dem Parameter-Tuning des gewählten Algorithmus konnte eine Vorhersage für den ursprünglichen Testdatensatz vorgenommen werden.

Mangels Daten konnten zudem externe Störfaktoren nicht im Machine Learning Modell berücksichtigt werden.

Supper & Supper GmbH

Projektergebnis

Mit dem entwickelten Machine Learning-Modell ist es möglich, die Prüfstandzeiten für alle Fahrzeugkonfigu-rationen vorherzusagen. Damit können die Testzyklen künftig effizienter ablaufen und sowohl Belegung als auch Taktung der Prüfstände noch besser optimiert werden.

 

Außerdem wurden die Treiber identifiziert, die einen Einfluss auf die Testzeitlänge eines Fahrzeugs haben.

Supper & Supper GmbH - The Data Engineers
Anwendungsfall 6:
Entwicklung des „Product Finders“ für einen Generika-Hersteller durch die Verwendung von Web Crawling, Text Mining und Power BI
Supper & Supper GmbH

Projektziel

Das Ziel des Projektes war die Entwicklung eines Tools namens „Product Finder“. Mit diesem sollen unter Berücksichtigung der Patentlaufzeiten Wirkstoffe, Anwendungsgebiete und pharmazeutische Produkte leicht identifizierbar gemacht und zur Pipeline der Entwicklung eines Generika-Herstellers hinzugefügt sowie die Marktattraktivität der potentiellen Wirkstoffe bestimmt werden.

 

Eine benutzerfreundliche Bedienoberfläche in Form eines Dashboards sollte die gewonnenen Informationen visualisieren.

Supper & Supper GmbH

Datensätze

Die rund 1.250 Einträge der Datenbank der European Medicines Agency (EMA)¹ wurden durch den dafür programmierten Webcrawler aus mehreren Unterseiten zusammengetragen und bildeten den ersten verfügbaren Datensatz.

 

Als zweiter Datensatz für den „Product Finder“ diente Datenbank der U.S. Food and Drug Administration (FDA)² , welche als CSV-Datei zum Download zur Verfügung stand, mit ca. 95.000 Einträgen.

 

Ein weiterer Datensatz war das Ergebnis des Text Minings auf die beiden Datensätze und umfasste die wichtigsten Schlagworte.

Supper & Supper GmbH

Herausforderungen & Lösungen

Zuerst wurden die Daten der EMA-Datenbank durch Webcrawling ausgelesen und zu einem strukturierten Datensatz zusammengefügt. Durch Text Mining wurden aus dem EMA-Datensatz die wichtigsten Schlagworte zu den Medikamentenbeschreibungen gewonnen.

 

Eine der größten Herausforderungen war die Qualität der FDA-Datenbank. Data Cleaning und Wrangling sorgten dafür, dass die Daten in der Dashboard-Anwendung nutzbar wurden.

 

Die FDA- und EMA-Datenbanken wiesen eine unterschiedliche Granularität auf. Die beiden Datensätze konsolidierten wir in einen Datensatz, indem wir Filter, Sortierungen und Mapping Algorithmen verwendeten, damit diese besser in Power BI integriert werden konnten.

 

Außerdem ermittelten wir die Marktattraktivität der einzelnen Medikamente: wir nahmen an, dass ein Wirkstoff attraktiver wird, je weniger Generika in einem bestimmten Anwendungsgebiet existieren – je geringer

Supper & Supper GmbH

Projektergebnis

Der „Product Finder“ unterstützt Generika-Hersteller bei der Suche nach auslaufenden Medikamentenpatenten und identifiziert potentiell zur Entwicklungs-Pipeline hinzufügbare pharmazeutische Wirkstoffe und Generika.

 
Die Daten werden in einem benutzerfreundlichen, dynamischen Dashboard präsentiert. Je nach individuellem Anwendungsfall können unterschiedliche Dashboards ausgewählt und angezeigt werden. Dynamische Filter ermöglichen u. a. eine aktuelle Liste mit bald auslaufenden Patenten zu extrahieren, Drilldowns weitere Details eines Wirkstoffs unterhalb der Tabelle abzubilden oder für einen Hersteller alle Anwendungsgebiete und Produkte anzuzeigen. Im „Product Finder“ können Sie so die Aktivitäten Ihrer Wettbewerber beobachten.
 
Aufgrund der technischen Flexibilität des „Product Finders“ können je nach Kundenwunsch zusätzliche oder andere Datenbanken eingebunden sowie weitere Dashboards ergänzt werden.

Quellen:
1 European Medicines Agency: European public assessment reports. Human medicines. http://www.ema.europa.eu/ema/index.jsp?curl=pages/medicines/landing/epar_search.jsp&mid=WC0b01ac058001d124 Juli 2018.
2 U.S. Food and Drug Administration: Medical Device Databases. https://www.fda.gov/medicaldevices/deviceregulationandguidance/databases/default.htm Juli 2018.