Supper & Supper GmbH - The Data Engineers
Data Engineers
Use Cases
Entwicklung des „Product Finders“ für einen Generika-Hersteller
durch die Verwendung von Web Crawling, Text Mining und Power BI

Projektziel

Das Ziel des Projektes war die Entwicklung eines Tools namens „Product Finder“. Mit diesem sollen unter Berücksichtigung der Patentlaufzeiten Wirkstoffe, Anwendungsgebiete und pharmazeutische Produkte leicht identifizierbar gemacht und zur Pipeline der Entwicklung eines Generika-Herstellers hinzugefügt sowie die Marktattraktivität der potentiellen Wirkstoffe bestimmt werden.
 
Eine benutzerfreundliche Bedienoberfläche in Form eines Dashboards sollte die gewonnenen Informationen visualisieren.

Datensätze

Die rund 1.250 Einträge der Datenbank der European Medicines Agency (EMA)¹ wurden durch den dafür programmierten Webcrawler aus mehreren Unterseiten zusammengetragen und bildeten den ersten verfügbaren Datensatz.
 
Als zweiter Datensatz für den „Product Finder“ diente Datenbank der U.S. Food and Drug Administration (FDA)² , welche als CSV-Datei zum Download zur Verfügung stand, mit ca. 95.000 Einträgen.
 
Ein weiterer Datensatz war das Ergebnis des Text Minings auf die beiden Datensätze und umfasste die wichtigsten Schlagworte.

Herausforderungen & Lösungen

Zuerst wurden die Daten der EMA-Datenbank durch Webcrawling ausgelesen und zu einem strukturierten Datensatz zusammengefügt. Durch Text Mining wurden aus dem EMA-Datensatz die wichtigsten Schlagworte zu den Medikamentenbeschreibungen gewonnen.
 
Eine der größten Herausforderungen war die Qualität der FDA-Datenbank. Data Cleaning und Wrangling sorgten dafür, dass die Daten in der Dashboard-Anwendung nutzbar wurden.
 
Die FDA- und EMA-Datenbanken wiesen eine unterschiedliche Granularität auf. Die beiden Datensätze konsolidierten wir in einen Datensatz, indem wir Filter, Sortierungen und Mapping Algorithmen verwendeten, damit diese besser in Power BI integriert werden konnten.
 
Außerdem ermittelten wir die Marktattraktivität der einzelnen Medikamente: wir nahmen an, dass ein Wirkstoff attraktiver wird, je weniger Generika in einem bestimmten Anwendungsgebiet existieren – je geringer dieses Verhältnis, desto höher die Attraktivität.

Projektergebnis

Der „Product Finder“ unterstützt Generika-Hersteller bei der Suche nach auslaufenden Medikamentenpatenten und identifiziert potentiell zur Entwicklungs-Pipeline hinzufügbare pharmazeutische Wirkstoffe und Generika.
 
Die Daten werden in einem benutzerfreundlichen, dynamischen Dashboard präsentiert. Je nach individuellem Anwendungsfall können unterschiedliche Dashboards ausgewählt und angezeigt werden. Dynamische Filter ermöglichen u. a. eine aktuelle Liste mit bald auslaufenden Patenten zu extrahieren, Drilldowns weitere Details eines Wirkstoffs unterhalb der Tabelle abzubilden oder für einen Hersteller alle Anwendungsgebiete und Produkte anzuzeigen. Im „Product Finder“ können Sie so die Aktivitäten Ihrer Wettbewerber beobachten.
 
Aufgrund der technischen Flexibilität des „Product Finders“ können je nach Kundenwunsch zusätzliche oder andere Datenbanken eingebunden sowie weitere Dashboards ergänzt werden.
 
 
Quellen:
1 European Medicines Agency: European public assessment reports. Human medicines. http://www.ema.europa.eu/ema/index.jsp?curl=pages/medicines/landing/epar_search.jsp&mid=WC0b01ac058001d124 Juli 2018.
2 U.S. Food and Drug Administration: Medical Device Databases. https://www.fda.gov/medicaldevices/deviceregulationandguidance/databases/default.htm Juli 2018.