Zuerst wurden die Daten der EMA-Datenbank durch Webcrawling ausgelesen und zu einem strukturierten Datensatz zusammengefügt. Durch Text Mining wurden aus dem EMA-Datensatz die wichtigsten Schlagworte zu den Medikamentenbeschreibungen gewonnen.
Eine der größten Herausforderungen war die Qualität der FDA-Datenbank. Data Cleaning und Wrangling sorgten dafür, dass die Daten in der Dashboard-Anwendung nutzbar wurden.
Die FDA- und EMA-Datenbanken wiesen eine unterschiedliche Granularität auf. Die beiden Datensätze konsolidierten wir in einen Datensatz, indem wir Filter, Sortierungen und Mapping Algorithmen verwendeten, damit diese besser in Power BI integriert werden konnten.
Außerdem ermittelten wir die Marktattraktivität der einzelnen Medikamente: wir nahmen an, dass ein Wirkstoff attraktiver wird, je weniger Generika in einem bestimmten Anwendungsgebiet existieren – je geringer dieses Verhältnis, desto höher die Attraktivität.