Project Description

NLP – Verstehen wissenschaftlicher Sprache

Projektziel

Der Anwendungsfall beschreibt die Analyse von wissenschaftlichen Artikeln mit Natural Language Processing (NLP), um zwei verschiedene Arten von Genmutationen zu unterscheiden. Derzeit wird diese Klassifizierung von Genmutationen manuell vorgenommen. Wir haben einen Algorithmus entwickelt, um dies zu automatisieren.

Verwendetes Dataset

Verwendet wurde ein Trainingsdatensatz mit 3321 Samples und ein Testdatensatz mit 368 Samples. Die Trainingsdaten enthalten wissenschaftliche Volltextpublikationen samt zugehörigem Gen und Mutationsklasse. Die Gene sind in 9 verschiedene Mutationsklassen eingeteilt. Die Testdaten haben die gleiche Struktur wie die Trainingsdaten, jedoch ohne die Mutationsklasse.

Herausforderungen

Die Klassen der Trainingsdaten sind sehr unausgeglichen. Die Anzahl der Trainingsproben ist für eine 9-klassige NLP Klassifizierung insgesamt relativ gering. Die Verwendung vortrainierter Modelle könnte aufgrund der hohen Spezifität der wissenschaftlichen Literatur eingeschränkt sein.

Angewandte Methoden

Zur Analyse der Texte werden diese in eine Liste von „Token“ (Einzelwörter) umgewandelt, bezeichnet als „Word Embedding“. Drei verschiedene Word Embedding Methoden wurden hierfür verwendet: Bag of Words, TF-IDF und Word2Vec (einschließlich eines vortrainierten Word2Vec von Google und eines selbsttrainierten Word2Vec). Für die anschließende Klassifizierung wurden drei Maschinenlernalgorithmen verwendet und weiter verglichen: logistische Regression, zufällige Waldklassifizierung und Support-Vektor-Maschinen-Klassifizierung. Zudem wurde BERT, ein umfassendes NLP Framework von Google, für das Word-Embedding und die Modellierung eingesetzt.

Projektergebnis

Die Ergebnisse sind Vorhersagen über genetische Mutationsklassen, die auf wissenschaftlichen Artikeln basieren. Die Kombination aus selbst trainiertem Word2Vec und Random Forest Modell bietet die beste Leistung, da eine Genauigkeit von 63,5% erreicht wurde. Diese Informationen sind auch für eine Diagnose von Ärzten nutzbar. Auf diese Weise kann die Heilungswahrscheinlichkeit erhöht werden, indem eine rechtzeitige Behandlung durch die frühzeitige Erkennung von Krankheiten ermöglicht wird.

Natural Language Processing Project Result excerpt

Kategorie

NLP

Technologien

KI
BERT
tf-idf
Bag of Words

Download

Social Sharing

Weitere Use Cases dieser Kategorie

Alle Use Cases im Überblick

Kontakt

Stefanie Supper
CEO

Kontakt

Stefanie Supper
CEO