Zur Analyse der Texte werden diese in eine Liste von „Token“ (Einzelwörter) umgewandelt, bezeichnet als „Word Embedding“. Drei verschiedene Word Embedding Methoden wurden hierfür verwendet: Bag of Words, TF-IDF und Word2Vec (einschließlich eines vortrainierten Word2Vec von Google und eines selbsttrainierten Word2Vec). Für die anschließende Klassifizierung wurden drei Maschinenlernalgorithmen verwendet und weiter verglichen: logistische Regression, zufällige Waldklassifizierung und Support-Vektor-Maschinen-Klassifizierung. Zudem wurde BERT, ein umfassendes NLP Framework von Google, für das Word-Embedding und die Modellierung eingesetzt.