Das “random forest” Verfahren erzielte eine Genauigkeit von 99,7 % und 99,3 %.
Mit Hilfe der “random forest”- Methode haben wir die Bedeutung der verwendeten Variablen beider Datensätze ermittelt. Für den ersten Datensatz waren die Mittelwerte der drei größten Werte entscheidend für die Vorhersage. Es war bemerkenswert, dass das Mitosestadium des zweiten Datensatzes keine Rolle für die Vorhersage spielte.
Die “logistic regression”- Methode wurde in beiden Fällen mit einer Genauigkeit von 99,6% durchgeführt. Die Konfusion Matrix, basierend auf dem optimierten F1-Score wurden gespeichert. Die falsche Prognose eines gutartigen Tumors anstelle von bösartig wurde höher eingestuft.
Der Grenzwert der Konfusion Matrix entsprach der Zahl, ab der die Vorhersage positiv war. Die Werte wurden auf 0,475 und 0,25 gesetzt.