Viele der Sensordaten zeigten Lücken auf und ein Umgang mit diesen Werten musste gefunden werden. Bei der Evaluierung der Modellpräzision muss eine differenzierte Gewichtung der Fehlvorhersagen vorgenommen werden. Einen tatsächlichen Defekt des pneumatischen Systems nicht vorherzusagen ist weitaus kritischer, als ein Fehlalarm, der lediglich zu unnötigen Wartungskosten führt. Eine entsprechende Priorisierung zur Vermeidung von nichtvorhergesagten Defekten innerhalb des Modells ist daher notwendig.
Das Verhältnis der Daten von defekten pneumatischen Systemen und intakten Systemen ist sehr unausgeglichen (1.000:59.000), was in der Vorhersage zu einer zu großen Fokussierung auf intakte Systeme führt. Um die Verteilung und den Informationsgehalt der Sensordaten nicht zu verzerren, wurden fehlende Werte mit den entsprechenden Mittelwerten ersetzt. Da die Sensordaten sehr unterschiedliche Wertebereiche aufwiesen, wurde eine Normalisierung durchgeführt. Darüber hinaus fanden das Bootstrapping-Verfahren und eine entsprechenden Klassengewichtung innerhalb des Modells Anwendung.
In einem Modellauswahlprozess wurden verschiedene Algorithmen bezüglich ihrer Vorhersagekraft beurteilt: Logistische Regression, Random Forest Classifier, Support Vector Classifier, Quadratic Discriminant Analysis (QDA) und Neuronale Netze. Die QDA verpasste deutlich weniger Defekte in der Vorhersage.