Mám potíže pochopit, proč všechny hodnoty při volání predict_proba
funkce v xgboost knihovna v pythonu jsou v poměrně úzké rozmezí hodnot, a to i přesto, že model AUC na testovací sada je dost dobré pro problém (0.78).
Jak můžete vidět, rozptyl je nízká a výsledky jsou docela blízko kolem 50% mark.
Test velikost je přibližně 15% z dostupných dat (5000 pozorování).
Já používám následující parametry:
{'colsample_bytree': 0.5, 'gamma': 2, 'learning_rate': 0.01, 'max_depth': 8, 'min_child_weight': 10,
'n_estimators': 10, 'scale_pos_weight': 7}
Jsem něco chybí tady?