Proč jsem stále velmi malý rozptyl v predict_proba hodnoty v XGBoost?

0

Otázka

Mám potíže pochopit, proč všechny hodnoty při volání predict_proba funkce v xgboost knihovna v pythonu jsou v poměrně úzké rozmezí hodnot, a to i přesto, že model AUC na testovací sada je dost dobré pro problém (0.78).

Jak můžete vidět, rozptyl je nízká a výsledky jsou docela blízko kolem 50% mark.

Test velikost je přibližně 15% z dostupných dat (5000 pozorování).

Já používám následující parametry:

{'colsample_bytree': 0.5, 'gamma': 2, 'learning_rate': 0.01, 'max_depth': 8, 'min_child_weight': 10,
                'n_estimators': 10, 'scale_pos_weight': 7}

Jsem něco chybí tady?

1

Nejlepší odpověď

1

Bez přístupu k datům, práci s, to je nemožné říci, proč přesně vidíte, co jste viděli.

To řekl, nicméně -

  • Nejjednodušší řešení je ověřit proti "Out-of-time" dataset
  • Zkontrolujte, zda pro rozptyl / mohutnost vaší vstupní funkce. Pokud, například, budete mít 2 nezávislé binární proměnné, pak budete mít jen 4 možné kombinace pro oba z nich. Bez ohledu na to, jak velký je váš trénink dataset - vaše predict_proba bude dát jen 4 hodnoty.
2021-11-22 18:49:14

Konzultoval jsem to s Out-of-time datového souboru a výsledky jsou stejné.
Ignacio Valenzuela

Kromě toho, že mám 10 funkcí, které obsahují jak numerické a kategoriální hodnoty, převedeny s catboost_encoder, zkontroloval jsem a mohutnost je obvyklé.
Ignacio Valenzuela

V jiných jazycích

Tato stránka je v jiných jazycích

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................