Proč jsem stále velmi malý rozptyl v predict_proba hodnoty v XGBoost?

Question 1

Mám potíže pochopit, proč všechny hodnoty při volání predict_proba funkce v xgboost knihovna v pythonu jsou v poměrně úzké rozmezí hodnot, a to i přesto, že model AUC na testovací sada je dost dobré pro problém (0.78).

Jak můžete vidět, rozptyl je nízká a výsledky jsou docela blízko kolem 50% mark.

Test velikost je přibližně 15% z dostupných dat (5000 pozorování).

Já používám následující parametry:

{'colsample_bytree': 0.5, 'gamma': 2, 'learning_rate': 0.01, 'max_depth': 8, 'min_child_weight': 10,
                'n_estimators': 10, 'scale_pos_weight': 7}

Jsem něco chybí tady?

Question 2

Bez přístupu k datům, práci s, to je nemožné říci, proč přesně vidíte, co jste viděli.

To řekl, nicméně -

Nejjednodušší řešení je ověřit proti "Out-of-time" dataset
Zkontrolujte, zda pro rozptyl / mohutnost vaší vstupní funkce. Pokud, například, budete mít 2 nezávislé binární proměnné, pak budete mít jen 4 možné kombinace pro oba z nich. Bez ohledu na to, jak velký je váš trénink dataset - vaše predict_proba bude dát jen 4 hodnoty.

Mortz · Answer 1 · 2021-11-22T18:49:14

Bez přístupu k datům, práci s, to je nemožné říci, proč přesně vidíte, co jste viděli.

To řekl, nicméně -

Nejjednodušší řešení je ověřit proti "Out-of-time" dataset
Zkontrolujte, zda pro rozptyl / mohutnost vaší vstupní funkce. Pokud, například, budete mít 2 nezávislé binární proměnné, pak budete mít jen 4 možné kombinace pro oba z nich. Bez ohledu na to, jak velký je váš trénink dataset - vaše predict_proba bude dát jen 4 hodnoty.

Konzultoval jsem to s Out-of-time datového souboru a výsledky jsou stejné.
Kromě toho, že mám 10 funkcí, které obsahují jak numerické a kategoriální hodnoty, převedeny s catboost_encoder, zkontroloval jsem a mohutnost je obvyklé.

Proč jsem stále velmi malý rozptyl v predict_proba hodnoty v XGBoost?

Otázka

Nejlepší odpověď

V jiných jazycích

Tato stránka je v jiných jazycích

Populární v této kategorii

Oblíbené položky v této kategorii