Jak se k unaggregated výsledků při slučování je potřeba vzhledem k dataset velikost v R

0

Otázka

Můj úkol je dostat celkové příchozí vede pro skupinu zákazníků, vede po měsíci pro stejnou skupinu zákazníků a konverzní poměr z těchto zájemců.

Dataset jsem vytáhl ze je 20 milionů záznamů, takže nemůžu dotazu na celou věc. Úspěšně jsem udělal první krok (získání celkem vést počítat pro každou org s tímto:

inbound_leads <- domo_get_query('6d969e8b-fe3e-46ca-9ba2-21106452eee2',
                                auto_limit = TRUE,
                                query = "select org_id,
                                          COUNT(*)
                                        from table
                                            GROUP BY org_id
                                            ORDER BY org_id"

DOMO je bi nástroj projedu a domo_get_query je interní funkce, z vlastní knihovna má společnost postavena. To trvá dotaz argument, který je mysql query)a různé další, které nejsou teď důležité.

vzorek dat vypadá takto:

    org_id, inserted_at, lead_converted_at
    1       10/17/2021    2021-01-27T03:39:03
    2       10/18/2021    2021-01-28T03:39:03
    1       10/17/2021    2021-01-28T03:39:03
    3       10/19/2021    2021-01-29T03:39:03
    2       10/18/2021    2021-01-29T03:39:03

Podíval jsem se přes mnoho agregace, on-line výukových programů, ale žádný z nich se zdá jít nad tím, jak získat údaje potřebné pre-agregace (např. počet zájemců za měsíc na org, které není možné jednou agregace došlo, protože ve výše uvedeném vzorku agregace by odstranit schopnost vidět více než jednu instanci org_id 1 například) ze souboru dat, které musí být seskupeny v pořadí, které mají být přístupné na prvním místě. Možná jsem prostě nechápu to dost znát správné otázky klást. Libovolném směru ocenil.

aggregation r
2021-11-22 23:19:54
1

Nejlepší odpověď

1

Pokud jste schopni, aby se vešly vaše data v paměti, máte několik možností. Můžete zpracovávat data v dávkách (tj. jeden rok) tak, že se vejde do paměti. Můžete použít balíček jako blokového pomoci.

Ale v tomto případě vsadil bych se, že nejjednodušší způsob, jak zvládnout svůj problém řešit je zcela ve vaší SQL query. Vede po měsíci, budete muset zkrátit vaše data sloupec a skupiny org_id, měsíc.

Získat přepočítací koeficient pro vede v těch měsících, můžete přidat sloupec (kromě toho, aby vaše počítat sloupec) to je něco jako:

sum(case when conversion_date is not null then 1 else 0) as convert_count
2021-11-22 23:30:32

V jiných jazycích

Tato stránka je v jiných jazycích

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................