Nové v Azure
a Databricks
Snažím se přístup velký soubor dat, na které bych chtěl běžet R procesu (psaný v data.table
a který běží dobře na místě).
Nelíbí se správné termíny, nebo, jak celé prostředí Azure funguje, ale teď, moje data je přítomen ve 3 formátech :
- tabulka
- paquet
- csv
První pokus (a nejlogičtější pro mě) : typické fread
na csv soubory.
Na malé soubory, vše je v pořádku. Na "velké" soubory (3Go), je zapotřebí mnoho, mnoho minut, zatímco lokálně, to trvá jen pár sekund.
Proč je mnohem déle, než lokálně ?
Druhý pokus s SparkR
na csv soubory a collect()
pro práci s data.table
Je tam něco, co můžu udělat, abych toto nastavit ?
Třetí pokus : stejné jako výše na delta soubory, se stejným typem chyby
Čtvrtý pokus : SQL žádost SparkR
ale collect
ještě vrátit stejnou chybu
Je to jeden z mých pokusů lepší než jiný ? Jsem na správné cestě ? Jsem něco chybí ?
Jakákoliv pomoc nebo radu, bude velmi užitečné.