To zní, jako bys hledal partitionBy
definované na DataFrameWriter
. Z scaladoc:
def partitionBy(colNames: String*): DataFrameWriter[T]
Oddíly výstupu podle daného sloupce v systému souborů. Pokud je uvedeno, že výstup je stanoven na souborový systém podobný Úlu je rozdělení disku. Jako příklad, když jsme rozdělení souboru dat podle roku a pak měsíc, adresářová struktura bude vypadat:
year=2016/month=01/
year=2016/month=02/
Rozdělení je jedním z nejpoužívanějších technik pro optimalizaci fyzické rozložení dat. To poskytuje hrubozrnné index pro přeskočení nepotřebných dat, čte dotazy, když mají predikáty rozdělených sloupců. V pořadí pro rozdělení funguje dobře, počet odlišné hodnoty v každém sloupci by měla být obvykle méně než několik desítek tisíc.
Tento postup je použitelný pro všechny souborové zdroje dat (např. Parkety, JSON) začíná s Jiskrou 2.1.0.