Iterovat soubory ze složky a proces je v scala

Question 1

Mám pár souborů ve složce pro různé země. jako níže

Casedata_GBR_202110_timestamp.csv

Casedata_ARG_202110_timestamp.csv

teď mám na proces trvat tyto soubory procesu je podle země moudrý a kopírovat do příslušných složek. můj cíl strukturu složek, bude jako

2021-->11-->GBR

2021-->11-->ARG

V spark scala/scala mi pomůže napsat kód, který proces soubor podle země a přesunout do příslušné zemi složky.

Question 2

To zní, jako bys hledal partitionBy definované na DataFrameWriter. Z scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Oddíly výstupu podle daného sloupce v systému souborů. Pokud je uvedeno, že výstup je stanoven na souborový systém podobný Úlu je rozdělení disku. Jako příklad, když jsme rozdělení souboru dat podle roku a pak měsíc, adresářová struktura bude vypadat:

year=2016/month=01/
year=2016/month=02/

Rozdělení je jedním z nejpoužívanějších technik pro optimalizaci fyzické rozložení dat. To poskytuje hrubozrnné index pro přeskočení nepotřebných dat, čte dotazy, když mají predikáty rozdělených sloupců. V pořadí pro rozdělení funguje dobře, počet odlišné hodnoty v každém sloupci by měla být obvykle méně než několik desítek tisíc.

Tento postup je použitelný pro všechny souborové zdroje dat (např. Parkety, JSON) začíná s Jiskrou 2.1.0.

Jarrod Baker · Answer 1 · 2021-11-24T08:25:52

To zní, jako bys hledal partitionBy definované na DataFrameWriter. Z scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Oddíly výstupu podle daného sloupce v systému souborů. Pokud je uvedeno, že výstup je stanoven na souborový systém podobný Úlu je rozdělení disku. Jako příklad, když jsme rozdělení souboru dat podle roku a pak měsíc, adresářová struktura bude vypadat:

year=2016/month=01/
year=2016/month=02/

Rozdělení je jedním z nejpoužívanějších technik pro optimalizaci fyzické rozložení dat. To poskytuje hrubozrnné index pro přeskočení nepotřebných dat, čte dotazy, když mají predikáty rozdělených sloupců. V pořadí pro rozdělení funguje dobře, počet odlišné hodnoty v každém sloupci by měla být obvykle méně než několik desítek tisíc.

Tento postup je použitelný pro všechny souborové zdroje dat (např. Parkety, JSON) začíná s Jiskrou 2.1.0.

je tam stejně jako 2016/01 a pomoci foreach pro iteraci po jednom souboru
musím procesu po jednom datovém souboru do a zkopírujte do blob

Iterovat soubory ze složky a proces je v scala

Otázka

Nejlepší odpověď

V jiných jazycích

Tato stránka je v jiných jazycích

Populární v této kategorii

Oblíbené položky v této kategorii