Jak naplnit Map[string,Datovém] jako sloupec v Datovém v scala

0

Otázka

Mám Map[String, Dataframe]. Chci spojit všechna data uvnitř té Mapy do jednoho Datovém. Může datovém mít sloupec Mapě datový typ?

def sample(dfs : Map[String,Dataframe]): Dataframe =
{
.........
}

Příklad:

DF1

id name age
1  aaa  23
2  bbb  34

DF2

game  time  score
ludo  10    20
rummy 30    40 

Jsem se projít výše uvedené dva DFs jako Map funkce. Pak dal dat v každé datové části rámců do jediného sloupce v datovém výstupu jako json formátu.

z DF

+---------------------------------------------------------------------------------------+
| column1                                                                              |
+---------------------------------------------------------------------------------------+
| [{"id":"1","name":"aaa","age":"23"},{"id":21","name":"bbb","age":"24"}]               |
| [{"game":"ludo","time":"10","score":"20"},{"game":"rummy","time":"30","score":"40"}]  |
+---------------------------------------------------------------------------------------+
apache-spark dataframe dictionary scala
2021-11-23 13:42:20
2

Nejlepší odpověď

1

Žádáte, aby generovat jeden řádek na datovém. Buďte opatrní, pokud jedna z datové části rámců je dostatečně velká, takže to nemůže být obsaženy v jednom jediném exekutor, tento kód bude přestávka.

Pojďme se nejprve generovat data a mapy dfs typ Map[String, DataFrame].

val df1 = Seq((1, "aaa", 23), (2, "bbb", 34)).toDF("id", "name", "age")
val df2 = Seq(("ludo", 10, 20), ("rummy", 10, 40)).toDF("game", "time", "score")
dfs = Seq(df1, df2)

Pak pro každý datovém mapy, jsme se vytvořit dva sloupce. big_map společníci každý název sloupce v datovém jeho hodnota (obsazení do string mít jednotný typ). df jednoduše obsahuje název datovém. Pak jsme se unie všechny datové části rámců s reduce a group by name (to je ta část, kde se každý datovém skončí zcela v jedné řadě, a proto jeden exekutor).

dfs
    .toSeq
    .map{ case (name, df) => df
        .select(map(
             df.columns.flatMap(c => Seq(lit(c), col(c).cast("string"))) : _*
        ) as "big_map")
        .withColumn("df", lit(name))}
    .reduce(_ union _)
    .groupBy("df")
    .agg(collect_list('big_map) as "column1")
    .show(false)
+---+-----------------------------------------------------------------------------------+
|df |column1                                                                            |
+---+-----------------------------------------------------------------------------------+
|df0|[{id -> 1, name -> aaa, age -> 23}, {id -> 2, name -> bbb, age -> 34}]             |
|df1|[{game -> ludo, time -> 10, score -> 20}, {game -> rummy, time -> 10, score -> 40}]|
+---+-----------------------------------------------------------------------------------+
2021-11-24 07:05:52
0

Zde je řešení specifických pro vaše použití-v případě, že:

import org.apache.spark.sql._

def sample(dfs : Map[String, DataFrame])(implicit spark: SparkSession): DataFrame =
  dfs
    .values
    .foldLeft(spark.emptyDataFrame)((acc, df) => acc.union(df))

Zapalovací relace je nutné vytvořit prázdný Datovém zásobníku složit.

Případně, pokud můžete zajistit Map je jiné než prázdné.

def sample(dfs : Map[String, DataFrame]): DataFrame =
  dfs
    .values
    .reduce((acc, df) => acc.union(df))
2021-11-23 14:30:01

můžete, prosím, podívejte se na otázku, přidal jsem příklad.Každý vstup datovém který jsem dostal má diff schémata, tak chci data z celé vstupní datovém být naplněna jako sloupec ,takže můj výstup datovém má data z každého vstupu datovém v jednom sloupci
minnu

V jiných jazycích

Tato stránka je v jiných jazycích

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................