Chci, aby replikovat níže kód pomocí pyspark Datovém funkce namísto SQL dotazu.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
Chci, aby replikovat níže kód pomocí pyspark Datovém funkce namísto SQL dotazu.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
Zde je kód, pokud začnete z spojené CSV souboru. Byste měli rozpoznat SQL funkce. Všimněte si, že používáme inferSchema
možnost, aby se přímo analyzovat čísla do čtyřhry a získat správné objednání (to nebude fungovat, jak se očekávalo, s výchozí typ řetězec). Další způsob, jak by bylo obsazení sloupce po přečtení CSV.
spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv("walmart_stock.csv")
.orderBy(f.col("High"), desc=True)
.limit(1)
.select("Date")
.show()
což dává
+----------+
| Date|
+----------+
|2015-11-13|
+----------+