Odpovídající více řádků v jednom datovém souboru na hodnotu v jiném dataset vytvořit nový sloupec

Question 1

Mám dataset, který se k NÁM měst v současné době to ale státy, které jsou v současné době všechny označeny jako NÁS - datový soubor se nazývá us_data. Našel jsem dataset obsahující všechny amerických měst a států - volal nás - a já se snažím vytvořit nový stát sloupec v mé us_data dataset tím, že název města, zjišťují, že je v nás a tahá stát z nás přidat nový sloupec v us_data.

Jsem pomocí R a nejste si jisti, jak jít o to. Nevěřím, že pravidelné připojte se bude pracovat, jak tam může být více pozorování v us_data se stejným městě, takže všechny řádky se stejným město bude muset být uzavřeno. Přemýšlel jsem o použití mutovat() z dplyr ale nejste si jisti, jak se odkazovat na dva soubory dat ve volání funkce, takže jakýkoliv pomoci chtěl bych být ocenil! Jsem připojený pohled na oba soubory údajů pro referenční.

us_data

nás

> dput(us_data[1:10,1:7])
structure(list(name = c("Carpenter Rd.", "1515 N. Sheridan - Wilmette", 
"S McCarran & E Greg St - Sparks", "Hwy 20 & Tharp - Yuba City", 
"Greenmount & I-64", "Veterans Blvd & Kingman St", "Hampden & Dayton - Denver", 
"50th and Kipling-Wheatridge, CO", "Higuera & Tank Farm", "Burr Ridge-I-55 & County Line Rd"
), url = c("https://www.starbucks.com/store-locator/store/6323", 
"https://www.starbucks.com/store-locator/store/6325", "https://www.starbucks.com/store-locator/store/6327", 
"https://www.starbucks.com/store-locator/store/6328", "https://www.starbucks.com/store-locator/store/6329", 
"https://www.starbucks.com/store-locator/store/6330", "https://www.starbucks.com/store-locator/store/6334", 
"https://www.starbucks.com/store-locator/store/6333", "https://www.starbucks.com/store-locator/store/6331", 
"https://www.starbucks.com/store-locator/store/6340"), street_address = c("3650 Carpenter Rd.", 
"1515 North Sheridan, Building 4", "1560 S. Stanford Way, Suite A", 
"1615 Colusa Hwy, Ste 100", "1126 Central Park Drive", "4312 Veterans Blvd.", 
"9925 East Hampden Ave", "4975 Kipling St", "3971 S. Higuera Street", 
"515 Village Center Dr."), city = c("Pittsfield", "Wilmette", 
"Sparks", "Yuba City", "OFallon", "Metairie", "Denver", "Wheat Ridge", 
"San Luis Obispo", "Burr Ridge"), state = c("US", "US", "US", 
"US", "US", "US", "US", "US", "US", "US"), zip_code = c("48104", 
"600911822", "894316331", "959939437", "622691769", "70006", 
"802314903", "800332340", "934011580", "605274516"), country = c("US", 
"US", "US", "US", "US", "US", "US", "US", "US", "US")), row.names = c(NA, 
10L), class = "data.frame")

> dput(us[1:20,])
structure(list(city = c("New York", "Los Angeles", "Chicago", 
"Miami", "Dallas", "Philadelphia", "Houston", "Atlanta", "Washington", 
"Boston", "Phoenix", "Seattle", "San Francisco", "Detroit", "San Diego", 
"Minneapolis", "Tampa", "Denver", "Brooklyn", "Queens"), city_ascii = c("New York", 
"Los Angeles", "Chicago", "Miami", "Dallas", "Philadelphia", 
"Houston", "Atlanta", "Washington", "Boston", "Phoenix", "Seattle", 
"San Francisco", "Detroit", "San Diego", "Minneapolis", "Tampa", 
"Denver", "Brooklyn", "Queens"), state_id = c("NY", "CA", "IL", 
"FL", "TX", "PA", "TX", "GA", "DC", "MA", "AZ", "WA", "CA", "MI", 
"CA", "MN", "FL", "CO", "NY", "NY"), state_name = c("New York", 
"California", "Illinois", "Florida", "Texas", "Pennsylvania", 
"Texas", "Georgia", "District of Columbia", "Massachusetts", 
"Arizona", "Washington", "California", "Michigan", "California", 
"Minnesota", "Florida", "Colorado", "New York", "New York")), row.names = c(NA, 
20L), class = "data.frame")

Question 2

Použití match:

us_data$State_NEW <- us$state_name[match(us_data$city, us$city)]

Question 3

Následující řešení s dplyr::*_join() měl by fungovat, a to by mělo pomoci vám získat pohodlí s dplyr workflow.

Já jsem za předpokladu, že vaším cílem je obohatit us_data podrobnější info na state.

library(dplyr)

# ...
# Code to generate 'us_data' and 'us'.
# ...


us_data %>%
  # OPTIONALLY reduce ZIP codes to only their first 5 digits.
  mutate(
    zip_code = substr(zip_code, 1, 5),
  ) %>%
  # Match the US data to the proper states.
  left_join(
    us,
    by = "city"
  ) %>%
  # Remove the unhelpful 'state' column, which only shows "US".
  select(!state)

Chris Ruehlemann · Answer 1 · 2021-11-23T23:21:25

1

Použití match:

us_data$State_NEW <- us$state_name[match(us_data$city, us$city)]

Chris Ruehlemann

2021-11-23 23:21:25

to funguje perfektně, děkuji!

famato

@famato Jen pro vaši INFORMACI, pokud buď odpověď vyřešeny na vaši otázku, měli byste upvote* a označit ji, jak byla přijata. *Můžete pouze upvote jakmile budete mít 15+ pověst.

Greg

Greg · Answer 2 · 2021-11-23T23:27:32

Následující řešení s dplyr::*_join() měl by fungovat, a to by mělo pomoci vám získat pohodlí s dplyr workflow.

Já jsem za předpokladu, že vaším cílem je obohatit us_data podrobnější info na state.

library(dplyr)

# ...
# Code to generate 'us_data' and 'us'.
# ...


us_data %>%
  # OPTIONALLY reduce ZIP codes to only their first 5 digits.
  mutate(
    zip_code = substr(zip_code, 1, 5),
  ) %>%
  # Match the US data to the proper states.
  left_join(
    us,
    by = "city"
  ) %>%
  # Remove the unhelpful 'state' column, which only shows "US".
  select(!state)

Odpovídající více řádků v jednom datovém souboru na hodnotu v jiném dataset vytvořit nový sloupec

Otázka

Nejlepší odpověď

V jiných jazycích

Tato stránka je v jiných jazycích

Populární v této kategorii

Oblíbené položky v této kategorii