Jak se dostat jedinečnou hodnotu v každé buňce?

0

Otázka

Já jsem se snaží získat dovednosti z popisu práce. Ale nemohu si jedinečné slovo (každé slovo se opakuje). Například, slovo 'SQL' se opakuje 2 čas v řádku 5. Nemohu použít unikátní() pro Datovém stejně. Existuje nějaký způsob, jak zabránit opakování slova?

list1={'SQL','visualization','modeling','sql','mysql','python','oracle','sybase','mathematics','collection','statistics','tableau','etl','nosql','weka','r','communication','microsoft','excel','pattern', 'recognition','machine','processing','mining','strategy','big','predictive'}

df['skill'] =df['description'].apply(lambda x: ' '.join([item for item in x.split( ) if item in list1]))

df.head(10)

zadejte popis obrázku zde

nlp python
2021-11-22 19:44:11
1

Nejlepší odpověď

1

Dovedu si představit, následující by měl fungovat:

list1={'SQL','visualization','modeling','sql','mysql','python','oracle','sybase','mathematics','collection','statistics','tableau','etl','nosql','weka','r','communication','microsoft','excel','pattern', 'recognition','machine','processing','mining','strategy','big','predictive'}

df_nonsenior['skill'] =df_nonsenior['description'].apply(lambda x: ' '.join(list(set([item for item in x.split( ) if item in list1]))))

df_nonsenior.head(10)

Jako [item for item in x.split( ) if item in list1] je to seznam všech slov, v pořádku, v popisu, že se také objeví v list1. Musíme odfiltrovat duplicitní položky z tohoto seznamu před vstupem položky do řetězce.

2021-11-22 19:55:29

Děkuji moc. To fungovalo!!!!!
Sasha

Víš, jak jsem se může dát čárky mezi extrahované slova? Zatím to vypadá: python sql modelování. Chci oddělit je tak, že můžu udělat další analýzu.Díky!!!
Sasha

Syntaxe připojit je separator.join(iterable). V okamžiku, kdy vaše oddělovač je ' '; pokud chcete jinou, můžete ji nahradit, např. s ', '.
Mentastin

V jiných jazycích

Tato stránka je v jiných jazycích

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................