Já jsem v současné době dělá, analýza sentimentu a má problém.
Mám velký normalizace pro slovo, a chci, aby normalizace textu před tokenize jako tento příklad:
údaje | normální |
---|---|
kamu sayang knp | kamu sayang kenapa |
možnost drpd sedih zašívání belajar | dari pada sedih zašívání belajar |
dmna sekarang | di mana sekarang |
- knp: kenapa
- možnost drpd: dari pada
- dmna: di mana
Tohle je můj kód:
import pandas as pd
slang = pd.DataFrame({'before': ['knp', 'dmna', 'drpd'], 'after': ['kenapa', 'di mana', 'dari pada']})
df = pd.DataFrame({'data': ['kamu knp sayang', 'drpd sedih mending bermain']})
normalisasi = {}
for index, row in slang.iterrows():
if row[0] not in normalisasi:
normalisasi[row[0]] = row[1]
def normalized_term(document):
return [normalisasi[term] if term in normalisasi else term for term in document]
df['normal'] = df['data'].apply(normalized_term)
df
Ale výsledek, jako je tento: výsledek
Chci výsledek, jako je například stůl.