Počítat, kolikrát se slovo zobrazí v nástroji BigQuery sloupec

0

Otázka

Mám sloupec s některými dlouhé řetězce a je třeba počítat se nejvíce používaná slova v ní.

Potřebuji něco, co funguje takto https://towardsdatascience.com/very-simple-python-script-for-extracting-most-common-words-from-a-story-1e3570d0b9d0. Slovo počítání alespoň částečně...

A to je velmi důležité, že mám možnost na blacklist některých slov, takže se jim počítat.

google-bigquery
2021-11-23 18:33:36
1

Nejlepší odpověď

2

Zkuste níže jednoduchý přístup

with blacklist as (
  select 'with' word union all 
  select 'that' union all
  select 'add more as you see needed'
)
select lower(word) word, count(*) frequency
from data, unnest(regexp_extract_all(col, r'[\w]*')) word
where length(word) > 3  
and word not in (select word from blacklist)
group by word
order by frequency desc     

 
2021-11-23 22:40:30

to nefungovalo... jsou fráze v portugalštině, mohl by tohle být ten problém? nebo možná nechtěl jsem, aby právo substituion na váš kód idk
Murilo

), blacklist jako ( vyberte " s "slovo union all select", že " unie všech zvolte 'přidat více, jak vidíte potřeba ) zvolte nižší(word) word count() frekvenci od T0, unnest(regexp_extract_all(T0.sloup, r'[\w]')) slovo, kde délka(slovo) > 3 a slovo ne (vyberte slovo ze seznamu zakázaných) skupina o pořadí slov podle frekvence desc ///zkusil jsem to..
Murilo

buďte prosím konkrétnější - co myslíš tím "to nefungovalo"? poskytují příklad vstupních údajů. atd....
Mikhail Berlyant

moje chyba, jsem obdržel tuto zprávu "Tento dotaz vráceny žádné výsledky".
Murilo

nevadí, měl jsem chybu, na můj původní dotaz, funguje to perfektně, díky moc
Murilo

Děkuji za potvrzení. Jsem rád, že to funguje pro vás. Zvažte také hlasování odpověď jestli to pomohlo :o)
Mikhail Berlyant

btw, dívám se na výsledky a kód je řezání slova, která obsahují některé "brazilské dopisy" jako "Ç" "ã" "õ", existuje způsob, jak, aby to zvážila. V slovo jako "informação", počítá se to jako "informace"
Murilo

jistě proveditelné, bude kontrolovat brzy. ale mezitím zkontrolovat můj v mé další odpovědi, jak zacházet s akcenty, atd. To by mělo být alespoň několik odpovědí, týkající se toho :o)
Mikhail Berlyant

V jiných jazycích

Tato stránka je v jiných jazycích

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................