Měření sémantické podobnosti (kosinová) mezi věty a odstavce

0

Otázka

Mám poškrábaný některých bodech s jejich Tituly a chci extrahovat sémantickou podobnost (cosine similarity) mezi každou (Hlava-Odstavec) a specifické Obecné Titul. Obrázek by mohl pomoci v pochopení: Výzva.

Obecný Název je jednoduchá věta každého odstavce nadpisu. Body jsou skupina vět.

Co si myslíte, že je nejlepší strategie k realizaci?

bert-language-model similarity
2021-11-22 12:37:54
1

Nejlepší odpověď

0

první s přehledem základě zásady, co je text, kosinus vzdálenost

Váš titul je sám o sobě krátký text, takže budete porovnávat vzdálenost mezi krátký text a dlouhý text.

Kosinus vzdálenost, srovnává podobnost 2 vektory. V euclidian prostoru vektor [1,1] jako stejný úhel než [2,2], takže jsou podobné i přesto, že nemají stejnou sílu.

Je to dva vektorové byl dva texty, první z nich by mohla být "květina." a druhý "květina. květina".

Jeden může vypočítat vzdálenosti mezi 2 rozměrném prostoru, v[x,y], ale stejná rovnice může být použita v 3 rozměrném prostoru v[x,y,z], a protože matematika zásadě nemění s počtem rozměr, kosinus vzdálenost může být použita v n dimenze vektorového prostoru v a[x,y,z,...n]

Takže hlavní problém je přeměnit text na vektory ne ?

Představte si, že máte změřit kosinus vzdálenost pro texty, které mají pouze 2 možné slovo : "květ" a "a". Pokud ano, můžete použít 2-dimenzionální vektor, kde

  • květina=[1,0]
  • a=[0,1]

takže text : "květina" nebo "květina" bude uvedeno [1,1] a text s "květina, květ" [2,2]

skutečně [2,2] a [1,1] jsou rovnoběžné a shodné v euclidian prostor

ale tam je úhel mezi "a" a "květina", pokud si spočítat kosinus vzdálenost mezi dvěma

Nyní, když máme korpus s 3 slovo "ovoce květina" budete mít 3 dimenzionální vektor :

  1. "květina"=[0,0,1]
  2. "ovoce"=[0,1,0]
  3. "ovoce květ"=[1,1,1]
  4. "ovoce ovoce ovoce"=[0,3,0]

pokud 1 a 2 jsou tituly (květina nebo ovoce), pak 1 je blíže k 3 a 2 je blíže k 4

Teď to máte, když tam je 3000 odlišné slovo v korpusu text, budete stavět 3000 dimenze vektorového prostoru a vypočítat kosinus vzdálenost mezi nimi

tady jeden článek, který ukazuje princip použití vektorový prostor pro slovo, a jak to udělat s velkými vektory. https://nikoskalikis.medium.com/text-similarity-euclidian-distance-vs-cosine-similarity-3a1167f686a

To byla jen obecná představa o slovo na základě kosinové vzdálenosti

Nyní, jak k jeho dosažení sémantické podobnosti

Mluvit o sémantické vzdálenosti to není přesně totéž. protože "já jsem šel do paříže" by měly být velmi podobné "byl jsem do Londýna" a mírně odlišné, aby "šel jsem do školy", protože paříž a londýn jsou hlavním městě.

Tam je také některé další algo na adresu tohoto problému. Vysvětlení by zabralo celý článek blog.

Jedním z nich je TFIDF, ale nejlepší z nich je world2vec to na stejném principu, ale v mnohem sofistikovanějším způsobem. Tady obecnou intuici článek https://www.wikiwand.com/en/Word2vec tam je tolik vysvětlení, jak to funguje na internetu, že I dont vědět, co zdroje, poradit.

TFIDF je jednodušší implementovat, protože word2vec je NN přístup. Zde článek, který vysvětluje a nějak porovnává 2 koncept https://towardsdatascience.com/word-embedding-techniques-word2vec-and-tf-idf-explained-c5d02e34d08

Takže nejlepší strategie realizovat je pomocí word2vec s kereas tenzor toku, ale to závisí na vás čas, prostředky, které langages víte, nebo jak pohodlné jste s konceptem.

Budu sdílet nejlepší radu, že starověké Phd dává mi : "použít některý z 3 pokud to dont práci nahradit to druhé. Je to jako výběr jakéhokoliv motoru chcete dát do auta, pokud chcete závodit, musíte to řídit alespoň tak, druhý můžeš vyměnit motor za lepší nebo zlepšit to."

2021-11-22 13:41:09

děkuji za vaši odpověď. Už jsem udělal nějaký výzkum v tfidf a word2vec ale já jsem o použití určitého druhu berte model. Něco jako Trest, Berte. Můj problém je, že tyto modely používají věty jako vstup a ne na celý odstavec nebo skupinu vět. I dont vědět, jak zacházet odstavců v těchto modelů. Já jsem plynně v jazyce python a pytorch.
tasos_koukos

Nejsem si jistý, BERTE je nástroj vhodný pro daný problém, který se zdá být získávání informací problém : titul působit jako otázka, a odstavec nejlepší rank. BERT se zdá být přizpůsobeny NSP nebo větu soustředěný. Tak jsem se jít rovnou k world2vec. Jen proto BERTE není určen pro zpracování dlouhé rozpětí textu, se tedy jedná o cíle je těžké dosáhnout. ALE je možné, Yang & al 2019 na tom pracoval a měl dobré výsledky. aclanthology.org/D19-1352.pdf . I dont vědět, co je vaše kontextu. Pokud je pro rychlé použití výroba BERTE s lucene a budete mít výsledky mnohem rychleji.
Damien MIRAS

Jinými slovy, budete mít pevný čas se přizpůsobit BERTE IR problémy, záleží, je-li se naučit nebo pro čistě výzkumné cíle, nebo pro R&D, pouze. "Co myslíš, že je nejlepší strategie k realizaci?" to nejlepší na co ? doba uvedení na trh, přesnost, škálovatelnost. Protože není tam žádná taková kontextuální sémantické informace v hlavě, jsem se ještě jít pro word2vec. Ale dělá to s BERTEM je velký appealling výzvu, dejte mi vědět, váš výsledek, pokud si porovnat 2. Hodně štěstí a bavte se :)
Damien MIRAS

Mé údaje jsou papíry Titulů s jejich abstrakty. Mým cílem je, aby krmivo model tematickou větu. Na základě papíry vnoření (Hlava-Abstraktní) a věta vkládání, chci najít cosinus podobnost mezi dokumenty a tematické věty. Četl jsem, že bert vstup může přijímat vstup až 512 žetonů. Věřím, že mé abstracs mají méně než to horní mez. Já ll dáme vám vědět, když žádný zákonný výsledek se vyskytují :)
tasos_koukos

Ok podívej se na ten papír to je přesně to, co potřebujete arxiv.org/pdf/1908.10084.pdf ale vzít závěr z papíru na účtu ve stavu umění "ukázali Jsme, že BERT out-of-the-box mapy věty vektorového prostoru, která je spíše nevhodné, aby být použity s běžnými podobnost opatření, jako je kosinová podobnost. Výkon pro sedm STS úkolů bylo pod výkonnosti průměrné Rukavice embeddings."
Damien MIRAS

Ok, velmi zajímavá kniha. Já ll zkontrolovat. Ještě jednou děkuji.
tasos_koukos

V jiných jazycích

Tato stránka je v jiných jazycích

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................