SZTAKI HLT | Do multi-sense word embeddings learn more senses?

Do multi-sense word embeddings learn more senses?

Márton Makrai, Veronika Lipp
In K + K = 120, 2017

PDF
Diasor (PDF)

Konfereciakötet (Festschrift)

Tőbbjelentésű magyar embeddingek 600 dimenzióban, a Magyar Nemzeti Szövegtárnak a deglutinált változatán tanítva.

Repó

Vigyázat, a cikk magyar és angol oldala nem teljesen párhuzamos korpusz!

Az előző évi ACL-en (Borbély et al 2016) egy olyan módszert javasoltunk többjelentésű embeddingek (MSE) felbontásának (,,szemcsésségének") mérésére, ami MSE-ből sima embeddingbe való lineáris fordításon (Mikolov et al 2013) alapszik. Hogy pontosan milyen módszert, arról a cikk beadása után is vitatkoztunk.

Azóta tovább mentem ebben a témában, méghozzá az volt az alapelvem, hogy az ott lazának nevezett mérték alapján állítom be a metaparamétereket (pl. hogy melyik célembeddinget használom). Ez a laza mérték abban áll, hogy minél több jelentésvektornak legyen jó fordítása, nem büntetve az egybeeséseket. Ez van a lenti táblázat megfelelő oszlopában.

Ebben a cikkben egy ennél csak kicsit szigorúbb mértéket vezetek be annak a mérésére, hogy a különböző jelentésvektorok tényleg különböző jelentésnek felelnek-e meg: a különböző jelentésvektorok jó (gold alapján) fordításainak halmaza legyen különböző. Az ilyenek arányát a többjelentésűnek jósoltak körében mutatja a táblázatban a disamb.

Azt látjuk, hogy a két mérték között csereviszony van: minél specifikusabb egy vektor, annál könnyebb lefordítani, csak persze ha túl specifikus, akkor egybeeshetnek a fordítások.

laza disamb
AdaGram 73.3%18.53%
mutli “sense vectors” 71.0%19.46%
mutli “context vectors”69.9%20.76%

Hogyan tovább? Jelentések száma a gyakoriság függvényében, WSI mint Dirichlet-folyamat.

MTA NYI