Do multi-sense word embeddings learn more senses?
Márton Makrai, Veronika Lipp
Diasor (PDF)
Tőbbjelentésű magyar embeddingek 600 dimenzióban, a Magyar Nemzeti Szövegtárnak a deglutinált változatán tanítva.
Vigyázat, a cikk magyar és angol oldala nem teljesen párhuzamos korpusz!
Az előző évi ACL-en (Borbély et al 2016) egy olyan módszert javasoltunk többjelentésű embeddingek (MSE) felbontásának (,,szemcsésségének") mérésére, ami MSE-ből sima embeddingbe való lineáris fordításon (Mikolov et al 2013) alapszik. Hogy pontosan milyen módszert, arról a cikk beadása után is vitatkoztunk.
Azóta tovább mentem ebben a témában, méghozzá az volt az alapelvem, hogy az ott lazának nevezett mérték alapján állítom be a metaparamétereket (pl. hogy melyik célembeddinget használom). Ez a laza mérték abban áll, hogy minél több jelentésvektornak legyen jó fordítása, nem büntetve az egybeeséseket. Ez van a lenti táblázat megfelelő oszlopában.
Ebben a cikkben egy ennél csak kicsit szigorúbb mértéket vezetek be annak a mérésére, hogy a különböző jelentésvektorok tényleg különböző jelentésnek felelnek-e meg: a különböző jelentésvektorok jó (gold alapján) fordításainak halmaza legyen különböző. Az ilyenek arányát a többjelentésűnek jósoltak körében mutatja a táblázatban a disamb
.
Azt látjuk, hogy a két mérték között csereviszony van: minél specifikusabb egy vektor, annál könnyebb lefordítani, csak persze ha túl specifikus, akkor egybeeshetnek a fordítások.
laza | disamb | AdaGram | 73.3% | 18.53% | mutli “sense vectors” | 71.0% | 19.46% | mutli “context vectors” | 69.9% | 20.76% |
Hogyan tovább? Jelentések száma a gyakoriság függvényében, WSI mint Dirichlet-folyamat.