Filtering Wiktionary triangles by linear mapping between distributed word models
Márton Makrai
Link
Diasor (PDF)
A cikk a gépi szótárgenerálás bevett eszközéhez, az úgynevezett háromszögeléshez kötődik. A háromszögelés azt jelenti, hogy abból, hogy a cseh zvíře angol fordítása animal, az animal magyar fordítása pedig állat, arra lehet következtetni, hogy a zvíře magyarul állat. A homonímia viszont hamis háromszögeket ad (német was – magyar mi – angol we).
A különböző nyelvek vektoros modelljei között olyan hasonlóságok vannak, amik gépi szótárgenerálásra használhatók (Mikolov et al., 2013b) Mikolovék munkája a felügyelt gépi tanulás körébe tartozik: a kétnyelvű szótár generálásához adott egy-egy pár milliárd szavas egynyelvű korpusz a két nyelven, valamint egy néhány ezres kétnyelvű (mag) szótár. Az előbbiek segítségével elkészítjük a két nyelv vektoros modelljét, a magszótár segítségével pedig betanítunk egy lineáris leképezést a két vektortér között, ami a forrásnyelvi szavak vektorát a fordításuk vektorához közeli pontba viszi. A leképezés használható a teljes szókincs (valamilyen min ̋oség ̋u) lefordítására és meglevő fordítások pontozására is. A homonímia (és a poliszémia) a vektoros szótárgenerálás minőségét rontja, mert a nyelvmodellek a szóalakokhoz rendelnek egy-egy vektort, így többjelentésű szavak esetén a vektorban a különféle jelentések keverednek.
A háromszögelés zajosságának megoldása azon alapszik, hogy míg a hamis háromszögeket a háromszög közepét képező nyelvben levő homonímia okozza, a vektoros módszer csak a forrás- és a célnyelv többértelműségeire érzékeny, így a kettő kompenzálhatja egymást. Olyan szótárakból szűröm ki a hamis háromszögeket Mikolov et al. (2013b) módszerével, amiket a Wiktionary nevű közösségi szerkesztésű soknyelvű szótárból gyűjtünk (Ács et al., 2013). Magszótárként közvetlen, felhasználók által megadott fordításokat használok, és az ezekkel tanított lineáris leképezés segítségével vizsgálom a háromszögeléssel kapott fordításokat. Megmutatjuk, hogy a lineáris leképezésből kapott pontszámok egy simább mértékét adják a fordítások jóságának, mintha a háromszögek közepét adó nyelveket számoljuk. Az általunk használt módszerek nyelvtől függetlenek, és a tanulóadatokat könnyű megszerezni számos nyelven. A német-magyar párt választottuk értékelésre, amelyben a háromszögek szűréséből eredő fordítások tudomásunk szerint a legnagyobb szabadon elérésű szólista.