SZTAKI HLT | Filtering Wiktionary triangles by linear mapping between distributed word models

Filtering Wiktionary triangles by linear mapping between distributed word models

Márton Makrai

In Proceedings of 10th Edition of the Language Resources and Evaluation Conference, 2016

Link
PDF
Diasor (PDF)

A cikk a gépi szótárgenerálás bevett eszközéhez, az úgynevezett háromszögeléshez kötődik. A háromszögelés azt jelenti, hogy abból, hogy a cseh zvíře angol fordítása animal, az animal magyar fordítása pedig állat, arra lehet következtetni, hogy a zvíře magyarul állat. A homonímia viszont hamis háromszögeket ad (német was – magyar mi – angol we).

A különböző nyelvek vektoros modelljei között olyan hasonlóságok vannak, amik gépi szótárgenerálásra használhatók (Mikolov et al., 2013b) Mikolovék munkája a felügyelt gépi tanulás körébe tartozik: a kétnyelvű szótár generálásához adott egy-egy pár milliárd szavas egynyelvű korpusz a két nyelven, valamint egy néhány ezres kétnyelvű (mag) szótár. Az előbbiek segítségével elkészítjük a két nyelv vektoros modelljét, a magszótár segítségével pedig betanítunk egy lineáris leképezést a két vektortér között, ami a forrásnyelvi szavak vektorát a fordításuk vektorához közeli pontba viszi. A leképezés használható a teljes szókincs (valamilyen min ̋oség ̋u) lefordítására és meglevő fordítások pontozására is. A homonímia (és a poliszémia) a vektoros szótárgenerálás minőségét rontja, mert a nyelvmodellek a szóalakokhoz rendelnek egy-egy vektort, így többjelentésű szavak esetén a vektorban a különféle jelentések keverednek.

A háromszögelés zajosságának megoldása azon alapszik, hogy míg a hamis háromszögeket a háromszög közepét képező nyelvben levő homonímia okozza, a vektoros módszer csak a forrás- és a célnyelv többértelműségeire érzékeny, így a kettő kompenzálhatja egymást. Olyan szótárakból szűröm ki a hamis háromszögeket Mikolov et al. (2013b) módszerével, amiket a Wiktionary nevű közösségi szerkesztésű soknyelvű szótárból gyűjtünk (Ács et al., 2013). Magszótárként közvetlen, felhasználók által megadott fordításokat használok, és az ezekkel tanított lineáris leképezés segítségével vizsgálom a háromszögeléssel kapott fordításokat. Megmutatjuk, hogy a lineáris leképezésből kapott pontszámok egy simább mértékét adják a fordítások jóságának, mintha a háromszögek közepét adó nyelveket számoljuk. Az általunk használt módszerek nyelvtől függetlenek, és a tanulóadatokat könnyű megszerezni számos nyelven. A német-magyar párt választottuk értékelésre, amelyben a háromszögek szűréséből eredő fordítások tudomásunk szerint a legnagyobb szabadon elérésű szólista.

Filtering Wiktionary triangles by linear mapping between distributed word models

Márton Makrai

MTA NYI