The impact of inflection on word vectors, thesis
Dániel Lévai
Matematikusok és számítógépes nyelvészek régóta kutatják, hogyan lehet szavakat beágyazni folytonos vektorterekbe oly módon, hogy a szavak jelentését legjobban megtartsák a vektorok. Az elmúlt években a természetes nyelvfeldolgozási módszerek nagy változáson mentek keresztül a neurális hálók használata által, például Mikolov (2013a) és Goldberg, Levy (2014), melyek bevezették a negatív mintavételezésű skip-gram word2vec modellt.
A szakdolgozatomban bemutatom a ragok hatását a szóvektorokra. A második fejezetben bemutatom a későbbi fejezetekben használt jelöléseket, tételeket, definíciókat. A harmadik fejezetben áttekintést adok egy negatív-mintavételezésű skip-gram neurális háló modelljéről és demonstrálom, hogy miért tekintjük nagy jelentőségűnek Mikolov (2013a) cikkét a természet nyelvek feldolgozásában. A negyedik fejezetben ismertetek egy feldolgozási eljárást a már meglévő morfológiai elemző szoftverek által adott elemzésekre, majd a további fejezetekben az így feldolgozott adatot használom. A fejezet végén igazolom Arora (2015) cikkében szereplő lineáris összefüggést a szavak előfordulásának logaritmusa és a hozzájuk tartozó szóvektorok hossza közt. Az ötödik fejezetben klaszterezem a szavakat a morfológiai elemzésük alapján, majd az így létrejött 200-dimenziós klasztereken számolok statisztikákat. A hatodik fejezetben definiálok egy hasonlósági mértéket a klaszterek hasonlóságának vizsgálatára. A hetedik fejezetben ismertetem a hasonlósági méréseket klaszterek és ragozási paradigmák klaszterei közt, majd vizsgálom, hogy a ragok mekkora befolyással vannak a klaszterek hasonlóságára.
A dolgozat legfőbb eredménye a hasonlósági mérték, mely hasznosnak bizonyult klaszterek koherenciájának és több klaszter hasonlóságának összehasonlítására. Igazolásra került a morfológiai elemzések általi klaszterezés helyessége. Nyelvészetileg tekintve, egy osztály kivételével a szavak jelen morfológiai osztályozása megalapozott.