Symbolic and distributed word representations

Márton Makrai

In pre-defence of the PhD thesis, 2022

Makrai Márton Symbolic and Distributed Word Representations című doktori (PhD) disszertációjának házi védése Az ELTE BTK ‒ NYTK Elméleti Nyelvészeti Doktori Programján:

A védés időpontja és helye: 2022. november 30. (szerda), 15.00 óra, Nyelvtudományi Kutatóközpont (Budapest VI., Benczúr utca 33.), földszinti előadóterem
Online is részt lehet venni:
- https://us02web.zoom.us/j/82044663108?pwd=SEROVVV0ZHZVWDloV3h4a2tZRnVtUT09
- Meeting ID: 820 4466 3108
- Passcode: 028847
Az értekezés opponensei: Csirik János, DSC (SZTE) Novák Attila, PhD (PPKE) Szécsényi Tibor, PhD (SZTE)
A bizottság további tagja: Törkenczy Miklós, DSc (ELTE, NYTK) Gyuris Beáta, PhD (ELTE, NYTK) Vincze Veronika, PhD (SZTE) Alberti Gábor, DSc (PTE)
A jelölt témavezetője: Kornai András, DSc

Hogyan jelennek meg a szemantikus hálókban használatos relációk (statikus) szóbeágyazásokban? E köré a kérdés köré szerveződik a disszertációm. Más szóval az együtt-előfordulások alapján feltanított modellekből hogyan olvasható ki a kognitív szerkezet, a fogalmak közti lexikai relációk? A legszűkebb értelemben vett lexikai relációkon kívül több fejezet foglalkozik az argumentumszerkezettel. A disszertáció sajátossága, hogy a különböző nyelvek szóbeágyazásai között lehetséges lineáris fordítás eszközét az eredeti céljain túl (maga a fordítás és fordítási párok minőségének becslése) a többjelentésű szóbeágyazásoknak mint a többértelműség detektorai precision-jének mérésére is használja.

A disszertáció:

első változat, ami alapján a bírálat történt
köztes változat a házi védésre. Megváltozott a fejezetek és bizonyos szakaszok számozása, lényegében új a bevezető fejezet (1), és a szimbolikus rendszerekről szóló háttérfejezet elejére is került egy áttekintés. Ez még nem a végleges bírálatra (a nyilvános vitára) szánt változat.

Tézisek

A téziseket az alapján számozom, hogy a disszertáció folyamatosan készülő, köztes változatában hanyadik fejezeten/szakaszon alapszanak.

T3.3 A PageRank módszerével számszerűsítettem, hogy a 4lang definíciós gráfjának az egyes csomópontjai (amik többnyire fogalmak) mekkora szerepet játszanak a szódefiniálás rekurzív folyamatában. cikk

T5 Kézzel létrehoztuk egy definiáló szókincs elemeinek 4lang definícióit. Az argumentumok helyeit „mélyesetekkel” (többnyelvű szintakto-szemantikai általánosítások szerint, thematikus szerepekkel) címkéztem, ezáltal egy mélyeset-készletet javasoltam. cikk

T6 Asszociációs mértékeket általánosítottam a többed rendű esetre, és angol SVO-hármasok tenzorfelbontással való modellezésében megmutattam, hogy némelyik jobb, mint az alternatívák. A kísérlet hiperparamétereit körüljárva megmutattam, hogy úgy kapjuk a legjobb eredményeket (nem-negatív CPD és általános Tucker), ha azokat az eseteket is bevesszük az együtt-előfordulási statisztikába, amikor valamelyik bővítmény (jellemzően a tárgy) kitöltetlen. A kísérletek lexikailag értelmezhető látens dimenziókat adtak, és a nem-negatív CPD-s kísérletek kvalitatíve azt sugallják, hogy az alanyi és a tárgyi beágyazások különbsége az ágenciához köthető. reviewcikk, fő cikk

T7.1 Nemeskey Dáviddal és Kornai Andrással olyan módszert javasoltunk, ami (egynyelvű) szótári definíciókból szóbeágyazásokat készít. A kapott beágyazásokat összehasonlítottuk két akkoriban szokásos embeddinggel (HLBL, Mnih and Hinton (2009), Senna, Collobert et al. (2011)) az alapján, hogy az antonímia mely potenciális részrelációi jelennek meg bennük. A hármas összehasonlításban a Senna bizonyult kukktojásnak, ami azt sugallja, hogy az új embeddingben hasonló információ van, mint a sztenderd HLBL-ben. cikk

T7.2 Az okság geometriáját 2d-s vizualizációban felderítve arra a hipotézisre jutottam, hogy az oksági párokat összekötő egyenesek egy közös ponthoz közel haladnak el. Ezt abba a kontextusba helyeztem, hogy az okozat intuitíve a megfelelő okból és egy oksági elemből áll össze. Ezt a hipotézist különféle embeddingekben vizsgáltam. A Sennában (Collobert et al., 2011) megáll a hipotézis, a többi vizsgált embeddingben a többszörös tesztelés problémáját is figyelembe véve nem. cikk

T7.3 Berend Gáborral hipernímákat nyertünk ki ritkajellemző-párokkal. Több kategóriát megnyertünk a SemEval egyik feladatában. Algebrai fogalomhálókkal (formal concept analysis, FCA) is próbálkoztunk – sikertelenül. cikk

T7.4.1 Elkészítettem a statikus szóvektorok egyik fő kiértékelésének, az analógiás kérdéseknek a magyar megfelelőjét, feltanítottam magyar szóbeágyazásokat, és teszteltem bennük az analógiák megjelenését. Tudtommal így a magyar lett a harmadik nyelv (az angol és a török után), ahol az analógiát tesztelték. A morfológiai analógiákra nézve az eredmény pozitív, míg a szemantikaiakban gyenge. cikk

T7.4.2 A lineáris fordítás módszerét kiterjesztettem a GloVe modellre és közepes erőforrású európai nyelvekre. cikk

T7.5 A szótári indukció háromszögelés nevű módszerét a lineáris fordításéval finomítva egy simább megbízhatósági mértéket kaptam a szópárokhoz. A módszert azzal mutattam be, hogy létrehoztam az akkor legnagyobb szabadon elérhető német-magyar szótárat (szópárlistát). cikk

T8 A többjelentésű szóbeágyazások (MSE) mint a többértelműség detektorai precision-jének becslésére való módszert vázoltunk fel Borbély Gáborral és Kornai Andrással, és ezt önállóan kidolgoztam. A módszer lineáris fordításon alapszik. A lineáris fordítás szokásos trükkjeinek ebben a feladatban való hatását vizsgálva megállapítottam, hogy a fordított szomszédok fontosak, míg az ortogonális megszorítás és az ehhez kapcsolódó technikák ebben a feladatban nem, sőt kicsit rontanak. A két fő MSE modellt, az AdaGramot (Bartunov et al., 2016) és a mutlit (Li and Jurafsky, 2015) összehasonlítva azt találtam, hogy az előbbiből indulva gyakrabban kapunk jó fordítást, de a túlegyértelműsítés is gyakoribb, mint az utóbbival. Ez megfelel annak az intuíciónak, hogy minél finomabb a jelentéskészelt, akár túlzottan, annál könnyebb fordítani. korábbi cikk (RepEval), bővebb cikk (K + K = 120)

Hozzájárulások a többszerzős cikkekhez

G. Berend, M. Makrai, P. Földiák: 300-sparsans at SemEval-2018 Task 9 (2018) Hypernymy as interaction of sparse attributes. In SemEval.
- Berend Gáborral mindketten kódoltunk és írtuk a cikket, de az ő hozzájárulása lényegesen nagyobb, mondjuk 2:1. Én írtam meg és prezentáltam a posztert. Földiák Pétertől az FCA-s ötlet és szoftver (Endres, Földiák, and Priss, 2010).
M. Makrai, V. Lipp (2017/19) Do multi-sense word embeddings learn more senses?. In K + K = 120.
- Lipp Vera: a poliszémia fajtáiról szóló bevezető szakasz írta, ami nem került be a disszertációba.
G. Borbély, A. Kornai, M. Makrai, D. Nemeskey (2016) Evaluating multi-sense embeddings for semantic resolution monolingually and in word translation. In RepEval.
- Nemeskey Dávid az egynyelvű szótáras kísérletek csinálta, amit a disszertációban csak egy lábjegyzetben említek. A nyelvközi rész Borbély Gáborral közös eredmény egyenlő hozzájárulással.
A. Kornai, M. Makrai (2013) A 4lang fogalmi szótár. In IX. Magyar Számitógépes Nyelvészeti Konferencia.
- Nagyrészt én írtam a definíciókat, András írta a cikket, én adtam elő.
M. Makrai, D. Nemeskey, A. Kornai (2013) Applicative structure in vector space models. In Proceedings of the Workshop on Continuous Vector Space Models and their Compositionality.
- Én soroltam részrelációkba az antonim párokat, és előkészítettem a statisztikai tesztet. Nemeskey Dávid készítette az embeddinget, és ő fejezte be a kísérleteket. András írta a cikket.
D. Nemeskey, G. Recski, M. Makrai, A. Zséder, A. Kornai (2013) Spreading activation in language understanding. In Proc. CSIT 2013.
- Nem kötődik hozzá tézisem.
B. Döbrössy, M. Makrai, B. Tarján, G. Szaszák (2019) Investigating sub-word embedding strategies for the morphologically rich and free phrase-order Hungarian. In Proc Repl4NLP.
- Nem kötődik hozzá tézisem.