SZTAKI HLT | Symbolic and distributed word representations

Symbolic and distributed word representations

Márton Makrai
In PhD thesis, 2022

Makrai Márton Symbolic and Distributed Word Representations című doktori (PhD) disszertációjának házi védése Az ELTE BTK ‒ NYTK Elméleti Nyelvészeti Doktori Programján:

  • A védés időpontja és helye: 2022. november 30. (szerda), 15.00 óra, Nyelvtudományi Kutatóközpont (Budapest VI., Benczúr utca 33.), földszinti előadóterem
  • Online is részt lehet venni:
    • https://us02web.zoom.us/j/82044663108?pwd=SEROVVV0ZHZVWDloV3h4a2tZRnVtUT09
    • Meeting ID: 820 4466 3108
    • Passcode: 028847
  • Az értekezés opponensei: Csirik János, DSC (SZTE) Novák Attila, PhD (PPKE) Szécsényi Tibor, PhD (SZTE)
  • A bizottság további tagja: Törkenczy Miklós, DSc (ELTE, NYTK) Gyuris Beáta, PhD (ELTE, NYTK) Vincze Veronika, PhD (SZTE) Alberti Gábor, DSc (PTE)
  • A jelölt témavezetője: Kornai András, DSc

Hogyan jelennek meg a szemantikus hálókban használatos relációk (statikus) szóbeágyazásokban? E köré a kérdés köré szerveződik a disszertációm. Más szóval az együtt-előfordulások alapján feltanított modellekből hogyan olvasható ki a kognitív szerkezet, a fogalmak közti lexikai relációk? A legszűkebb értelemben vett lexikai relációkon kívül több fejezet foglalkozik az argumentumszerkezettel. A disszertáció sajátossága, hogy a különböző nyelvek szóbeágyazásai között lehetséges lineáris fordítás eszközét az eredeti céljain túl (maga a fordítás és fordítási párok minőségének becslése) a többjelentésű szóbeágyazásoknak mint a többértelműség detektorai precision-jének mérésére is használja.

A disszertáció:

  • első változat, ami alapján a bírálat történt
  • köztes változat a házi védésre. Megváltozott a fejezetek és bizonyos szakaszok számozása, lényegében új a bevezető fejezet (1), és a szimbolikus rendszerekről szóló háttérfejezet elejére is került egy áttekintés. Ez még nem a végleges bírálatra (a nyilvános vitára) szánt változat.

Tézisek

A téziseket az alapján számozom, hogy a disszertáció folyamatosan készülő, köztes változatában hanyadik fejezeten/szakaszon alapszanak.

T3.3 A PageRank módszerével számszerűsítettem, hogy a 4lang definíciós gráfjának az egyes csomópontjai (amik többnyire fogalmak) mekkora szerepet játszanak a szódefiniálás rekurzív folyamatában. cikk

T5 Kézzel létrehoztuk egy definiáló szókincs elemeinek 4lang definícióit. Az argumentumok helyeit „mélyesetekkel” (többnyelvű szintakto-szemantikai általánosítások szerint, thematikus szerepekkel) címkéztem, ezáltal egy mélyeset-készletet javasoltam. cikk

T6 Asszociációs mértékeket általánosítottam a többed rendű esetre, és angol SVO-hármasok tenzorfelbontással való modellezésében megmutattam, hogy némelyik jobb, mint az alternatívák. A kísérlet hiperparamétereit körüljárva megmutattam, hogy úgy kapjuk a legjobb eredményeket (nem-negatív CPD és általános Tucker), ha azokat az eseteket is bevesszük az együtt-előfordulási statisztikába, amikor valamelyik bővítmény (jellemzően a tárgy) kitöltetlen. A kísérletek lexikailag értelmezhető látens dimenziókat adtak, és a nem-negatív CPD-s kísérletek kvalitatíve azt sugallják, hogy az alanyi és a tárgyi beágyazások különbsége az ágenciához köthető. reviewcikk, fő cikk

T7.1 Nemeskey Dáviddal és Kornai Andrással olyan módszert javasoltunk, ami (egynyelvű) szótári definíciókból szóbeágyazásokat készít. A kapott beágyazásokat összehasonlítottuk két akkoriban szokásos embeddinggel (HLBL, Mnih and Hinton (2009), Senna, Collobert et al. (2011)) az alapján, hogy az antonímia mely potenciális részrelációi jelennek meg bennük. A hármas összehasonlításban a Senna bizonyult kukktojásnak, ami azt sugallja, hogy az új embeddingben hasonló információ van, mint a sztenderd HLBL-ben. cikk

T7.2 Az okság geometriáját 2d-s vizualizációban felderítve arra a hipotézisre jutottam, hogy az oksági párokat összekötő egyenesek egy közös ponthoz közel haladnak el. Ezt abba a kontextusba helyeztem, hogy az okozat intuitíve a megfelelő okból és egy oksági elemből áll össze. Ezt a hipotézist különféle embeddingekben vizsgáltam. A Sennában (Collobert et al., 2011) megáll a hipotézis, a többi vizsgált embeddingben a többszörös tesztelés problémáját is figyelembe véve nem. cikk

T7.3 Berend Gáborral hipernímákat nyertünk ki ritkajellemző-párokkal. Több kategóriát megnyertünk a SemEval egyik feladatában. Algebrai fogalomhálókkal (formal concept analysis, FCA) is próbálkoztunk – sikertelenül. cikk

T7.4.1 Elkészítettem a statikus szóvektorok egyik fő kiértékelésének, az analógiás kérdéseknek a magyar megfelelőjét, feltanítottam magyar szóbeágyazásokat, és teszteltem bennük az analógiák megjelenését. Tudtommal így a magyar lett a harmadik nyelv (az angol és a török után), ahol az analógiát tesztelték. A morfológiai analógiákra nézve az eredmény pozitív, míg a szemantikaiakban gyenge. cikk

T7.4.2 A lineáris fordítás módszerét kiterjesztettem a GloVe modellre és közepes erőforrású európai nyelvekre. cikk

T7.5 A szótári indukció háromszögelés nevű módszerét a lineáris fordításéval finomítva egy simább megbízhatósági mértéket kaptam a szópárokhoz. A módszert azzal mutattam be, hogy létrehoztam az akkor legnagyobb szabadon elérhető német-magyar szótárat (szópárlistát). cikk

T8 A többjelentésű szóbeágyazások (MSE) mint a többértelműség detektorai precision-jének becslésére való módszert vázoltunk fel Borbély Gáborral és Kornai Andrással, és ezt önállóan kidolgoztam. A módszer lineáris fordításon alapszik. A lineáris fordítás szokásos trükkjeinek ebben a feladatban való hatását vizsgálva megállapítottam, hogy a fordított szomszédok fontosak, míg az ortogonális megszorítás és az ehhez kapcsolódó technikák ebben a feladatban nem, sőt kicsit rontanak. A két fő MSE modellt, az AdaGramot (Bartunov et al., 2016) és a mutlit (Li and Jurafsky, 2015) összehasonlítva azt találtam, hogy az előbbiből indulva gyakrabban kapunk jó fordítást, de a túlegyértelműsítés is gyakoribb, mint az utóbbival. Ez megfelel annak az intuíciónak, hogy minél finomabb a jelentéskészelt, akár túlzottan, annál könnyebb fordítani. korábbi cikk (RepEval), bővebb cikk (K + K = 120)

Hozzájárulások a többszerzős cikkekhez

  • G. Berend, M. Makrai, P. Földiák: 300-sparsans at SemEval-2018 Task 9 (2018) Hypernymy as interaction of sparse attributes. In SemEval.
    • Berend Gáborral mindketten kódoltunk és írtuk a cikket, de az ő hozzájárulása lényegesen nagyobb, mondjuk 2:1. Én írtam meg és prezentáltam a posztert. Földiák Pétertől az FCA-s ötlet és szoftver (Endres, Földiák, and Priss, 2010).
  • M. Makrai, V. Lipp (2017/19) Do multi-sense word embeddings learn more senses?. In K + K = 120.
    • Lipp Vera: a poliszémia fajtáiról szóló bevezető szakasz írta, ami nem került be a disszertációba.
  • G. Borbély, A. Kornai, M. Makrai, D. Nemeskey (2016) Evaluating multi-sense embeddings for semantic resolution monolingually and in word translation. In RepEval.
    • Nemeskey Dávid az egynyelvű szótáras kísérletek csinálta, amit a disszertációban csak egy lábjegyzetben említek. A nyelvközi rész Borbély Gáborral közös eredmény egyenlő hozzájárulással.
  • A. Kornai, M. Makrai (2013) A 4lang fogalmi szótár. In IX. Magyar Számitógépes Nyelvészeti Konferencia.
    • Nagyrészt én írtam a definíciókat, András írta a cikket, én adtam elő.
  • M. Makrai, D. Nemeskey, A. Kornai (2013) Applicative structure in vector space models. In Proceedings of the Workshop on Continuous Vector Space Models and their Compositionality.
    • Én soroltam részrelációkba az antonim párokat, és előkészítettem a statisztikai tesztet. Nemeskey Dávid készítette az embeddinget, és ő fejezte be a kísérleteket. András írta a cikket.
  • D. Nemeskey, G. Recski, M. Makrai, A. Zséder, A. Kornai (2013) Spreading activation in language understanding. In Proc. CSIT 2013.
    • Nem kötődik hozzá tézisem.
  • B. Döbrössy, M. Makrai, B. Tarján, G. Szaszák (2019) Investigating sub-word embedding strategies for the morphologically rich and free phrase-order Hungarian. In Proc Repl4NLP.
    • Nem kötődik hozzá tézisem.