BME HLT | Makrai Márton

Makrai Márton

Makrai Márton számítógépes szemantikai kutatásokat végez az MTA Nyelvtudományi és Kognitív Idegtudományi és Pszichológiai Intézeteinek tudományos segédmunkatársaként.

Korai munkái Kornai András és csoportjának szemantikus hálójához, a 4lang-hez kötődnek: nagyrészt ő írta a definiáló szókincs gold jelentésreprezentációit és a diákok közül leginkább hozzá kötődik a mélyesetek elméleti kidolgozása. További 4lang-es publikációi az aktivációterjedésről szólnak illetve a definiáló szókincset jellemzik információkinyerési és lexikogárfiai eszközökkel.

2015-től 2018-ig az MTA NYI Nyelvtechnológiai Kutatócsoportja fiatal kutatójaként a szavak többértelműségét vizsgálta a gépi tanulás eszközeivel, első sorban a 2013 óta alapvetővé vált szóvektorokéval (word embedding). Kidolgozott két egymással csereviszonyban levő mértéket annak számszerűsítésére, hogy egy többjelentésű szóbeágyazás (multi-sense word embedding, MSE) mennyire jól ragadja meg a lexikai struktúrát: a jelentésvektoroknak elég specifikusnak kell lenniük, de nem szaporíthatják indokolatlanul a jelentéskészletet. A kutatás egy másik ágában Berend Gáborral hipernimákat nyertek ki szóvektorokból. Ritka szóreprezentációkon alapuló módszerükkel megnyertek több kategóriát a szakma évente megrendezésre kerülő legrangosabb versenyének egyik feladatában. A jelentéskészlet kutatása kapcsán már említett szófordítási feladatban ötvözte az úgynevezett háromszögelés módszerét a szóvektorok lineáris leképezésén alapulóval. A nyíltan közreadott, megbízhatósági pontszámokkal ellátott német-magyar erőforrás tudomásunk szerint a legnagyobb szabad elérésű szólista volt akkor (2016). Elkészítette és nyíltan közreadta a szóvektorok kiértékelésének egyik legnépszerűbb módszerét adó analógiás kérdések teszthalmazának magyar megfelelőjét (pl. férfi : nő :: király : ?, a várt válasz a királynő). Ezt az erőforrást más kutatók is hasznosnak találták most is zajló kutatásukban.

Jelenleg a disszertációja (MTA-ELTE elméleti nyelvészeti program) záróköveként a két nagy témát, az igei szerepeket és a lineáris algebrai modelleket igyekszik összekötni (Makrai, bírálat alatt). A diplomamunkáját a nyelvelsajátítás egy matematikai modelljéről írta (identification in the limit).

A fiatal kutatói időszakról bővebben

Egyértelműsített szóvektorok szemantikai szemcsésségének mérése

A nyelvtechnológiában 2013 óta lényegében minden feladat első lépése, hogy a szavakat egy párszáz-dimenziós vektortér pontjaiként reprezentálják, ahol a hasonló szavak egymáshoz közel vannak, és különféle szintaktikai és szemantikai hasonlóságok különböző látens irányok mentén jelennek meg felügyeletlen gépi tanulás eredményeként. A szóvektorok a szokásos esetben egy-egy szóalakhoz tartoznak, így a többértelmű szavak vektora rosszabb minőségű. Ezt a problémát hivatottak megoldani a többjelentésű szómodellek (multi-sense word embedding, MSE), amelyek a szóalakok különféle jelentéseit különböző vektorokkal ábrázolják. Ebben a paradigmában annak a megállapítása is a felügyeletlen modell feladata, hogy mely szavak többértelműek, és azoknak hány jelentése van. Az alkalmazásban legjobbnak bizonyuló modellek vektorai közül azonban sok nem felel meg a motiváló várakozásoknak: olyan jelentések között tesznek különbséget, melyeket intuitíve ugyanazon jelentés különböző kontextusokban való használatának tekintenénk, vagy puszta zajt képviselnek. Ezért a kutató szerzőtársaival (Borbély et al. 2016) két új módszert javasolt az MSEk szemantikai szemcsésségének mérésére. Az egyik egynyelvű szótárakat használ, a másik pedig azon az elven alapszik, hogy egy szó akkor többértelmű, ha a feltételezett jelentések más nyelvre való fordítása különböző. Az utóbbit Makrai és Lipp (2017) pontosította két pontosságmértéket formalizálva, a jelentéskészletét (ami bünteti duplumokat) és a vektorokét (hogy ne mossanak össze jelentéseket). A kísérletek igazolták, hogy a két mérték között csereviszony van: minél specifikusabb egy vektor, annál könnyebb lefordítani, csak persze ha túl specifikus, akkor egybeeshetnek a fordítások.

Szótári relációk

A kutató másik nagy témája a szavak szótári jelentése között fennálló relációk. Az első munka (Makrai et al 2013) jelentőségét az adja, hogy szerzőtársaival már a szóvektorok születésének évében vizsgálta a szótári relációk megjelenését a vektorok terében, ami később egy erősen kutatott téma lett. Makrai (2014) egy ritkábban tekintett relációt, az okságot vizsgálta. A kutatónak a beszámolási időszakon belül utolsó publikációja (Berend et al 2018) ismét ebbe a témába tartozik: hipernimákat (a fölérendelt fogalmat, pl. hogy a kutya egy állat) nyertek ki szóvektorokból. Kutatásukat a matematikai fogalomhálók (concept lattice) motiválták. A fogalomhálók szempontjából az eredmény negatív, mert a legjobb eredményeket egyszerűbb módszerekkel, ritka szóreprezentációkkal érték el, de így is sikerült megnyerniük több kategóriát a szakma évente megrendezésre kerülő legrangosabb versenyének egyik feladatában.

Szótárkinyerés szóvektorokból

A jelentéskészlet kutatása kapcsán már említett szófordítási feladat önmagában is hasznos és érdekes. Egyik bevett eszköze az úgynevezett háromszögelés: abból, hogy a cseh zvíře angol fordítása animal, az animal magyar fordítása pedig állat, arra lehet következtetni, hogy a zvíře magyarul állat. Makrai (2016) hamis háromszögeket szűrt ki szóvektorok segítségével a német-magyar nyelvpáron. Ezek is összefüggnek a többértelműséggel: legtöbbször a középső nyelv homonímiái hozzák be a zajt (német was – magyar mi – angol we). A vektoros módszer viszont csak a forrás- és a célnyelv többértelműségeire érzékeny, így a kettő kompenzálja egymást. A kutató megmutatta, hogy a lineáris leképezésből kapott pontszámok simább mértékét adják a fordítások jóságának, mintha csak megszámoljuk, hogy hány nyelven keresztül háromszögelhető az adott szópár. A nyíltan közreadott, megbízhatósági pontszámokkal ellátott német-magyar erőforrás tudomásunk szerint a legnagyobb szabad elérésű szólista volt akkor.

Magyar analógiás kérdések

A szóvektorok kiértékelésének egyik legnépszerűbb módja az analógiás kérdések, pl. férfi : nő :: király : ?. (A várt válasz a királynő.) Makrai (2015) az egyik híres angol teszthalmaz magyar megfelelőjét adta közre szabadon és ezen mutatott korai eredményeket. Ezekkel a kérdésekkel olyan módszereket tesztel jelenleg magyarra Lévai Dániel (SZTAKI, személyes közlés), amelyek a szóvektorokat hagyományosabb nyelvi erőforrások alapján igazítva javítják (retro-fitting, Rothe et al 2016; counter-fitting, Mrkšić et al 2016).

Oktatás

A kutató a jelentési időszakban a következő kurzusokat tartotta az ELTE-MTA NYI elméleti nyelvészet szakcsoportjáról és a Pázmány Péter Katolikus Egyetemről való hallgatóknak:

  • Számítógépes lexikai szemantika 2. 2018/2019 ősz
  • Vektoros szómodellek 2017/2018 tavasz
  • Számítógépes lexikai szemantika -- Szimbolikus reprezentációk 2017/2018 ősz
  • Jelentésreprezentáció 2015/2016 ősz
Eltérés az eredeti kutatási tervtől

A tervben eredetileg szerepelt a képzős szavak és a többszavas kifejezések vizsgálata is, azonban a többértelműség témája a vártnál szerteágazóbbnak bizonyult, így az előbbiekre nem jutott idő. Ugyanakkor az eredeti terveken felül szárnypróbálgatások történtek a szintaxis hálózattudományi eszközökkel (skálafüggetlen hálózatként) való kutatása felé (Makrai és Sass, 2018).

Elérhetőség:

makrai.hlt@gmail.com
MTA Nyelvtudományi Intézet
Budapest 1394 Pf. 360
1068 Budapest, Benczúr u. 33.,
320-as szoba
+36 1 342 9372, 6027-es mellék (lehet, hogy érdemes kicsit várni a mellék beütésével)
Teljes publikációs lista

Legfrissebb publikációk
2018
2017
2016
2015
2014
2013
2007