SZTAKI HLT | Makrai Márton

Makrai Márton

Makrai Márton számítógépes nyelvész, a PhD disszertációját az NYTI--ELTE elméleti nyelvészet programján védte meg 2024-ben, matematikusként szerzett MSc-t a BME-n 2010-ben. Időközben első sorban szemantikával, a szavak többértelműségének gépi tanulásával foglalkozott, most a HUN-REN TTK Kognitív Idegtudományi és Pszichológiai Kutatóintézetének tudományos segédmunkatársaként mély beszéd- és nyelvmodellek finomhangolásával foglalkozik.

Az oldal angol változata tömörebb.

Az MSc dolgozatát a nyelvelsajátítás egy matematikai modelljéről írta (identification in the limit).

Korai munkái Kornai András és csoportjának szemantikus hálójához, a 4lang-hez kötődnek: nagyrészt Makrai írta a definiáló szókincs gold jelentésreprezentációit és a diákok közül leginkább hozzá kötődik a mélyesetek elméleti kidolgozása. További 4lang-es publikációi az aktivációterjedésről szólnak, illetve a definiáló szókincset jellemzik információkinyerési és lexikogárfiai eszközökkel.

2015-től 2018-ig az MTA Nyelvtudományi Intézet (NYI) Nyelvtechnológiai Kutatócsoportja fiatal kutatójaként a szavak többértelműségét vizsgálta a gépi tanulás eszközeivel, első sorban a 2013 körül alapvetővé vált szóvektorokéval (word embedding). Kidolgozott két egymással csereviszonyban levő mértéket annak számszerűsítésére, hogy egy többjelentésű szóbeágyazás (multi-sense word embedding) mennyire jól ragadja meg a lexikai struktúrát: a jelentésvektoroknak elég specifikusnak kell lenniük, de nem szaporíthatják indokolatlanul a jelentéskészletet.

A kutatás egy másik ágában Berend Gáborral hipernimákat nyertek ki szóvektorokból. Ritka szóreprezentációkon alapuló módszerükkel megnyertek több kategóriát a szakma évente megrendezésre kerülő legrangosabb versenyének egyik feladatában.

A jelentéskészlet kutatása kapcsán már említett szófordítási feladatban ötvözte az úgynevezett háromszögelés módszerét a szóvektorok lineáris leképezésén alapulóval. A nyíltan közreadott, megbízhatósági pontszámokkal ellátott német-magyar erőforrás tudomásunk szerint a legnagyobb szabad elérésű szólista volt akkor (2016).

Elkészítette és nyíltan közreadta a szóvektorok kiértékelésének egyik legnépszerűbb módszerét adó analógiás kérdések teszthalmazának magyar megfelelőjét (pl. férfi : nő :: király : ?, a várt válasz a királynő). Ezt az erőforrást más kutatók is hasznosnak találták most is zajló kutatásukban. Bővebben a fiatal kutatói projektről.

Az ELKH TTK kutatójaként többnyelvű mondatklaszterezést végzett a CoALa projektben.

Megvédte a doktoriját az NYTK--ELTE elméleti nyelvészeti programján.

Elérhetőség:

makrai.hlt@gmail.com
hivatalos honlap
Teljes publikációs lista

Legfrissebb publikációk
2024
2022
2021
2020
2019
2018
2017
2016
2015
2014
2013
2010
2007