SZTAKI HLT | Makrai Márton

SZTAKI HLT | Makrai Márton

Makrai Márton

Makrai Márton számítógépes nyelvész. Matematikusként szerzett MSc-t a BME-n 2010-ben, a PhD disszertációját pedig az NYTI--ELTE elméleti nyelvészet programján védte meg 2024-ben. A gépi szövegértésen belül első sorban szemantikával foglalkozik. 2015 óta a HUN-REN TTK Kognitív Idegtudományi és Pszichológiai Kutatóintézetében űrpszichológiával foglalkozik, vagyis az űrhajózás emberi oldalával, például mély nyelvmodelleket finomhangol érzelemfelismerésre.

Az oldal hátralevő részének angol változata tömörebb.

Az MSc dolgozatát a nyelvelsajátítás egy matematikai modelljéről írta (identification in the limit).

Korai munkái Kornai András és csoportjának szemantikus hálójához, a 4lang-hez kötődnek: nagyrészt Makrai írta a definiáló szókincs gold jelentésreprezentációit és a diákok közül leginkább hozzá kötődik a mélyesetek elméleti kidolgozása. További 4lang-es publikációi az aktivációterjedésről szólnak, illetve a definiáló szókincset jellemzik információkinyerési és lexikogárfiai eszközökkel.

2015-től 2018-ig az MTA Nyelvtudományi Intézet (NYI) Nyelvtechnológiai Kutatócsoportja fiatal kutatójaként a szavak többértelműségét vizsgálta a gépi tanulás eszközeivel, első sorban a 2013 körül alapvetővé vált szóvektorokéval (word embedding). Kidolgozott két egymással csereviszonyban levő mértéket annak számszerűsítésére, hogy egy többjelentésű szóbeágyazás (multi-sense word embedding) mennyire jól ragadja meg a lexikai struktúrát: a jelentésvektoroknak elég specifikusnak kell lenniük, de nem szaporíthatják indokolatlanul a jelentéskészletet.

A kutatás egy másik ágában Berend Gáborral hipernimákat nyertek ki szóvektorokból. Ritka szóreprezentációkon alapuló módszerükkel megnyertek több kategóriát a szakma évente megrendezésre kerülő legrangosabb versenyének egyik feladatában.

A jelentéskészlet kutatása kapcsán már említett szófordítási feladatban ötvözte az úgynevezett háromszögelés módszerét a szóvektorok lineáris leképezésén alapulóval. A nyíltan közreadott, megbízhatósági pontszámokkal ellátott német-magyar erőforrás tudomásunk szerint a legnagyobb szabad elérésű szólista volt akkor (2016).

Elkészítette és nyíltan közreadta a szóvektorok kiértékelésének egyik legnépszerűbb módszerét adó analógiás kérdések teszthalmazának magyar megfelelőjét (pl. férfi : nő :: király : ?, a várt válasz a királynő). Ezt az erőforrást más kutatók is hasznosnak találták most is zajló kutatásukban. Bővebben a fiatal kutatói projektről.

Az ELKH TTK kutatójaként többnyelvű mondatklaszterezést végzett a CoALa projektben.

Megvédte a doktoriját az NYTK--ELTE elméleti nyelvészeti programján.

Személyes honlap

CV

Blog

Elérhetőség:

makrai.hlt@gmail.com

hivatalos honlap

Publikációk
Projektek
Erőforrások
Szoftver
Hallgatók
Oktatás

Teljes publikációs lista

Legfrissebb publikációk

2026

G. Gosztolya, M. Makrai, M. Kiss-Vetráb, L. Balázs: Detecting Sacrasm From Speech Using Transformer-Based and Traditional Methods. In SpeCom.

2025

B. Sass, É. Dömötör, B. Indig, M. Lagos Cortes, V. Lipp, M. Makrai, G. Pethő: Handling abstract constructions in a dictionary-based constructicon. In Electronic lexicography in the 21st century (eLex 2025): Intelligent lexicography. Proceedings of the eLex 2025 conference. B. Sass, B. Indig, Á. Kalivoda, M. Lagos Cortes, V. Lipp, M. Makrai, G. Pethő, L. Simon, N. Vadász: Magyar szerkezettár -- demó. In MSZNY. M. Makrai: Nem rocket science -- Mit adnak az űrpszichológiának a mély neurális hálók?. In Jubileumi Tudományünnep.

2024

M. Makrai: Symbolic and Distributed Word Representations -- Chapters on lexical relations and cross-lingual methods. In public defense of the Phd thesis.

2022

M. Makrai: Symbolic and distributed word representations. In pre-defence of the PhD thesis. M. Makrai: Three-order normalized PMI and other lessons in tensor analysis of verbal selectional preferences. In XVIII. Magyar Számítógépes Nyelvészeti Konferencia. M. Makrai, B. Ehmann, L. Balázs: Topic discovery in the diaries of Antarctica winteroverers with multilingual deep sentence encoders. In 7th International Conference on Research, Technology and Education of Space (H-SPACE 2022) “New trends in the space sector”. M. Makrai, Á. Tündik, B. Indig, G. Szaszák: Towards abstractive summarization in Hungarian. In XVIII. Magyar Számítógépes Nyelvészeti Konferencia.

2021

M. Makrai: Az EFNILEX és egy fiatal kutató -- Hat év magyar szóbeágyazásokkal. In A korpusznyelvészettől a neurális hálókig -- Köszöntő kötet Váradi Tamás 70. születésnapjára. Á. Feldmann, R. Hajdu, B. Indig, B. Sass, M. Makrai, I. Mittelholcz, D. Halász, Z. Yang, T. Váradi: HILBERT, magyar nyelvű BERT-large modell tanítása felhő környezetben. In XVII. Magyar Számítógépes Nyelvészeti Konferencia. M. Makrai, G. Szaszák: Magyar hírek kivonatolása előtanított mély nyelvmodellel – tervek. In Digitális örökség és mesterséges intelligencia konferencia.

2020

M. Makrai: Tárgyas szerkezetek elemzése tenzorfelbontással – áttekintő cikk [Tensor decomposition for transitive verb structure analysis -- a review]. In XVI. Magyar Számítógépes Nyelvészeti Konferencia.

2019

B. Döbrössy, M. Makrai, B. Tarján, G. Szaszák: Investigating sub-word embedding strategies for the morphologically rich and free phrase-order Hungarian. In Proc Repl4NLP. B. Indig, B. Sass, E. Simon, I. Mittelholcz, N. Vadász, M. Makrai: One format to rule them all – The emtsv pipeline for Hungarian. In Proc The 13th Linguistic Annotation Workshop.

2018

G. Berend, M. Makrai, P. Földiák: 300-sparsans at SemEval-2018 Task 9: Hypernymy as interaction of sparse attributes. In SemEval. M. Makrai, B. Sass: A szöveg mint skálafüggetlen hálózat. In XIV. Magyar Számítógépes Nyelvészeti Konferencia. J. Ács, G. Borbély, M. Makrai, D. Nemeskey, G. Recski, A. Kornai: Hibrid nyelvtechnológiák. In Magyar Tudomány 2018/6.

2017

M. Makrai, V. Lipp: Do multi-sense word embeddings learn more senses?. In K + K = 120.

2016

G. Borbély, A. Kornai, M. Makrai, D. Nemeskey: Evaluating multi-sense embeddings for semantic resolution monolingually and in word translation. In repeval. M. Makrai: Filtering Wiktionary triangles by linear mapping between distributed word models. In Proceedings of 10th Edition of the Language Resources and Evaluation Conference.

2015

M. Makrai: Comparison of distributed language models on medium-resourced languages. In XI. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2015). A. Kornai, J. Ács, M. Makrai, D. Nemeskey, K. Pajkossy, G. Recski: Competence in lexical semantics. In Proceedings of the Fourth Joint Conference on Lexical and Computational Semantics. M. Makrai: Disambiguated linear word translation in medium European languages. In IEEE 6th International Conference on Cognitive Infocommunications – CogInfoCom 2015.

2014

M. Makrai: Causality in vectors space language models. In Spring Wind. M. Makrai: Deep cases in the 4lang concept lexicon [Mélyesetek a 4lang fogalmi szótárban]. In X. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2014). M. Makrai: Mélyesetek a 4lang fogalmi szótárban. In X. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2014). M. Makrai: Vector space language models for psycholinguistic analysis. In Corpus resources for quantitative and psycholinguistic analysis.

2013

A. Kornai, M. Makrai: A 4lang fogalmi szótár. In IX. Magyar Számitógépes Nyelvészeti Konferencia. M. Makrai, D. Nemeskey, A. Kornai: Applicative structure in vector space models. In Proceedings of the Workshop on Continuous Vector Space Models and their Compositionality. M. Makrai: Fogalmak fontossága a definíciós gráf vizsgálatával [Importance of concepts based on the analysis of the definition graph]. In VII. Alkalmazott Nyelvészeti Doktoranduszkonferencia. D. Nemeskey, G. Recski, M. Makrai, A. Zséder, A. Kornai: Spreading activation in language understanding. In Proc. CSIT 2013.

2010

M. Makrai: Subregular Categorial Grammars. In MSc thesis.

2007

M. Makrai: Többértelműségek magyar mondatok számítógépes elemzésében - a „meg” szó szófajának vizsgálata gyakoriságokkal.

Projektvezető

Magyar szóbeágyazások Szótöbbértelműség efnilex-vect

Résztvevő

4lang Jelentésalapú nyelvtechnológia nyelvek digitális életereje

Szerző

4lang fogalmi szótár

Számítógépes nyelvészet (2021/2022 tavasz) Számítógépes lexikai szemantika 2. (2018/2019 ősz) Vektoros szómodellek (2017/2018 tavasz) Számítógépes lexikai szemantika -- Szimbolikus reprezentációk (2017/2018 ősz) Jelentésreprezentáció (2015/2016 ősz) Digitális nyelvleírás (2014/2015 tavasz) Hatékony módszerek a nyelvleírásban (2014/2015 ősz)

Publikációk

Projektek

4lang Jelentésalapú nyelvtechnológia nyelvek digitális életereje

Oktatás

Számítógépes lexikai szemantika -- Szimbolikus reprezentációk Számítógépes lexikai szemantika 2. Digitális nyelvleírás Hatékony módszerek a nyelvleírásban Jelentésreprezentáció Számítógépes nyelvészet Vektoros szómodellek