SZTAKI HLT | Magyar szóbeágyazások

Magyar szóbeágyazások

2019 - 2019

A Mesterséges Intelligencia Koalíció által szervezett első és második kiállításon a gépi szövegértést az MTA Nyelvtudományi Intézet kutatói képviselték. Két technológiát ismerhettek meg a látogatók: az e-magyar gépi szövegeelemző láncot, és a magyar szóbeágyazásokat, amik a szavakat reprezentálják szövegek gépi tanuláson (vagyis mesterséges intelligencián) alapuló feldolgozásához. Az utóbbi témában három demót láthattak az érdeklődők:

A gépi szövegértés alatt olyasmit kell érteni, mint például a gépi fordítás, egy másik az, amikor szövegekből bányászunk strukturált információt olyan alkalmazásokban, ahol erre nagy mennyiségben van szükség, pl. fogyasztói/választói elégedettség/vélemény mérése. Ha szövegeken akarunk gépi tanulást végezni, akkor először is szükség van jellemzőkre, ezt adják a szóvektorok. A nyelvtechnológia legtöbb módszere mindarra a jó száz emberei nyelvre működik, amire van elég szöveg, de vannak különbségek, pl. a magyarban a sok szóalak (képzők, ragok) miatt érdemes egy nyelvészeti tudást alkalmazó szótövezőt használni. Az e-magyar talán legfontosabb modulja is egy ilyen. A szóvektorok azt jellemzik, hogy a szavak milyen szűkebb szövegkörnyezetben mennyire gyakoriak (valószínűek, ,,természetesek"). Milliárd szavas szöveggyűjteményekből tanulja meg a gép a vektorokat, de ezek nyers szövegek: semmilyen emberi elemzés nem kell hozzá. A modelleket az teszi nyelvészetileg érdekessé és mérnökileg hasznossá, hogy ugyanazokat a vektorokat (sőt újabban mély hálók korai rétegeit) lehet használni egészen különböző feladatokra. A mesterséges intelligencia szó azért vált 2012 körül újra divatossá, mert a konnekcionista (neuronoknak gondolt csomópontok aktivációin és a közöttük levő asszociációkon alapuló, legalább 1974 óta kutatott) modellek összeértek a gépi tanulásnak a 90-es években kialakult szilárd módszertanával.

Projektvezető