SZTAKI HLT | Interaktív napló -- osztályozás magyar tezaurusszal

Interaktív napló -- osztályozás magyar tezaurusszal

Vámos Tibor
2019. június 28., 16:00
SZTAKI

A megértés kimeríthetetlen problémakörében kerestünk egy olyan feladatot, amelyik nem esik a nagy, intelligens szervezetek témakörébe. Ez egy praktikus eszköz lenne magánszemélyek és kis csoportok gyakorlatának segítésére, kategorizáláson némileg túllépve, interaktív naplóként is használatos módon. Sajátossága még a rosszul, lazán fogalmazott szövegek értelmezése. Az eredmény értelmező tömör jegyzetszöveg, amely felhasználja az elemzett szöveg szavait, továbbá a szemantikai besorolást egy felhasználási struktúrában, értelmező szótárak témaszűkített szavaival. Kiinduló lépés a főnevek és igék kiemelése. A főneveken belül kiválasztjuk a személyeket. Ha a szavak szerepelnek a 4lang szótárban, ez könnyen adódik. Az elemzés a barkochba játék sémáját követi. Itt az első kérdés: személy, tárgy, fogalom? Ha személy, ez a megértési gráf gyökere. Következő a mit tesz? Ezt a függőségi gráffal igyekszünk követni, igét keresve és azt ha lehet nyelvtanilag egyeztetve a személlyel. A függőségi gráfon meghatározzuk az ngram keresési távolságot, első közelítésben a mondatot. Az ige utalhat a cselekvés tárgyára. A kérdések megfelelnek a magyar függőségi megnevezéseknek, feladatunk ezek automatikus beépítése a kereső folyamatba, továbbá kiegészítése néhány finomítással. A leginkább hiányzó a miért? oksági kapcsolat, amit néhány gyakoribban használt, a conj-t finomító kötőszóval, a mert szinonimáival bővítünk. A kiválasztott főnevek és igék utalnak a szöveg szemantikai besorolására. Ennek (sajnos) eddig egyetlen módja a Roget, vagy Longman típusú tezaurusz kézi igénybevétele volt¸ magyar-angol fordítással és az értelmező szó kiválasztásával. Ezeknek a tezauruszoknak az értelmezési mélysége (legfeljebb 3 színt) egyelőre kielégítőnek tűnt, az eredmények szolgáltatták azt a fogalmi megnevezést, ami majdnem közvetlenül adta az ebben a munkában elfogadott megértést. A szemantikai értelmezés szavait olyan egyszerű nyelvtani keretbe tudjuk ágyazni, ami a kívánatos pontos értelmezési dialógusnak megfelelhet. Ha a gyökér tárgy, vagy fogalom, a menet, azaz a kérdezés taktikája hasonló. Talán ebből az összefoglalóból is látható, a legkritikusabb a magyar tezaurusz ügye. Az értelmező szótárak segíthetnek a besorolásokban és szinonimák válogatásában, de nem pótolhatják a tezauruszok készen kapható (vagy legrosszabb esetben könnyen kiegészíthető) struktúráit. Nagy kérdés, hogy a 4lang fejleszthető-e ilyen irányban? Mivel a felhasználás téma- és felhasználó szűkített, nem lehet kizárni ebben saját gyűjtést. A mostani munkafolyamatban a lépések közötti automatizálás a programozási feladat. Az eddigiek sok kézi kísérletezgetésre épültek és egy olyan változatos panaszkorpuszon folytak, amelyek értelmezése az olvasó számára is nehéz volt. A kísérlet különböző objektív akadályok miatt (betegségek, segítségek váltakozása) évek óta húzódik.