SZTAKI HLT | Szeminárium

Következő szeminárium

Interaktív napló -- osztályozás magyar tezaurusszal
Vámos Tibor
2019. június 28., 16:00
Lágymányosi utca

A megértés kimeríthetetlen problémakörében kerestünk egy olyan feladatot, amelyik nem esik a nagy, intelligens szervezetek témakörébe. Ez egy praktikus eszköz lenne magánszemélyek és kis csoportok gyakorlatának segítésére, kategorizáláson némileg túllépve, interaktív naplóként is használatos módon. Sajátossága még a rosszul, lazán fogalmazott szövegek értelmezése. Az eredmény értelmező tömör jegyzetszöveg, amely felhasználja az elemzett szöveg szavait, továbbá a szemantikai besorolást egy felhasználási struktúrában, értelmező szótárak témaszűkített szavaival. Kiinduló lépés a főnevek és igék kiemelése. A főneveken belül kiválasztjuk a személyeket. Ha a szavak szerepelnek a 4lang szótárban, ez könnyen adódik. Az elemzés a barkochba játék sémáját követi. Itt az első kérdés: személy, tárgy, fogalom? Ha személy, ez a megértési gráf gyökere. Következő a mit tesz? Ezt a függőségi gráffal igyekszünk követni, igét keresve és azt ha lehet nyelvtanilag egyeztetve a személlyel. A függőségi gráfon meghatározzuk az ngram keresési távolságot, első közelítésben a mondatot. Az ige utalhat a cselekvés tárgyára. A kérdések megfelelnek a magyar függőségi megnevezéseknek, feladatunk ezek automatikus beépítése a kereső folyamatba, továbbá kiegészítése néhány finomítással. A leginkább hiányzó a miért? oksági kapcsolat, amit néhány gyakoribban használt, a conj-t finomító kötőszóval, a mert szinonimáival bővítünk. A kiválasztott főnevek és igék utalnak a szöveg szemantikai besorolására. Ennek (sajnos) eddig egyetlen módja a Roget, vagy Longman típusú tezaurusz kézi igénybevétele volt¸ magyar-angol fordítással és az értelmező szó kiválasztásával. Ezeknek a tezauruszoknak az értelmezési mélysége (legfeljebb 3 színt) egyelőre kielégítőnek tűnt, az eredmények szolgáltatták azt a fogalmi megnevezést, ami majdnem közvetlenül adta az ebben a munkában elfogadott megértést. A szemantikai értelmezés szavait olyan egyszerű nyelvtani keretbe tudjuk ágyazni, ami a kívánatos pontos értelmezési dialógusnak megfelelhet. Ha a gyökér tárgy, vagy fogalom, a menet, azaz a kérdezés taktikája hasonló. Talán ebből az összefoglalóból is látható, a legkritikusabb a magyar tezaurusz ügye. Az értelmező szótárak segíthetnek a besorolásokban és szinonimák válogatásában, de nem pótolhatják a tezauruszok készen kapható (vagy legrosszabb esetben könnyen kiegészíthető) struktúráit. Nagy kérdés, hogy a 4lang fejleszthető-e ilyen irányban? Mivel a felhasználás téma- és felhasználó szűkített, nem lehet kizárni ebben saját gyűjtést. A mostani munkafolyamatban a lépések közötti automatizálás a programozási feladat. Az eddigiek sok kézi kísérletezgetésre épültek és egy olyan változatos panaszkorpuszon folytak, amelyek értelmezése az olvasó számára is nehéz volt. A kísérlet különböző objektív akadályok miatt (betegségek, segítségek váltakozása) évek óta húzódik.

Régebbi szemináriumok

2019. június 14. Eredmények és ötletek WFSA-ról Borbély Gábor
2019. június 7. Variációs autoenkóderek 1. Varga Dániel
2019. május 24. Polarizált vélemények szabadasszociáció-hálózatokból File Bálint
2019. május 17. Extractive summarization - methods and problems Recski Gábor
2019. május 10. Chatbot architektúra az Amazon Alexa versenyre Csáky Richárd
2019. április 26. Szóbeágyazások redukálása Lévai Dániel
2019. április 12. Szentimenttel dúsított generálás Ihász Péter
2019. április 5. A Transformer és a GPT-2 mély nyelvmodell Nemeskey Dávid Márk
2019. március 22. Igei többértelműség tenzorfelbontással Makrai Márton
2019. február 27. UMAP folytatás Borbély Gábor
2019. február 1. UMAP Borbély Gábor
2018. december 7. Mély, kontextualizált szóreprezentációk Berend Gábor
2018. október 26. Approaches to Surface Realization of Universal Dependencies Recski Gábor
2018. október 19. Az okozatiság forradalma Földiák Péter
2018. október 12. Borbély: Wasserstein VAE, Makrai: mondatklaszterezés Borbély Gábor
2018. szeptember 28. Chatbot-ok javítása entrópia alapú adatszűréssel (és további kutatási irányok) Csáky Richárd
2018. szeptember 21. SkipGram - Zipf + Uniform = Vector Additivity Borbély Gábor
2018. augusztus 22. Expanding Access to Language through Data-Driven Design Bragg Danielle
2018. április 13. Szemantikus memória Nagy Dávid Gergely
2018. február 9. Bayesi döntéshozatal nemegyenlő tartójú eloszlásokra Borbély Gábor
2017. december 14. Comprehensive Conditioning of Neural Conversational Models Csáky Richárd
2017. november 30. Bayesian model selection, inference and Minimum Description Length Földiák Péter
2017. november 23. Magyar morfológiai szegmentáció rekurrens és konvolúciós hálókkal Ács Judit
2017. november 9. A természetes mondatok hossza Borbély Gábor
2017. november 2. Ötletelés a jövő évi SemEval distinktív jegyes taskjára (Task 10) Makrai Márton
2017. szeptember 21. Recurrent dropout Nemeskey Dávid Márk
2017. szeptember 14. Stanford’s Graph-based Neural Dependency Parser Recski Gábor
2017. szeptember 7. Chatbots Recski Gábor
2017. június 15. Sparse Coding of Neural Word Embeddings for Multilingual Sequence Labeling Makrai Márton
2017. június 1. Wasserstein GAN Borbély Gábor
2017. május 11. Autoencoder experiments on Hungarian words Ács Judit
2017. április 27. Beyond RNN: multi-dimensional RNN, RNN transducers, RNN grammars Nemeskey Dávid Márk
2017. április 13. Training a Universal Word Embedding Iklódi Eszter
2017. március 30. Interpreted Regular Tree Grammars for semantic parsing Recski Gábor
2017. március 16. 2 recent papers on Deep Learning
2017. március 2. Rekurrens neurális hálók megértése és vizualizációja Borbély Gábor