SZTAKI HLT | emOSA nyílt beszédarchívum

emOSA nyílt beszédarchívum

2015 -

A projektben egy olyan webszájtot hozunk létre, amely elsősorban magyar nyelvű hanganyagok nyilvános, illetve kutatási célú hozzáférését teszi lehetővé. Ennek a nyílt beszédarchívumnak célja mind a szűkebb értelemben vett szakmai (nyelvészeti, antropológia, etnográfiai stb.) kutatások kiszolgálása, mind a modern beszédtechnológia (hosszú távon az automatikus beszédfelismerés, rövidebb távon a formátumkonverzió, beszélőazonosítás, beszéd/zenedetekció stb.) infrastrukturális támogatása.

Az archívum fókusza részint a magyar, részint a hazánkban beszélt kisebbségi nyelvek (pl. a különféle roma nyelvjárások) hanganyaga, de fontosnak tartjuk a szomszéd és a rokon népek nyelveit érintő gyűjtést is, legyenek ezek ott többségi vagy kisebbségi nyelvek, nyelvjárások. A természetes (nem laboratóriumi) körülmények között, esetenként zajos háttérrel vagy gyengébb berendezésekkel rögzített természetes beszéd (tehát nem felolvasott anyag) preferált, de akusztikailag tiszta anyagok archiválása is megengedett. Előny, ha a szöveg megvan átiratban is, de ez nem feltétele az archiválásnak.

A következő alprojektek vannak folyamatban:

beszéd és nem-beszéd automatikus elkülönítése (speech activity detection, Ács Judit)
automatikus nyelvazonosítás (Makrai Márton),
beszélőazonosítás (Pajkossy Katalin),
nyelvmodellezés (Nemeskey Dávid).

Bővebben

emOSA nyílt beszédarchívum

Projektvezető

Kornai András

Résztvevők

Ács Judit

Pajkossy Katalin