emOSA nyílt beszédarchívum
A projektben egy olyan webszájtot hozunk létre, amely elsősorban magyar nyelvű hanganyagok nyilvános, illetve kutatási célú hozzáférését teszi lehetővé. Ennek a nyílt beszédarchívumnak célja mind a szűkebb értelemben vett szakmai (nyelvészeti, antropológia, etnográfiai stb.) kutatások kiszolgálása, mind a modern beszédtechnológia (hosszú távon az automatikus beszédfelismerés, rövidebb távon a formátumkonverzió, beszélőazonosítás, beszéd/zenedetekció stb.) infrastrukturális támogatása.
Az archívum fókusza részint a magyar, részint a hazánkban beszélt kisebbségi nyelvek (pl. a különféle roma nyelvjárások) hanganyaga, de fontosnak tartjuk a szomszéd és a rokon népek nyelveit érintő gyűjtést is, legyenek ezek ott többségi vagy kisebbségi nyelvek, nyelvjárások. A természetes (nem laboratóriumi) körülmények között, esetenként zajos háttérrel vagy gyengébb berendezésekkel rögzített természetes beszéd (tehát nem felolvasott anyag) preferált, de akusztikailag tiszta anyagok archiválása is megengedett. Előny, ha a szöveg megvan átiratban is, de ez nem feltétele az archiválásnak.
A következő alprojektek vannak folyamatban:
- beszéd és nem-beszéd automatikus elkülönítése (speech activity detection, Ács Judit)
- automatikus nyelvazonosítás (Makrai Márton),
- beszélőazonosítás (Pajkossy Katalin),
- nyelvmodellezés (Nemeskey Dávid).