SZTAKI HLT | Introducing huBERT

Introducing huBERT

Dávid Márk Nemeskey
In XVII. Magyar Számítógépes Nyelvészeti Konferencia, 2021

PDF

A cikk a huBERT modellcsaládot mutatja be. A család zászlóshajója a névadó huBERT, egy BERT Base modell, amit a Webkorpusz 2.0-n tanítottunk; utóbbi egy új, a Common Crawl magyar részéből készült 9 milliárd szavas korpusz. A modell jelentősen felülmúlja a többnyelvű BERT-et maszkolt nyelvmodellezésben, és új rekordot állít fel entitás- és névszóicsoport-felismerésben. A modellek szabadon hozzáférhetőek.

Hivatkozás
@InProceedings{ Nemeskey:2021a,
  author = {Nemeskey, Dávid Márk},
  title = {Introducing \texttt{huBERT}},
  booktitle = {{XVII}.\ Magyar Sz{\'a}m{\'i}t{\'o}g{\'e}pes Nyelv{\'e}szeti Konferencia ({MSZNY}2021)},
  year = 2021,
  pages = {TBA},
  address = {Szeged},
}