SZTAKI HLT | Magyar Webkorpusz 2.0

Magyar Webkorpusz 2.0

2020 -

A Magyar Webkorpusz új, kb. 10 milliárd szavas verzióját a Common Crawlból építettük. Az eredeti Webkorpusszal szemben a dokumentumok egyben maradtak. Ennek megfelelően, a szövegen belüli távoli függőségek nem sérülnek, és ez lehetővé teszi az ezt felhasználni képes modellek (mint a BERT, Transformer-XL, stb.) tanítását is.

Használat

A korpuszt szöveg- és CoNLL-U formátumú tsv fájlokban tettük közzé. Az annotációt az emtsv szövegelemző generálta.

A korpusz három változatban letölthető le; a két elemzett verzió a tsv file-ban szereplő mezők számában térnek el:

A szövegkorpusz a BERT tanítóformátumát követi: egy sorban egy mondat van, minden két dokumentum között pedig egy üres sor. (25GB)
A tisztított korpusz a felszíni alakot, a szó utáni szóközöket tartalmazza, illetve az emtsv által kiadott lemmát és szófajt. (83GB)
Az analizált korpusz ezen felül tartalmazza az ana mezőt, ami a szóalak összes lehetséges morfológiai elemzését listázza. (511GB)

Melyik változatot érdemes választani? Ha nincs szükség a morfológiai elemzésre (pl. szóbeágyazások tanításához), a szövegkorpusz a legjobb választás, mivel az a legkisebb. Egyébként a tisztított korpusz a legtöbb feladatra elég. Előnye, hogy sokkal kisebb, mint az 511GB-os analizált korpusz, ezért könnyebb kezelni és gyorsabban lehet feldolgozni. Ettől eltekintve az összes korpuszra igaz, hogy elég nagyok, ezért ennek megfelelő infrastruktúra szükséges a kezelésükhöz. Kérjük, hogy a korpuszt töltse le, és ne streamelje. A korpuszt feldolgozó program írásakor a legcélszerűbb először néhány fájlt letölteni, és azon letesztelni a kívánt funkcionalitást, mielőtt a teljes korpuszon lefuttatnánk azt.

Mindkét könyvár tartalmaz egy sha256sums fájlt, ami minden tsv fájl sha256 ellenőrző összegét tartalmazza. The letöltött korpusz integritása ellenőrizhető a sha256sum -c sha256sums paranccsal.

A kód, amivel a korpusz készült és ami segítséget nyújt a feldolgozásához letölthető a cc_corpus GitHub repozitóriumból.

Amennyiben felhasználja a korpuszt kutatásában, kérjük idézze a vonatkozó publikációt:

Nemeskey, Dávid Márk (2020). “Natural Language Processing methods for Language Modeling”. PhD thesis. Eötvös Loránd University.

Licenc

A Webkorpusz 2.0 két alkorpusza az alábbi két licenc alatt érhető el:

A Common Crawl alkorpusz ugyanazon feltételek mellett használható, mint a Common Crawl maga.
A Wikipedia alkorpusz, illetve a CC alkorpusz file-jainak második és afölötti számú oszlopai a Creative Commons Attribution-ShareAlike 4.0 Internation (CC BY-SA 4.0) license licenc alá tartoznak.

A korpusz letöltésével Ön hozzájárul, hogy a fenti licencekkel összhangban használja azt fel. Különös tekintettel az alábbiakra:

Az adat automatizált webes gyűjtésből származik, a tartalmáért nem vállalunk felelősséget.
Amennyiben (szerzői vagy egyéb) jogi aggály merülne fel bizonyos dokumentumokkal kapcsolatban, megtesszük a megfelelő lépéseket.
Az esetleges jogsértés tényét írásban, aláírva várjuk, a jogsértő tartalom pontos megnevezésével.
Kérjük, hogy elsőnek az erőforrás felelősével (lent) lépjen kapcsolatba, aki ellenőrzi a kérés jogalapját és megírja a postai címet.

Magyar Webkorpusz 2.0

Használat

Licenc

Tulajdonos

Nemeskey Dávid Márk