Magyar Webkorpusz 2.0
A Magyar Webkorpusz új, kb. 10 milliárd szavas verzióját a Common Crawlból építettük. Az eredeti Webkorpusszal szemben a dokumentumok egyben maradtak. Ennek megfelelően, a szövegen belüli távoli függőségek nem sérülnek, és ez lehetővé teszi az ezt felhasználni képes modellek (mint a BERT, Transformer-XL, stb.) tanítását is.
Használat
A korpuszt szöveg- és CoNLL-U formátumú tsv fájlokban tettük közzé. Az annotációt az emtsv
szövegelemző generálta.
A korpusz három változatban letölthető le; a két elemzett verzió a tsv file-ban szereplő mezők számában térnek el:
- A szövegkorpusz a BERT tanítóformátumát követi: egy sorban egy mondat van, minden két dokumentum között pedig egy üres sor. (25GB)
- A tisztított korpusz a felszíni alakot, a szó utáni szóközöket tartalmazza, illetve az
emtsv
által kiadott lemmát és szófajt. (83GB) - Az analizált korpusz ezen felül tartalmazza az
ana
mezőt, ami a szóalak összes lehetséges morfológiai elemzését listázza. (511GB)
Melyik változatot érdemes választani? Ha nincs szükség a morfológiai elemzésre (pl. szóbeágyazások tanításához), a szövegkorpusz a legjobb választás, mivel az a legkisebb. Egyébként a tisztított korpusz a legtöbb feladatra elég. Előnye, hogy sokkal kisebb, mint az 511GB-os analizált korpusz, ezért könnyebb kezelni és gyorsabban lehet feldolgozni. Ettől eltekintve az összes korpuszra igaz, hogy elég nagyok, ezért ennek megfelelő infrastruktúra szükséges a kezelésükhöz. Kérjük, hogy a korpuszt töltse le, és ne streamelje. A korpuszt feldolgozó program írásakor a legcélszerűbb először néhány fájlt letölteni, és azon letesztelni a kívánt funkcionalitást, mielőtt a teljes korpuszon lefuttatnánk azt.
Mindkét könyvár tartalmaz egy sha256sums
fájlt, ami minden tsv fájl sha256 ellenőrző összegét tartalmazza. The letöltött korpusz integritása ellenőrizhető a sha256sum -c sha256sums
paranccsal.
A kód, amivel a korpusz készült és ami segítséget nyújt a feldolgozásához letölthető a cc_corpus GitHub repozitóriumból.
Amennyiben felhasználja a korpuszt kutatásában, kérjük idézze a vonatkozó publikációt:
Nemeskey, Dávid Márk (2020). “Natural Language Processing methods for Language Modeling”. PhD thesis. Eötvös Loránd University.
Licenc
A Webkorpusz 2.0 két alkorpusza az alábbi két licenc alatt érhető el:
- A Common Crawl alkorpusz ugyanazon feltételek mellett használható, mint a Common Crawl maga.
- A Wikipedia alkorpusz, illetve a CC alkorpusz file-jainak második és afölötti számú oszlopai a Creative Commons Attribution-ShareAlike 4.0 Internation (CC BY-SA 4.0) license licenc alá tartoznak.
A korpusz letöltésével Ön hozzájárul, hogy a fenti licencekkel összhangban használja azt fel. Különös tekintettel az alábbiakra:
- Az adat automatizált webes gyűjtésből származik, a tartalmáért nem vállalunk felelősséget.
- Amennyiben (szerzői vagy egyéb) jogi aggály merülne fel bizonyos dokumentumokkal kapcsolatban, megtesszük a megfelelő lépéseket.
- Az esetleges jogsértés tényét írásban, aláírva várjuk, a jogsértő tartalom pontos megnevezésével.
- Kérjük, hogy elsőnek az erőforrás felelősével (lent) lépjen kapcsolatba, aki ellenőrzi a kérés jogalapját és megírja a postai címet.