ERME – Ersän ja mokšan laajennettu korpus, Korp-versio

Kuvaus

Tämä aineisto on saatavilla Kielipankin Korp-palvelussa, ks. Access location. Aineisto sisältää alkuperäisen ERME-korpuksen kokotekstien virkkeet, joiden järjestys on sekoitettu. ERME on pääasiassa ersä- ja mokšamordvan kirjallisuusaineisto. Aineisto koostuu useamman median julkaisuista aina 1800-luvulta 2000-luvulle asti. Sitä on kartoitettu sekä Saranskissa vuosina 1997-2004 että Helsingissä vuodesta 2004. Korpusten alkeellisin muoto on XML-formaatti, jonka rakeisuus ulottuu kappaletasolle. Päämääränä on tuottaa korpuksia, joiden rakeisuus ulottuu sanatasolle. Seuraavaan versioon: Lausetasolla on kontekstuaalinen käännös (englanninnos tai suomennos), ja sanatasolla valitaan morfologinen koodaus, joka vastaa kutakin kontekstia. Alustava morfologinen analyysi tehdään hfst-pohjaisilla transduktoreilla, joita on kehitetty Tromssan yliopiston Giellateknon infrastruktuurilla. Käytetty kieliopillinen analyysi ja merkinnät noudattavat Tromssan yliopiston Giellateknon infrastruktuurissa kehitettyä käytännettä, jota noudatetaan useamman uralilaiskielen dokumentoinnissa. Käsiteltyä aineistoa on yli miljoona sanaa. Sitä on tarkoitus myöhemmin kasvattaa.
Näytä enemmän

Julkaisuvuosi

2018

Aineiston tyyppi

Tekijät

University of Helsinki - Kuraattori

Projekti

Muut tiedot

Tieteenalat

Kielitieteet

Kieli

englanti, suomi, Mokšan kieli, Ersän kieli

Saatavuus

Avoin

Lisenssi

Creative Commons Nimeä 4.0 Kansainvälinen (CC BY 4.0)

Avainsanat

Asiasanat

Ajallinen kattavuus

undefined

Liittyvät aineistot