ERME – Ersän ja mokšan laajennettu korpus, Korp-versio
Kuvaus
Tämä aineisto on saatavilla Kielipankin Korp-palvelussa, ks. Access location. Aineisto sisältää alkuperäisen ERME-korpuksen kokotekstien virkkeet, joiden järjestys on sekoitettu.
ERME on pääasiassa ersä- ja mokšamordvan kirjallisuusaineisto. Aineisto koostuu useamman median julkaisuista aina 1800-luvulta 2000-luvulle asti. Sitä on kartoitettu sekä Saranskissa vuosina 1997-2004 että Helsingissä vuodesta 2004. Korpusten alkeellisin muoto on XML-formaatti, jonka rakeisuus ulottuu kappaletasolle. Päämääränä on tuottaa korpuksia, joiden rakeisuus ulottuu sanatasolle.
Seuraavaan versioon: Lausetasolla on kontekstuaalinen käännös (englanninnos tai suomennos), ja sanatasolla valitaan morfologinen koodaus, joka vastaa kutakin kontekstia. Alustava morfologinen analyysi tehdään hfst-pohjaisilla transduktoreilla, joita on kehitetty Tromssan yliopiston Giellateknon infrastruktuurilla.
Käytetty kieliopillinen analyysi ja merkinnät noudattavat Tromssan yliopiston Giellateknon infrastruktuurissa kehitettyä käytännettä, jota noudatetaan useamman uralilaiskielen dokumentoinnissa.
Käsiteltyä aineistoa on yli miljoona sanaa. Sitä on tarkoitus myöhemmin kasvattaa.
Näytä enemmänJulkaisuvuosi
2018
Aineiston tyyppi
Tekijät
University of Helsinki - Kuraattori
Projekti
Muut tiedot
Tieteenalat
Kielitieteet
Kieli
englanti, suomi, Mokšan kieli, Ersän kieli
Saatavuus
Avoin