Erzya and Moksha Extended Corpora (ERME)

Kuvaus

ERME on pääasiassa ersä- ja mokšamordvan kirjallisuusaineisto. Aineisto koostuu useamman median julkaisuista aina 1800-luvulta 2000-luvulle asti. Sitä on kartoitettu sekä Saranskissa vuosina 1997-2004 että Helsingissä vuodesta 2004. Korpusten alkeellisin muoto on XML-formatti, jonka rakeisuus ulottuu kappaletasolle. Päämäärä on korpuksia, joissa rakeisuus ulottuu sanatasolle. Lausetasolla on kontekstuaalinen käännös (englanninnos tai suomennos), ja sanatasolla valitaan morfologinen koodaus, joka vastaa kutakin kontekstia. Alustava morfologinen analyysi tehdään hfst-pohjaisilla transduktoreilla, joita on kehitetty Tromssan yliopiston Giellateknon infrastruktuurilla. Käytetty kieliopillinen analyysi ja merkinnät noudattavat Tromssan yliopiston Giellateknon infrastruktuurissa kehitettyä käytännettä, jota noudatetaan useamman uralilaiskielen dokumentoinnissa. Käsiteltyä aineistoa on yli miljoona sanaa. Sitä on tarkoitus myöhemmin kasvattaa. ERME julkaistaan osoitteessa http://korp.csc.fi.
Näytä enemmän

Julkaisuvuosi

2022

Aineiston tyyppi

Tekijät

University of Helsinki

Jack Rueter - Kuraattori

Organisaatio puuttuu

Jack Rueter - Julkaisija, Tekijä, Kuraattori

Projekti

Muut tiedot

Tieteenalat

Kielitieteet

Kieli

englanti, suomi, Mokšan kieli, Ersän kieli

Saatavuus

Saatavuutta rajoitettu

Lisenssi

CLARIN ACA+NC (Academic, Non Commercial) End User License 1.0

Avainsanat

Asiasanat

Ajallinen kattavuus

undefined

Liittyvät aineistot