Europarl Parallel Corpus

Kuvaus

The Europarl parallel corpus is extracted from the proceedings of the European Parliament. It includes versions in 21 European languages: Romanic (French, Italian, Spanish, Portuguese, Romanian), Germanic (English, Dutch, German, Danish, Swedish), Slavik (Bulgarian, Czech, Polish, Slovak, Slovene), Finni-Ugric (Finnish, Hungarian, Estonian), Baltic (Latvian, Lithuanian), and Greek. The goal of the extraction and processing was to generate sentence aligned text for statistical machine translation systems. For this purpose we extracted matching items and labeled them with corresponding document IDs. Using a preprocessor we identified sentence boundaries. We sentence aligned the data using a tool based on the Church and Gale algorithm.
Näytä enemmän

Julkaisuvuosi

2020

Aineiston tyyppi

Tekijät

University of Edinburgh

Philipp Koehn - Kuraattori, Tekijä

Projekti

Muut tiedot

Tieteenalat

Kielitieteet

Kieli

Bulgarian kieli, Tšekin kieli, Tanskan kieli, saksa, kreikka, englanti, viro, suomi, ranska, Unkarin kieli, italia, latvia, Liettuan kieli, hollanti, puola, portugali, Romanian kieli, slovakki, sloveeni, espanja, ruotsi

Saatavuus

Saatavuutta rajoitettu

Lisenssi

muu

Avainsanat

Asiasanat

Ajallinen kattavuus

undefined

Liittyvät aineistot