The International Comparable Corpus : Challenges in building multilingual spoken and written comparable corpora
Julkaisuvuosi
2021
Tekijät
Čermáková, Anna; Jantunen, Jarmo; Jauhiainen, Tommi; Kirk, John; Křen, Michal; Kupietz, Marc; Uí Dhonnchadha, Elaine
Tiivistelmä
This paper reports on the efforts of twelve national teams in building the International Comparable Corpus (ICC; https://korpus.cz/icc) that will contain highly comparable datasets of spoken, written and electronic registers. The languages currently covered are Czech, Finnish, French, German, Irish, Italian, Norwegian, Polish, Slovak, Swedish and, more recently, Chinese, as well as English, which is considered to be the pivot language. The goal of the project is to provide much-needed data for contrastive corpus-based linguistics. The ICC corpus is committed to the idea of re-using existing multilingual resources as much as possible and the design is modelled, with various adjustments, on the International Corpus of English (ICE). As such, ICC will contain approximately the same balance of forty percent of written language and 60 percent of spoken language distributed across 27 different text types and contexts. A number of issues encountered by the project teams are discussed, ranging from copyright and data sustainability to technical advances in data distribution.
Näytä enemmänOrganisaatiot ja tekijät
Helsingin yliopisto
Jauhiainen Tommi
Julkaisutyyppi
Julkaisumuoto
Artikkeli
Emojulkaisun tyyppi
Lehti
Artikkelin tyyppi
Alkuperäisartikkeli
Yleisö
TieteellinenVertaisarvioitu
VertaisarvioituOKM:n julkaisutyyppiluokitus
A1 Alkuperäisartikkeli tieteellisessä aikakauslehdessäJulkaisukanavan tiedot
Emojulkaisun nimi
Volyymi
9
Numero
1
Sivut
89-103
ISSN
Julkaisufoorumi
Julkaisufoorumitaso
1
Avoin saatavuus
Avoin saatavuus kustantajan palvelussa
Kyllä
Julkaisukanavan avoin saatavuus
Kokonaan avoin julkaisukanava
Rinnakkaistallennettu
Kyllä
Rinnakkaistallenteen lisenssi
CC BY
Muut tiedot
Tieteenalat
Tietojenkäsittely ja informaatiotieteet; Kielitieteet
Avainsanat
[object Object],[object Object],[object Object],[object Object],[object Object]
Julkaisumaa
Espanja
Kustantajan kansainvälisyys
Kansainvälinen
Kieli
englanti
Kansainvälinen yhteisjulkaisu
Kyllä
Yhteisjulkaisu yrityksen kanssa
Ei
DOI
10.32714/ricl.09.01.06
Julkaisu kuuluu opetus- ja kulttuuriministeriön tiedonkeruuseen
Kyllä