undefined

The International Comparable Corpus : Challenges in building multilingual spoken and written comparable corpora

Julkaisuvuosi

2021

Tekijät

Čermáková, Anna; Jantunen, Jarmo; Jauhiainen, Tommi; Kirk, John; Křen, Michal; Kupietz, Marc; Uí Dhonnchadha, Elaine

Tiivistelmä

This paper reports on the efforts of twelve national teams in building the International Comparable Corpus (ICC; https://korpus.cz/icc) that will contain highly comparable datasets of spoken, written and electronic registers. The languages currently covered are Czech, Finnish, French, German, Irish, Italian, Norwegian, Polish, Slovak, Swedish and, more recently, Chinese, as well as English, which is considered to be the pivot language. The goal of the project is to provide much-needed data for contrastive corpus-based linguistics. The ICC corpus is committed to the idea of re-using existing multilingual resources as much as possible and the design is modelled, with various adjustments, on the International Corpus of English (ICE). As such, ICC will contain approximately the same balance of forty percent of written language and 60 percent of spoken language distributed across 27 different text types and contexts. A number of issues encountered by the project teams are discussed, ranging from copyright and data sustainability to technical advances in data distribution.
Näytä enemmän

Organisaatiot ja tekijät

Jyväskylän yliopisto

Jantunen Jarmo Orcid -palvelun logo

Helsingin yliopisto

Jauhiainen Tommi

Julkaisutyyppi

Julkaisumuoto

Artikkeli

Emojulkaisun tyyppi

Lehti

Artikkelin tyyppi

Alkuperäisartikkeli

Yleisö

Tieteellinen

Vertaisarvioitu

Vertaisarvioitu

OKM:n julkaisutyyppiluokitus

A1 Alkuperäisartikkeli tieteellisessä aikakauslehdessä

Julkaisukanavan tiedot

Volyymi

9

Numero

1

Sivut

89-103

Julkaisu­foorumi

81669

Julkaisufoorumitaso

1

Avoin saatavuus

Avoin saatavuus kustantajan palvelussa

Kyllä

Julkaisukanavan avoin saatavuus

Kokonaan avoin julkaisukanava

Rinnakkaistallennettu

Kyllä

Rinnakkaistallenteen lisenssi

CC BY

Muut tiedot

Tieteenalat

Tietojenkäsittely ja informaatiotieteet; Kielitieteet

Avainsanat

[object Object],[object Object],[object Object],[object Object],[object Object]

Julkaisumaa

Espanja

Kustantajan kansainvälisyys

Kansainvälinen

Kieli

englanti

Kansainvälinen yhteisjulkaisu

Kyllä

Yhteisjulkaisu yrityksen kanssa

Ei

DOI

10.32714/ricl.09.01.06

Julkaisu kuuluu opetus- ja kulttuuriministeriön tiedonkeruuseen

Kyllä