Suomi24-korpus 2018-2020, VRT-versio 1.1 (julkaisuehdokas)

Kuvaus

The corpus is available for download in Kielipankki - the Language Bank of Finland. Please note that the corpus is a release candidate, so it may still change. The corpus contains all the texts available in the Suomi24 API from the discussion forums of the Suomi24 online social networking website from 1.1.2018 to 31.12.2020. The tokenized version was created and the annotation process carried out by Jussi Piitulainen. Updates: 2025-04-14: For version 1.1 the data has been updated with annotations of names recognized with FiNER 1.6 and languages of sentences identified with HeLI-OTS 2.0. The entire corpus in VRT format may be downloaded for academic research purposes.
Näytä enemmän

Julkaisuvuosi

2021

Aineiston tyyppi

Tekijät

City Digital Group - Tekijä

Helsingin yliopisto - Julkaisija

User support FIN-CLARIN - Kuraattori

Projekti

Muut tiedot

Tieteenalat

Kielitieteet

Kieli

suomi

Saatavuus

Saatavuutta rajoitettu

Lisenssi

CLARIN ACA+NC (Academic, Non Commercial) End User License 1.0

Avainsanat

Asiasanat

Ajallinen kattavuus

undefined

Liittyvät aineistot