Psykolingvistiset tunnusluvut

Kuvaus

Tämä aineisto on saatavilla Kielipankin latauspalvelussa, sijaintipaikka http://urn.fi/urn:nbn:fi:lb-2018081602. Aineisto käsittää kuudesta eri tekstikorpuksesta kerättyjen sanojen frekvenssit sekä yksinkertaisen hakutyökalun, jolla sanoille voidaan laskea usein käytettyjä psykolingvistisiä tunnuslukuja. Sanafrekvenssitaulukoita on suodatettu, jotta ne vastaisivat paremmin sanojen todellisia taajuuksia. Tarkemmat tiedot suodatuksesta ja hakutyökalusta löytyvät readme-tiedostosta. Lemmojen (perusmuotojen) ja pintamuotojen aineistot yhdessä kattavat noin 2500 miljoonaa sanetta/lemmaa, 1,5 miljoonaa uniikkia sanaa ja 0,7 miljoonaa uniikkia lemmaa. Aineistot, joihin sanafrekvenssitaulukot perustuvat: Suomi 24 -korpus: http://urn.fi/urn:nbn:fi:lb-2017021630 Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus, Kielipankki-versio (KLK, vain vuodesta 1980 eteenpäin): http://urn.fi/urn:nbn:fi:lb-2016050302 1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpus, versio 2: http://urn.fi/urn:nbn:fi:lb-2017091901 Suomenkielinen Wikipedia 2017: http://urn.fi/urn:nbn:fi:lb-2018060401 Suomenkielinen Opensubtitles 2017: http://urn.fi/urn:nbn:fi:lb-2018060403 Lisäksi sanafrekvenssitaulukoiden tekemistä varten on haettu data seuraavalta verkkosivustolta: Suomenkieliseen Reddit-palveluun https://old.reddit.com/r/Suomi/ lähetetyt kommentit (tammikuu 2012 – joulukuu 2017)
Näytä enemmän

Julkaisuvuosi

2019

Aineiston tyyppi

Tekijät

University of Helsinki - Kuraattori

Tatu Huovilainen - Tekijä

Projekti

Muut tiedot

Tieteenalat

Kielitieteet

Kieli

Saatavuus

Avoin

Lisenssi

Creative Commons Nimeä 4.0 Kansainvälinen (CC BY 4.0)

Avainsanat

Asiasanat

Ajallinen kattavuus

undefined

Liittyvät aineistot