Psykolingvistiset tunnusluvut
Kuvaus
Tämä aineisto on saatavilla Kielipankin latauspalvelussa, sijaintipaikka http://urn.fi/urn:nbn:fi:lb-2018081602.
Aineisto käsittää kuudesta eri tekstikorpuksesta kerättyjen sanojen frekvenssit sekä yksinkertaisen hakutyökalun, jolla sanoille voidaan laskea usein käytettyjä psykolingvistisiä tunnuslukuja. Sanafrekvenssitaulukoita on suodatettu, jotta ne vastaisivat paremmin sanojen todellisia taajuuksia. Tarkemmat tiedot suodatuksesta ja hakutyökalusta löytyvät readme-tiedostosta.
Lemmojen (perusmuotojen) ja pintamuotojen aineistot yhdessä kattavat noin 2500 miljoonaa sanetta/lemmaa, 1,5 miljoonaa uniikkia sanaa ja 0,7 miljoonaa uniikkia lemmaa.
Aineistot, joihin sanafrekvenssitaulukot perustuvat:
Suomi 24 -korpus: http://urn.fi/urn:nbn:fi:lb-2017021630
Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus, Kielipankki-versio (KLK, vain vuodesta 1980 eteenpäin):
http://urn.fi/urn:nbn:fi:lb-2016050302
1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpus, versio 2: http://urn.fi/urn:nbn:fi:lb-2017091901
Suomenkielinen Wikipedia 2017: http://urn.fi/urn:nbn:fi:lb-2018060401
Suomenkielinen Opensubtitles 2017: http://urn.fi/urn:nbn:fi:lb-2018060403
Lisäksi sanafrekvenssitaulukoiden tekemistä varten on haettu data seuraavalta verkkosivustolta:
Suomenkieliseen Reddit-palveluun https://old.reddit.com/r/Suomi/ lähetetyt kommentit (tammikuu 2012 – joulukuu 2017)
Näytä enemmänJulkaisuvuosi
2019
Aineiston tyyppi
Tekijät
University of Helsinki - Kuraattori
Tatu Huovilainen - Tekijä
Projekti
Muut tiedot
Tieteenalat
Kielitieteet
Kieli
Saatavuus
Avoin