Suomen korpus (kirjallisuutta) (UHLCS)

Kuvaus

Aineisto on saatavilla Kielipankin sovelluspalvelimella (puhti.csc.fi, käyttöoikeuksien hakemisesta ks. https://www.kielipankki.fi/kayttajaksi/). Sijainti: /appl/data/kielipankki/mrc-uhlcs/general-linguistics/uralic-lgs/finno-ugric-lgs/baltic-finnic-lgs/finnish Sisältö: 1. HKV-korpus koostuu eri kirjallisuuden lajeja edustavista teksteistä. Korpus on dokumentoitu seuraavassa julkaisussa: Auli Hakulinen & Fred Karlsson & Maria Vilkuna. 1980. Suomen tekstilauseiden piirteitä: kvantitatiivinen tutkimus. Publications, No.6. Department of General Linguistics, University of Helsinki. HKV-korpuksen on koostanut Kristiina Jokinen. 2. LE PAROLE: Kansainvälisen hankkeen "LE PAROLE" yhteydessä laadittiin sähköisessä muodossa olevia kieliaineistoja useista Euroopassa puhuttavista kielistä. Suomesta laadittu LE PAROLE -korpus on käytettävissä CSC:llä, Kotimaisten kielten tutkimuskeskuksessa (http://www.kotus.fi/) ja UHLCS:ssa. Korpus sisältää SGML-muodossa olevan rakenneanalyysin ja TEI-informaation. Korpukseen kuuluu eri tavoin analysoituja alikorpuksia. Korpus on Latin-1-muodossa (ISO 8859-1). Computational morphosyntax: Report on research 1981-84. Publications, No. 13. pp. 115-136. University of Helsinki, Department of General Linguistics, 1985. Korpus on ASCII-muodossa. Syntaktisesti koodatun korpuksen koko on 68 425 sanaa ja 837 373 merkkiä. Lauseita korpuksessa on 10,149. 3. Helsingin alueen puhekielen korpus (1972-1974): Korpus koostuu aineistoista, jotka on koottu hankkeen "Nykysuomen murros" aikana. Hankkeen johtaja oli Heikki Paunonen ja hankkeen Valtion humanistisen toimikunta (the Committee of humanistic research in Finland) ja pääosa hankkeesta oli käynnissä vuosien 1977-1980 aikana. Korpuksen kuvauksen, joka on tutkijoiden käytettävissä, on laatinut Pirkko Kukkonen. Korpus on transkriboitu puhekielen aineistoista, jotka on nauhoitettu. Korpuksen koko on 127 x 30 min. Korpus on ASCII-muodossa. 4. Suomen Kuvalehti, vuosina 1975 ja 1976 julkaistuja numeroita: Korpus sisältää Suomen Kuvalehden numeroita vuosilta 1975 ja 1976. Suomen Kuvalehden kustantaja Yhtyneet Kuvalehdet Oy on antanut korpuksen Helsingin yliopiston yleisen kielitieteen laitokselle käytettäväksi aineistona tutkimuksessa ja opetuksessa. Korpuksen koko on 840 672 sanaa ja 9 693 042 merkkiä. Korpus on ASCII-muodossa. 5. Suomen Kuvalehti, kaikki vuonna 1987 julkaistut numerot: Korpus sisältää kaikki vuonna 1987 julkaistut Suomen Kuvalehden numerot. Suomen Kuvalehden kustantaja Yhtyneet Kuvalehdet Oy on antanut korpuksen Helsingin yliopiston yleisen kielitieteen laitokselle käytettäväksi aineistona tutkimuksessa ja opetuksessa. Korpuksen koko on 1 730 597 sanaa ja 12 520 546 merkkiä. Korpus on ASCII-muodossa. 6. Tiede 2000: Korpus sisältää aikakauslehden Tiede 2000 vuonna 1990 julkaistua materiaalia: Tiede 2000,1990: 1, 39-43. Korpuksen koko on 68 067 sanaa ja 464 792 merkkiä. Korpus on ASCII-muodossa. 7. WSOY: Korpus sisältää osia Werner Söderström Osakeyhtiön (Helsinki ja Porvoo) julkaisemista kirjoista. Korpuksen koko on 979 516 sanaa ja 7 086 335 merkkiä. Korpus on ASCII-muodossa. Suomen kielen korpusten lähdetiedot on mainittava kaikissa niissä dokumenteissa, joissa niitä on käytetty lähdeaineistona. Suomen korpus on osa UHLCS-kokoelmaa. UHLCS:llä on monta eri omistajaa. Kokoelmaan liittyvistä asioista voi tiedustella Pirkko Suihkoselta (suihkonen.pirkko@gmail.com). Käyttöehdot: http://www.csc.fi/english/research/software/dma Lisenssitiedot: http://urn.fi/urn:nbn:fi:lb-20150304124 Lataaminen: https://sui.csc.fi/group/sui/language-bank-rights. Kielivaran käyttötarkoitus tulee määritellä tutkimussuunnitelmassa. log 26.11.2018 linkki http://islrn.org/resources/640-204-024-555-6 poistettu
Näytä enemmän

Julkaisuvuosi

2018

Aineiston tyyppi

Tekijät

CSC - Tieteen tietotekniikan keskus Oy - Kuraattori

University of Helsinki - Kuraattori

Projekti

Muut tiedot

Tieteenalat

Kielitieteet

Kieli

suomi

Saatavuus

Saatavuutta rajoitettu

Lisenssi

CLARIN RES (Restricted) End User License 1.0

Avainsanat

Asiasanat

Ajallinen kattavuus

undefined

Liittyvät aineistot