Suomen korpus (kirjallisuutta) (UHLCS)
Kuvaus
Aineisto on saatavilla Kielipankin sovelluspalvelimella (puhti.csc.fi, käyttöoikeuksien hakemisesta ks. https://www.kielipankki.fi/kayttajaksi/).
Sijainti: /appl/data/kielipankki/mrc-uhlcs/general-linguistics/uralic-lgs/finno-ugric-lgs/baltic-finnic-lgs/finnish
Sisältö:
1. HKV-korpus koostuu eri kirjallisuuden lajeja edustavista teksteistä. Korpus on dokumentoitu seuraavassa julkaisussa:
Auli Hakulinen & Fred Karlsson & Maria Vilkuna. 1980. Suomen tekstilauseiden piirteitä: kvantitatiivinen tutkimus. Publications, No.6. Department of General Linguistics, University of Helsinki. HKV-korpuksen on koostanut Kristiina Jokinen.
2. LE PAROLE:
Kansainvälisen hankkeen "LE PAROLE" yhteydessä laadittiin sähköisessä muodossa olevia kieliaineistoja useista Euroopassa puhuttavista kielistä. Suomesta laadittu LE PAROLE -korpus on käytettävissä CSC:llä, Kotimaisten kielten tutkimuskeskuksessa (http://www.kotus.fi/) ja UHLCS:ssa. Korpus sisältää SGML-muodossa olevan rakenneanalyysin ja TEI-informaation. Korpukseen kuuluu eri tavoin analysoituja alikorpuksia. Korpus on Latin-1-muodossa (ISO 8859-1).
Computational morphosyntax: Report on research 1981-84. Publications, No. 13. pp. 115-136. University of Helsinki, Department of General Linguistics, 1985.
Korpus on ASCII-muodossa. Syntaktisesti koodatun korpuksen koko on 68 425 sanaa ja 837 373 merkkiä. Lauseita korpuksessa on 10,149.
3. Helsingin alueen puhekielen korpus (1972-1974):
Korpus koostuu aineistoista, jotka on koottu hankkeen "Nykysuomen murros" aikana. Hankkeen johtaja oli Heikki Paunonen ja hankkeen Valtion humanistisen toimikunta (the Committee of humanistic research in Finland) ja pääosa hankkeesta oli käynnissä vuosien 1977-1980 aikana. Korpuksen kuvauksen, joka on tutkijoiden käytettävissä, on laatinut Pirkko Kukkonen. Korpus on transkriboitu puhekielen aineistoista, jotka on nauhoitettu. Korpuksen koko on 127 x 30 min. Korpus on ASCII-muodossa.
4. Suomen Kuvalehti, vuosina 1975 ja 1976 julkaistuja numeroita:
Korpus sisältää Suomen Kuvalehden numeroita vuosilta 1975 ja 1976. Suomen Kuvalehden kustantaja Yhtyneet Kuvalehdet Oy on antanut korpuksen Helsingin yliopiston yleisen kielitieteen laitokselle käytettäväksi aineistona tutkimuksessa ja opetuksessa. Korpuksen koko on 840 672 sanaa ja 9 693 042 merkkiä. Korpus on ASCII-muodossa.
5. Suomen Kuvalehti, kaikki vuonna 1987 julkaistut numerot:
Korpus sisältää kaikki vuonna 1987 julkaistut Suomen Kuvalehden numerot. Suomen Kuvalehden kustantaja Yhtyneet Kuvalehdet Oy on antanut korpuksen Helsingin yliopiston yleisen kielitieteen laitokselle käytettäväksi aineistona tutkimuksessa ja opetuksessa. Korpuksen koko on 1 730 597 sanaa ja 12 520 546 merkkiä. Korpus on ASCII-muodossa.
6. Tiede 2000:
Korpus sisältää aikakauslehden Tiede 2000 vuonna 1990 julkaistua materiaalia: Tiede 2000,1990: 1, 39-43. Korpuksen koko on 68 067 sanaa ja 464 792 merkkiä. Korpus on ASCII-muodossa.
7. WSOY:
Korpus sisältää osia Werner Söderström Osakeyhtiön (Helsinki ja Porvoo) julkaisemista kirjoista. Korpuksen koko on 979 516 sanaa ja 7 086 335 merkkiä. Korpus on ASCII-muodossa.
Suomen kielen korpusten lähdetiedot on mainittava kaikissa niissä dokumenteissa, joissa niitä on käytetty lähdeaineistona.
Suomen korpus on osa UHLCS-kokoelmaa.
UHLCS:llä on monta eri omistajaa. Kokoelmaan liittyvistä asioista voi tiedustella Pirkko Suihkoselta (suihkonen.pirkko@gmail.com).
Käyttöehdot: http://www.csc.fi/english/research/software/dma
Lisenssitiedot: http://urn.fi/urn:nbn:fi:lb-20150304124
Lataaminen: https://sui.csc.fi/group/sui/language-bank-rights.
Kielivaran käyttötarkoitus tulee määritellä tutkimussuunnitelmassa.
log
26.11.2018 linkki http://islrn.org/resources/640-204-024-555-6 poistettu
Näytä enemmänJulkaisuvuosi
2018
Aineiston tyyppi
Tekijät
CSC - Tieteen tietotekniikan keskus Oy - Kuraattori
University of Helsinki - Kuraattori
Projekti
Muut tiedot
Tieteenalat
Kielitieteet
Kieli
suomi
Saatavuus
Saatavuutta rajoitettu