Rekisterit massiivisen monikielisissä internet-aineistoissa

Rahoitetun hankkeen kuvaus

Yhdistäen korpuslingvistiikan pitkät perinteet ja kieliteknologian viimeisimmät innovaatiot hanke tarkastelee web-rekistereitä — internetissä tavattuja, tilanteisesti määriteltyjä tekstejä kuten uutisia, blogjea ja käyttöohjeita — massiivisen monikielisessä mittakaavassa. Hanke 1) määrittää rekistereiden kieltenvälisiä eroja sekä tuottaa kattavan kuvauksen web-rekistereistä kuudella kielellä; 2) kehittää koneoppimismenetelmiä rekistereiden mallintamiseen ja automaattiseen tunnistukseen massiivisen monikielisessä ympäristössä; 3) tunnistaa rekisterit Universal Parsebanks -kokoelmasta, joka sisältää lähes 100 miljoonaa sanaa internetistä koneellisesti koottua tekstiä 64 kielellä. Hanke tuottaa elintärkeää tietoa kielenkäytöstä internetissä ja tuo uusia mahdollisuuksia sekä kielentutkimukselle että kaikille tekstimuotoista big dataa hyödyntäville aloille.
Näytä enemmän

Aloitusvuosi

2020

Päättymisvuosi

2024

Myönnetty rahoitus

Veronika Laippala
480 000 €

Rahoittaja

Suomen Akatemia

Rahoitusmuoto

Akatemiahanke

Muut tiedot

Rahoituspäätöksen numero

331297

Tieteenalat

Kielitieteet

Tutkimusalat

Soveltava kielitiede

Teema-alat

Nuori tutkijasukupolvi 2019

Tunnistetut aiheet

languages, speech, linguistics