Rekisterit massiivisen monikielisissä internet-aineistoissa
Rahoitetun hankkeen kuvaus
Yhdistäen korpuslingvistiikan pitkät perinteet ja kieliteknologian viimeisimmät innovaatiot hanke tarkastelee web-rekistereitä — internetissä tavattuja, tilanteisesti määriteltyjä tekstejä kuten uutisia, blogjea ja käyttöohjeita — massiivisen monikielisessä mittakaavassa. Hanke 1) määrittää rekistereiden kieltenvälisiä eroja sekä tuottaa kattavan kuvauksen web-rekistereistä kuudella kielellä; 2) kehittää koneoppimismenetelmiä rekistereiden mallintamiseen ja automaattiseen tunnistukseen massiivisen monikielisessä ympäristössä; 3) tunnistaa rekisterit Universal Parsebanks -kokoelmasta, joka sisältää lähes 100 miljoonaa sanaa internetistä koneellisesti koottua tekstiä 64 kielellä. Hanke tuottaa elintärkeää tietoa kielenkäytöstä internetissä ja tuo uusia mahdollisuuksia sekä kielentutkimukselle että kaikille tekstimuotoista big dataa hyödyntäville aloille.
Näytä enemmänAloitusvuosi
2020
Päättymisvuosi
2024
Myönnetty rahoitus
Muut tiedot
Rahoituspäätöksen numero
331297
Tieteenalat
Kielitieteet
Tutkimusalat
Soveltava kielitiede
Teema-alat
Nuori tutkijasukupolvi 2019
Tunnistetut aiheet
languages, speech, linguistics