Rekisterivaihtelun mekanismit massiivisen monikielisissä internet-aineistoissa

Rahoitetun hankkeen kuvaus

Hanke kohdistuu internetin kielenkäyttöön ja verkkorekistereihin - erilaisiin internetissä julkaistuihin teksteihin, kuten faktoihin perustuviin uutisiin, mielipiteisiin perustuviin neuvontasivuihin ja keskustelupalstoihin. Hankkeessa kuvataan kaikki verkkorekisterit 18 kielellä miljardien sanojen internet-aineistoja hyödyntäen. Lisäksi testataan hypoteeseja rekisterien ominaisuuksista ja niiden pysyvyydestä 100 kielellä. Hanke yhdistää kielentutkimusta ja kieliteknologiaa sekä hyödyntää viimeaikaista kehitystä koneoppimisessa ja monikielisten kielimallien kehityksessä. Näin se pystyy mallintamaan kielenkäyttöä koko monikielisessä internetissä ilman käsin tehtävää vertailua. Lopputulemana hanke muuttaa ymmärryksemme internetistä ja sen kielenkäytöstä ja rakentaa tällä hetkellä pirstaleisesta internetistä hyvin dokumentoidun kokonaisuuden. Tällä on keskeistä merkitystä eri aloille kielentutkimuksesta kieliteknologiaan, ja käytännön hyötyä kaikille internetin kielidataa käyttäville.
Näytä enemmän

Aloitusvuosi

2024

Päättymisvuosi

2028

Myönnetty rahoitus

Veronika Laippala
549 665 €

Rahoittaja

Suomen Akatemia

Rahoitusmuoto

Akatemiahanke

Päättäjä

Kulttuurin ja yhteiskunnan tutkimuksen toimikunta
13.06.2024

Muut tiedot

Rahoituspäätöksen numero

362459

Tieteenalat

Kielitieteet

Tutkimusalat

Soveltava kielitiede