Rekisterivaihtelun mekanismit massiivisen monikielisissä internet-aineistoissa
Rahoitetun hankkeen kuvaus
Hanke kohdistuu internetin kielenkäyttöön ja verkkorekistereihin - erilaisiin internetissä julkaistuihin teksteihin, kuten faktoihin perustuviin uutisiin, mielipiteisiin perustuviin neuvontasivuihin ja keskustelupalstoihin. Hankkeessa kuvataan kaikki verkkorekisterit 18 kielellä miljardien sanojen internet-aineistoja hyödyntäen. Lisäksi testataan hypoteeseja rekisterien ominaisuuksista ja niiden pysyvyydestä 100 kielellä. Hanke yhdistää kielentutkimusta ja kieliteknologiaa sekä hyödyntää viimeaikaista kehitystä koneoppimisessa ja monikielisten kielimallien kehityksessä. Näin se pystyy mallintamaan kielenkäyttöä koko monikielisessä internetissä ilman käsin tehtävää vertailua. Lopputulemana hanke muuttaa ymmärryksemme internetistä ja sen kielenkäytöstä ja rakentaa tällä hetkellä pirstaleisesta internetistä hyvin dokumentoidun kokonaisuuden. Tällä on keskeistä merkitystä eri aloille kielentutkimuksesta kieliteknologiaan, ja käytännön hyötyä kaikille internetin kielidataa käyttäville.
Näytä enemmänAloitusvuosi
2024
Päättymisvuosi
2028
Myönnetty rahoitus
Rahoittaja
Suomen Akatemia
Rahoitusmuoto
Akatemiahanke
Päättäjä
Kulttuurin ja yhteiskunnan tutkimuksen toimikunta
13.06.2024
13.06.2024
Muut tiedot
Rahoituspäätöksen numero
362459
Tieteenalat
Kielitieteet
Tutkimusalat
Soveltava kielitiede