Ennalta tuntemattomat kielet kielentunnistuksessa

Rahoitetun hankkeen kuvaus

Tutkimme ennalta tuntemattomien kielten kohtaamista tekstin kielentunnistuksessa. Kielentunnistimet perustavat ennusteensa rajalliselle määrälle erikielisiä harjoituskorpuksia. Nykyiset menetelmät valitsevat tunnistettavalle tekstille yhden valikoimansa kielistä. Jos ne kohtaavat tekstin, joka on kirjoitettu niille tuntemattomalla kielellä, ne merkitsevät sen sillä kielellä, jota pitävät oman algoritminsa mukaan lähimpänä. Tulokset voivat vaihdella käytännössä täysin satunnaisesta kielestä siihen, että tunnistettu kieli on todellisen kielen lähisukulainen. Tuntemattomien kielten käsittely miellettiin ongelmaksi jo vuonna 2006, mutta siihen ei edelleenkään ole varsinaisia ratkaisuja. Olemme koonneet kansainvälisen ryhmän, jonka kanssa käymme läpi tapaustutkimuksia, joissa tuntemattomat kielet aiheuttavat käytännön ongelmia tutkijoille tai heidän luomiensa kieliresurssien käyttäjille. Hankkeessa parannamme ymmärrystä itse ilmiöstä ja kehitämme sen käsittelyssä käytettäviä menetelmiä.
Näytä enemmän

Aloitusvuosi

2025

Päättymisvuosi

2029

Myönnetty rahoitus

Tommi Jauhiainen Orcid -palvelun logo
695 479 €

Rahoittaja

Suomen Akatemia

Rahoitusmuoto

Akatemiatutkijan tehtävä

Päättäjä

Kulttuurin ja yhteiskunnan tutkimuksen toimikunta
17.06.2025

Muut tiedot

Rahoituspäätöksen numero

370756

Tieteenalat

Kielitieteet

Tutkimusalat

Kielitieteet