Sanojen takana: Kielen ymmärtämisen syväoppimismallit teollisuuden sovelluksiin
Akronyymi
BehindTheWords
Rahoitetun hankkeen kuvaus
Kyky mallintaa kielen merkityksiä riippumatta sanamuodosta on välttämätöntä monille kieliteknologiasovelluksille. Lauseissa "Voitko vahvistaa sen?" ja "Tarvitsen todisteita." ei ole yhteisiä sanoja, mutta silti niiden merkitys on lähes sama. Tällaisten suhteiden mallintaminen mahdollistaisi huomattavia parannuksia dokumenttihaussa, klusteroinnissa ja analyysissä, kielen generoinnissa sekä muissa sovelluksissa jotka keskittyvät merkitykseen muodon sijaan. Ihmiselle tämä on helppoa, mutta koneelliset parafraasimallit ovat yhä heikkoja, ja harvoin saatavilla suomeksi, mikä estää monet edistyneet kieliteknologiasovellukset Suomen toimialalla. Tarkoituksenamme on ottaa huomioon tämä aukko ja kehittää syväoppimismalleja, ja yhteistyössä alan kanssa pilotoida useampia sovelluksia. Saavuttaaksemme tämän tavoitteen, kehitämme projektissa myös uniikin parafraasidatasetin. Projekti toteutetaan yhteistyössä luonnollisen kielen prosessointiin keskittyvissä ryhmissä Turussa ja Helsingissä.
Näytä enemmänAloitusvuosi
2021
Päättymisvuosi
2024
Myönnetty rahoitus
Rooli Suomen Akatemian konsortiossa
Johtaja
Muut osapuolet
Rahoittaja
Suomen Akatemia
Rahoitusmuoto
Suunnattu akatemiahanke
Muut tiedot
Rahoituspäätöksen numero
335966
Tieteenalat
Tietojenkäsittely ja informaatiotieteet
Tutkimusalat
Laskennallinen data-analyysi
Tunnistetut aiheet
languages, speech, linguistics