Sanojen takana: Kielen ymmärtämisen syväoppimismallit teollisuuden sovelluksiin

Sanojen takana: Kielen ymmärtämisen syväoppimismallit teollisuuden sovelluksiin

Akronyymi

BehindTheWords

Rahoitetun hankkeen kuvaus

Kyky mallintaa kielen merkityksiä riippumatta sanamuodosta on välttämätöntä monille kieliteknologiasovelluksille. Lauseissa "Voitko vahvistaa sen?" ja "Tarvitsen todisteita." ei ole yhteisiä sanoja, mutta silti niiden merkitys on lähes sama. Tällaisten suhteiden mallintaminen mahdollistaisi huomattavia parannuksia dokumenttihaussa, klusteroinnissa ja analyysissä, kielen generoinnissa sekä muissa sovelluksissa jotka keskittyvät merkitykseen muodon sijaan. Ihmiselle tämä on helppoa, mutta koneelliset parafraasimallit ovat yhä heikkoja, ja harvoin saatavilla suomeksi, mikä estää monet edistyneet kieliteknologiasovellukset Suomen toimialalla. Tarkoituksenamme on ottaa huomioon tämä aukko ja kehittää syväoppimismalleja, ja yhteistyössä alan kanssa pilotoida useampia sovelluksia. Saavuttaaksemme tämän tavoitteen, kehitämme projektissa myös uniikin parafraasidatasetin. Projekti toteutetaan yhteistyössä luonnollisen kielen prosessointiin keskittyvissä ryhmissä Turussa ja Helsingissä.
Näytä enemmän

Aloitusvuosi

2021

Päättymisvuosi

2024

Myönnetty rahoitus

Filip Ginter Orcid -palvelun logo
307 584 €


Rooli Suomen Akatemian konsortiossa

Johtaja

Muut osapuolet

Partneri
Helsingin yliopisto (335967)
307 688 €

Rahoittaja

Suomen Akatemia

Rahoitusmuoto

Suunnattu akatemiahanke

Muut tiedot

Rahoituspäätöksen numero

335966

Tieteenalat

Tietojenkäsittely ja informaatiotieteet

Tutkimusalat

Laskennallinen data-analyysi

Tunnistetut aiheet

languages, speech, linguistics
Sanojen takana: Kielen ymmärtämisen syväoppimismallit teollisuuden sovelluksiin - Tiedejatutkimus.fi