Sanojen takana: Kielen ymmärtämisen syväoppimismallit teollisuuden sovelluksiin

Rahoitetun hankkeen kuvaus

Kyky mallintaa kielen merkityksiä riippumatta sanamuodosta on välttämätöntä monille kieliteknologiasovelluksille. Lauseissa "Voitko vahvistaa sen?" ja "Tarvitsen todisteita." ei ole yhteisiä sanoja, mutta silti niiden merkitys on lähes sama. Tällaisten suhteiden mallintaminen mahdollistaisi huomattavia parannuksia dokumenttihaussa, klusteroinnissa ja analyysissä, kielen generoinnissa sekä muissa sovelluksissa jotka keskittyvät merkitykseen muodon sijaan. Ihmiselle tämä on helppoa, mutta koneelliset parafraasimallit ovat yhä heikkoja, ja harvoin saatavilla suomeksi, mikä estää monet edistyneet kieliteknologiasovellukset Suomen toimialalla. Tarkoituksenamme on ottaa huomioon tämä aukko ja kehittää syväoppimismalleja, ja yhteistyössä alan kanssa pilotoida useampia sovelluksia. Saavuttaaksemme tämän tavoitteen, kehitämme projektissa myös uniikin parafraasidatasetin. Projekti toteutetaan yhteistyössä luonnollisen kielen prosessointiin keskittyvissä ryhmissä Turussa ja Helsingissä.
Näytä enemmän

Aloitusvuosi

2021

Päättymisvuosi

2023

Myönnetty rahoitus


Jörg Tiedemann Orcid -palvelun logo
307 688 €

Rooli Suomen Akatemian konsortiossa

Partneri

Muut osapuolet

Johtaja
Turun yliopisto (335966)
307 584 €

Rahoittaja

Suomen Akatemia

Rahoitusmuoto

Suunnattu akatemiahanke

Muut tiedot

Rahoituspäätöksen numero

335967

Tieteenalat

Tietojenkäsittely ja informaatiotieteet

Tutkimusalat

Laskennallinen data-analyysi

Tunnistetut aiheet

artificial intelligence, machine learning