Tarkeempi puheen ja videokuvan tunnistus silmät ja korvat auki

Akronyymi

USSEE

Rahoitetun hankkeen kuvaus

Yksi tekoälyn suurimmista haasteista on kehittää menetelmä jolla puhetta ja videokuvaa voisi tunnistaa yhtä tehokkaasti kuin ihmiset. Projektin tavoitteena on kehittää multimodaalisia tekniikoita jotka ymmärtävät puhetta ja kuvaa. Nämä uudet koneoppimismentelmät oppivat ensin tehokkaita eritasoisia esitystapoja sekä kuville että puheelle ja sitten modaliteettien välisiä korrelaatioita niiden välille. Tämä voidaan saavuttaa kehittämällä uusia neuroverkkoallgoritmeja ja käyttämällä opetuksessa sekä erillisiä video- ja puheaineistoja että multimodaalisia aineistoja. Uskomme että lopputuloksena sekä automaattisen puheentunnistuksen että videoiden kuvailun tarkkuus paranee.
Näytä enemmän

Aloitusvuosi

2022

Päättymisvuosi

2024

Myönnetty rahoitus


Mikko Kurimo Orcid -palvelun logo
329 586 €

Rooli Suomen Akatemian konsortiossa

Johtaja

Muut osapuolet

Partneri
Aalto-yliopisto (345791)
326 920 €

Rahoittaja

Suomen Akatemia

Rahoitusmuoto

Suunnattu akatemiahanke

Muut tiedot

Rahoituspäätöksen numero

345790

Tieteenalat

Tietojenkäsittely ja informaatiotieteet

Tutkimusalat

Laskennallinen data-analyysi

Tunnistetut aiheet

languages, linguistics, speech