Tarkeempi puheen ja videokuvan tunnistus silmät ja korvat auki

Rahoitetun hankkeen kuvaus

Yksi tekoälyn suurimmista haasteista on kehittää menetelmä jolla puhetta ja videokuvaa voisi tunnistaa yhtä tehokkaasti kuin ihmiset. Projektin tavoitteena on kehittää multimodaalisia tekniikoita jotka ymmärtävät puhetta ja kuvaa. Nämä uudet koneoppimismentelmät oppivat ensin tehokkaita eritasoisia esitystapoja sekä kuville että puheelle ja sitten modaliteettien välisiä korrelaatioita niiden välille. Tämä voidaan saavuttaa kehittämällä uusia neuroverkkoallgoritmeja ja käyttämällä opetuksessa sekä erillisiä video- ja puheaineistoja että multimodaalisia aineistoja. Uskomme että lopputuloksena sekä automaattisen puheentunnistuksen että videoiden kuvailun tarkkuus paranee.
Näytä enemmän

Aloitusvuosi

2022

Päättymisvuosi

2024

Myönnetty rahoitus


Jorma Laaksonen Orcid -palvelun logo
326 920 €

Rooli Suomen Akatemian konsortiossa

Partneri

Muut osapuolet

Johtaja
Aalto-yliopisto (345790)
329 586 €

Rahoittaja

Suomen Akatemia

Rahoitusmuoto

Suunnattu akatemiahanke

Muut tiedot

Rahoituspäätöksen numero

345791

Tieteenalat

Tietojenkäsittely ja informaatiotieteet

Tutkimusalat

Laskennallinen data-analyysi

Tunnistetut aiheet

languages, linguistics, speech