Tarkeempi puheen ja videokuvan tunnistus silmät ja korvat auki
Rahoitetun hankkeen kuvaus
Yksi tekoälyn suurimmista haasteista on kehittää menetelmä jolla puhetta ja videokuvaa voisi tunnistaa yhtä tehokkaasti kuin ihmiset. Projektin tavoitteena on kehittää multimodaalisia tekniikoita jotka ymmärtävät puhetta ja kuvaa. Nämä uudet koneoppimismentelmät oppivat ensin tehokkaita eritasoisia esitystapoja sekä kuville että puheelle ja sitten modaliteettien välisiä korrelaatioita niiden välille. Tämä voidaan saavuttaa kehittämällä uusia neuroverkkoallgoritmeja ja käyttämällä opetuksessa sekä erillisiä video- ja puheaineistoja että multimodaalisia aineistoja. Uskomme että lopputuloksena sekä automaattisen puheentunnistuksen että videoiden kuvailun tarkkuus paranee.
Näytä enemmänAloitusvuosi
2022
Päättymisvuosi
2024
Myönnetty rahoitus
Rooli Suomen Akatemian konsortiossa
Partneri
Muut osapuolet
Rahoittaja
Suomen Akatemia
Rahoitusmuoto
Suunnattu akatemiahanke
Muut tiedot
Rahoituspäätöksen numero
345791
Tieteenalat
Tietojenkäsittely ja informaatiotieteet
Tutkimusalat
Laskennallinen data-analyysi
Tunnistetut aiheet
languages, linguistics, speech