Tarkeempi puheen ja videokuvan tunnistus silmät ja korvat auki

Rahoitetun hankkeen kuvaus

Yksi tekoälyn suurimmista haasteista on kehittää menetelmä jolla puhetta ja videokuvaa voisi tunnistaa yhtä tehokkaasti kuin ihmiset. Projektin tavoitteena on kehittää multimodaalisia tekniikoita jotka ymmärtävät puhetta ja kuvaa. Nämä uudet koneoppimismentelmät oppivat ensin tehokkaita eritasoisia esitystapoja sekä kuville että puheelle ja sitten modaliteettien välisiä korrelaatioita niiden välille. Tämä voidaan saavuttaa kehittämällä uusia neuroverkkoallgoritmeja ja käyttämällä opetuksessa sekä erillisiä video- ja puheaineistoja että multimodaalisia aineistoja. Uskomme että lopputuloksena sekä automaattisen puheentunnistuksen että videoiden kuvailun tarkkuus paranee.

Näytä enemmän

Aloitusvuosi

2022

Päättymisvuosi

2024

Myönnetty rahoitus

Jorma Laaksonen

Aalto-yliopisto

326 920 €

Rooli Suomen Akatemian konsortiossa

Partneri

Muut osapuolet

Johtaja

Aalto-yliopisto (345790)

329 586 €

Rahoittaja

Suomen Akatemia

Rahoitusmuoto

Suunnattu akatemiahanke

Haku

ICT 2023: Uudet tekoälymenetelmät 2021

Muut tiedot

Rahoituspäätöksen numero

345791

Tieteenalat

Tietojenkäsittely ja informaatiotieteet

Tutkimusalat

Laskennallinen data-analyysi

Tunnistetut aiheet

languages, linguistics, speech