AVCaps: An audio-visual dataset with modality-specific captions
Kuvaus
The AVCaps dataset is an audio-visual captioning resource designed to advance research in multimodal machine perception. Derived from the VidOR dataset, it features 2061 video clips spanning a total of 28.8 hours.
Näytä enemmänJulkaisuvuosi
2024
Aineiston tyyppi
Tekijät
Aapo Hakala - Tekijä
Irene Martin Morato - Tekijä
Parthasaarathy Ariyakulam Sudarsanam - Tekijä
Tuomas Virtanen - Tekijä
Zenodo - Julkaisija
Projekti
Muut tiedot
Tieteenalat
Tietojenkäsittely ja informaatiotieteet
Kieli
englanti
Saatavuus
Avoin