AVCaps: An audio-visual dataset with modality-specific captions

Kuvaus

The AVCaps dataset is an audio-visual captioning resource designed to advance research in multimodal machine perception. Derived from the VidOR dataset, it features 2061 video clips spanning a total of 28.8 hours.
Näytä enemmän

Julkaisuvuosi

2024

Aineiston tyyppi

Tekijät

Aapo Hakala - Tekijä

Irene Martin Morato - Tekijä

Parthasaarathy Ariyakulam Sudarsanam - Tekijä

Tuomas Virtanen - Tekijä

Zenodo - Julkaisija

Projekti

Muut tiedot

Tieteenalat

Tietojenkäsittely ja informaatiotieteet

Kieli

englanti

Saatavuus

Avoin

Lisenssi

Creative Commons Nimeä 4.0 Kansainvälinen (CC BY 4.0)

Avainsanat

multimodal dataset, audio-visual captioning

Asiasanat

Ajallinen kattavuus

undefined

Liittyvät aineistot