AVCaps: An audio-visual dataset with modality-specific captions

Kuvaus

The AVCaps dataset is an audio-visual captioning resource designed to advance research in multimodal machine perception. Derived from the VidOR dataset, it features 2061 video clips spanning a total of 28.8 hours.
Näytä enemmän

Julkaisuvuosi

2024

Aineiston tyyppi

Tekijät

Aapo Hakala - Tekijä

Irene Martin Morato - Tekijä

Parthasaarathy Ariyakulam Sudarsanam - Tekijä

Tuomas Virtanen - Tekijä

Zenodo - Julkaisija

Projekti

Muut tiedot

Tieteenalat

Tietojenkäsittely ja informaatiotieteet

Kieli

englanti

Saatavuus

Avoin

Lisenssi

Creative Commons Nimeä 4.0 Kansainvälinen (CC BY 4.0)

Avainsanat

Computer and information sciences

Asiasanat

Ajallinen kattavuus

undefined

Liittyvät aineistot