When Vision Speaks for Sound - a Rakancorle1 Collection

Rakancorle1 's Collections

When Vision Speaks for Sound

When Vision Speaks for Sound

updated 2 days ago

Data and model for the When Vision Speaks for Sound. Includes SFT and DPO training data, evaluation data and trained checkpoints.

Rakancorle1/hans-10k

Viewer • Updated 3 days ago • 20.8k • 55

Note 10K-sample DPO preference data — curing the audio-visual Clever Hans.
Rakancorle1/hans-sft-4k

Viewer • Updated 3 days ago • 3.83k • 38

Note SFT data for the video-audio alignment task.
Rakancorle1/wvs-thud-model

32B • Updated 9 days ago • 10 • 2
Rakancorle1/thud-eval

Viewer • Updated 3 days ago • 710 • 24

Note In-domain Thud benchmark — sync / mute / swap.
Rakancorle1/vggsync-3k

Viewer • Updated 3 days ago • 3k • 33

Note Out-of-domain audio-visual sync benchmark on VGGSound.
When Vision Speaks for Sound

Paper • 2605.16403 • Published 9 days ago • 94