SVHalluc: Evaluación de alucinaciones voz-visión en modelos AV
SVHalluc: nuevo benchmark para alucinaciones voz-visión en LLMs audiovisuales. Modelos fallan en alineación semántica y temporal.
SVHalluc: nuevo benchmark para alucinaciones voz-visión en LLMs audiovisuales. Modelos fallan en alineación semántica y temporal.
Descubre DraDDP, el primer dataset multimodal público para analizar discurso en diálogos multipartes. Basado en series de TV, impulsa la IA conversacional.