#qa · DeepCodeNews

LC-QAT: Cuantificación de 2 bits eficiente en datos para LLMs

Descubre LC-QAT, un método innovador que logra cuantización de 2 bits para LLMs con solo 0.1% de datos, superando a otras técnicas. ¡Optimiza tus modelos!

2026-06-10 · 3 min

Personalidades múltiples en modelos de visión-lenguaje: conmutación dinámica

Modelos de visión-lenguaje con múltiples personalidades: ¿cómo afecta al rendimiento? Conoce los hallazgos sobre equilibrio y residuales.

2026-06-10 · 2 min

SAFE: Verificador de LLM para razonamiento multi-salto con evidencia

Descubre SAFE, un marco que verifica el razonamiento paso a paso en modelos de lenguaje, mejorando la precisión en preguntas complejas multi-salto.

2026-06-10 · 2 min

LakeQA: Benchmark de QA exploratorio sobre lago de datos masivo

Descubre LakeQA, el benchmark que obliga a los LLMs a buscar y razonar en lagos de datos de 9.5 TB. GPT-5.2 solo acierta el 18.37%.

2026-06-10 · 3 min

Tu nuevo router Wi-Fi 7 carece de la banda de 6GHz

¿Tu nuevo router Wi-Fi 7 carece de la banda de 6GHz? Te explicamos por qué ocurre y si vale la pena adquirirlo. Conoce las claves.

2026-06-10 · 2 min

Razonamiento contrafáctico para la descomposición de evidencia en VideoQA

Descubre cómo el razonamiento contrafáctico mejora la precisión y fiabilidad del VideoQA al separar evidencia causal de correlaciones espurias. Ideal para sistemas de IA más confiables.

2026-06-09 · 3 min

Razonamiento condicionado para preguntas biomédicas contextuales

CondMedQA y CGR: un nuevo enfoque para QA biomédico que considera condiciones del paciente. Descubre cómo mejora la precisión en diagnóstico clínico.

2026-06-09 · 1 min

Inferencia colaborativa de borde a servidor para modelos VLM

Descubre cómo la inferencia colaborativa edge-to-server reduce el costo de comunicación en modelos VLM sin sacrificar precisión. Optimiza tu infraestructura con transmisión selectiva.

2026-06-09 · 2 min

Evaluación de prompting avanzado en Gemini Flash para QA biomédica multi-salto

Evaluamos prompts avanzados en Gemini Flash para QA biomédica. Un prompt complejo logró 0.720, superando al básico (0.565). El diseño de prompts es clave.

2026-06-09 · 2 min

EASE-TTT: Entrenamiento selectivo en tiempo de prueba para QA largo

Descubre cómo EASE-TTT alinea la atención con evidencia para mejorar la precisión en preguntas de contexto largo usando modelos pequeños.

2026-06-08 · 2 min

TSAQA: benchmark de preguntas y respuestas para series temporales

TSAQA: benchmark unificado que evalúa la capacidad de los LLMs en análisis de series temporales. Conoce los resultados y desafíos.

2026-06-08 · 2 min

La fidelidad de mi RAG era 0.67: 1 de cada 3 respuestas seguían equivocadas

¿Tu RAG es fiel pero incorrecto? El 33% de respuestas son erróneas a pesar de ser fieles al contexto. Aprende a evaluar con métricas que realmente importan.

2026-06-07 · 1 min

Aqara Termostato Hub W200: ni Matter ni Zigbee lo salvan

El Aqara W200 promete revolucionar tu hogar inteligente con Matter y Zigbee, pero falla en lo esencial. Descubre por qué no lo recomendamos.

2026-06-07 · 2 min

Aprendizaje curricular por niveles de gravedad en generación de textos médicos

Descubre cómo un nuevo marco de IA combina aprendizaje curricular por gravedad y selección multimodelo para generar respuestas médicas precisas y contextuales.

2026-06-06 · 2 min

Cerrando el bucle del razonamiento latente con reconstrucción en tiempo de prueba

Descubre cómo ReLAT cierra el bucle del razonamiento latente usando reconstrucción en tiempo de prueba, mejorando precisión en matemáticas un 73.3% en AIME 2024

2026-06-06 · 2 min

Agente de IA personal para responder preguntas de tu carrete fotográfico

¿Puede una IA entender tu carrete de fotos? Conoce camroll-agent, un asistente que responde preguntas visuales personales con memoria jerárquica. Dataset de 50 usuarios.

2026-06-06 · 2 min

A2RAG: Recuperación Adaptativa con Grafos para Razonamiento Confiable

A2RAG: marco adaptativo para recuperación con grafos que reduce costos y mejora precisión en preguntas complejas. +11% recall, 50% menos tokens.

2026-06-06 · 1 min

Agente de IA personal para VQA en galería de fotos

Un agente de IA personal responde preguntas visuales sobre tu galería. El dataset Camroll y agente Camroll-Agent con memoria jerárquica.

2026-06-06 · 2 min

Narrative Knowledge Weaver: razonamiento narrativo aumentado con recuperación

NKW: el nuevo sistema que entiende historias largas combinando recuperación, grafos y razonamiento narrativo.

2026-06-06 · 2 min

MARDoc: Agente de Refinamiento con Memoria para QA Multimodal

Descubre MARDoc, un innovador marco de agente con memoria estructurada que mejora la precisión en QA de documentos largos multimodales. Reduce ruido y optimiza razonamiento.

2026-06-06 · 1 min