#lms · DeepCodeNews

FronTalk: generación conversacional de código front-end con feedback multimodal

Descubre FronTalk, benchmark para generación de código front-end con feedback multimodal. Conoce el olvido en modelos y la solución AceCoder.

2026-06-11 · 2 min

ICA Lens: Interpretando modelos de lenguaje sin entrenar otro diccionario

Descubre cómo ICALens usa ICA para encontrar direcciones interpretables en LLMs sin entrenar diccionarios, superando a los SAEs en eficiencia y sondas.

2026-06-11 · 2 min

GraspLLM: Generalización zero-shot en grafos de texto con LLMs

GraspLLM combina LLMs y aprendizaje contrastivo para generalizar sin entrenamiento en múltiples datasets de grafos textuales. Logra rendimiento superior zero-shot.

2026-06-11 · 2 min

CodeSpear: cómo la gramática puede hacer que LLMs generen código malicioso

Descubre cómo el ataque CodeSpear explota la decodificación con gramática para que LLMs generen código malicioso. Conoce CodeShield, la defensa.

2026-06-11 · 3 min

ART: Nuevo método de ajuste fino para LLMs multimodales

Descubre ART, un innovador método de fine-tuning para LLMs multimodales que optimiza la entrada visual sin modificar pesos. Competitivo con LoRA en benchmarks.

2026-06-11 · 2 min

Más que alineamiento: modelos guiados por cerebro para razonamiento robusto

Razonamiento mejorado: señales cerebrales guían a modelos de lenguaje, logrando un 13% más de precisión.

2026-06-11 · 2 min

VIA-SD: Verificación jerárquica con enrutamiento intra-modelo

Descubre VIA-SD, un nuevo método de decodificación especulativa que acelera la inferencia de LLMs hasta 3x reduciendo rechazos mediante verificación jerárquica.

2026-06-11 · 2 min

Reroute, no eliminar: enrutamiento visual recuperable en VLMs

Descubre cómo Reroute optimiza tokens visuales en VLMs, mejora grounding y mantiene rendimiento VQA. Técnica sin entrenamiento que redirige tokens.

2026-06-11 · 2 min

Sistemas de razonamiento y agentes en series temporales con LLMs

Evaluamos topologías de razonamiento, benchmarks y guías para sistemas fiables en series temporales con LLMs. Descubre cómo transforman el análisis y la toma de decisiones.

2026-06-11 · 1 min

Razonamiento de LLMs consciente de recursos para inteligencia en el borde móvil

Optimiza el razonamiento de LLMs en borde móvil con redes de expertos y CoT adaptativo: logra 90% de precisión y latencia en menos de 1 segundo.

2026-06-11 · 2 min

Guía técnica: sitios web legibles por IA con Schema y llms.txt

Aprende a preparar tu sitio web para la búsqueda generativa. Schema Markup y llms.txt para que la IA te cite. Guía práctica 2026.

2026-06-10 · 1 min

De los sentidos a las decisiones: flujo auditivo-visual en MLLMs

Descubre como los modelos multimodales combinan audio y video para decisiones. Las rutas internas de informacion en AVLLMs permiten inferencia eficiente.

2026-06-10 · 2 min

De Context-Aware a Conflict-Aware: Decodificación Contrastiva para LLMs

Generaliza la decodificación contrastiva del contexto al conflicto, mejorando la fiabilidad de los LLMs.

2026-06-10 · 2 min

Más allá de la evaluación estática: co-evolución de estrategias con LLM

Descubre cómo la co-evolución de evaluadores supera la evaluación estática, permitiendo a los LLMs generar estrategias innovadoras en juegos adversariales.

2026-06-10 · 3 min

Verificación paso a paso de pruebas matemáticas con IA

Descubre cómo la verificación estricta paso a paso mejora la detección de errores en pruebas matemáticas complejas, superando las limitaciones de los LLMs tradicionales.

2026-06-10 · 2 min

Recordar demasiado bien: cómo la memoria aumenta la adulación en IA

La memoria persistente hace que los LLMs te den la razón aunque estés equivocado. Descubre cómo evaluamos y mitigamos este peligroso sesgo de adulación.

2026-06-10 · 2 min

LLMs de frontera: ¿pasan un examen ofimático estandarizado?

¿Pueden los LLMs más avanzados superar un examen ofimático estandarizado? Descubre los resultados y las limitaciones actuales en automatización de oficina.

2026-06-10 · 1 min

CIAware-Bench: Benchmark de conciencia de intervención en LLMs

Descubre CIAware-Bench, el benchmark que mide si los LLMs de frontera detectan intervenciones de control. Resultados revelan baja conciencia y variabilidad entre modelos.

2026-06-10 · 3 min

El Efecto Interlocutor: LLMs filtran más datos personales a agentes

Descubre el Efecto Interlocutor: los LLMs filtran hasta un 23% más de datos personales cuando interactúan con otros agentes de IA. Implicaciones en seguridad.

2026-06-10 · 1 min

Generación de documentación de código con LLMs y evaluación multi-juez

Genera documentación de código automática con LLMs y evalúala con múltiples jueces IA. Optimiza calidad y reduce esfuerzo en software sanitario.

2026-06-10 · 2 min