#lms · DeepCodeNews

El Impuesto del Ajuste por Instrucciones en LLMs para Código

El ajuste por instrucciones mejora la comprensión de comandos pero perjudica la finalización de código en flujo. Conoce el 'impuesto' oculto.

2026-06-09 · 3 min

TheoremBench: Evaluación de LLMs en demostración de teoremas matemáticos formales

TheoremBench evalúa LLMs en Lean4 con teoremas clásicos y subteoremas. Mide cobertura y eficiencia para revelar debilidades en razonamiento formal.

2026-06-09 · 2 min

Predictores simples de perturbaciones transcriptómicas con grafos y LLMs

Los grafos de conocimiento y LLMs con RL logran predecir perturbaciones transcriptómicas con alta precisión, superando a métodos complejos. Descubre cómo.

2026-06-09 · 1 min

SearchSwarm: Delegación inteligente en LLMs para investigación profunda

SearchSwarm logra 68.1 en BrowseComp y 73.3 en BrowseComp-ZH, superando a modelos de su escala. Descubre cómo entrena la inteligencia de delegación.

2026-06-09 · 2 min

ABLE: Representación de LLMs mediante incrustación por atribuciones

Descubre ABLE: representa y compara LLMs con atribuciones de gradientes sin entrenamiento. Ideal para selección de modelos y auditoría de seguridad.

2026-06-09 · 3 min

Construcción de grafos causales implícitos mediante descubrimiento de cadenas

Descubre cómo los LLMs construyen grafos causales implícitos desde texto con descubrimiento de cadenas y sabiduría de masas. Evaluado con 1,560 pares.

2026-06-09 · 2 min

Post-entrenamiento: aprendizaje supervisado masivo

El post-entrenamiento actual de LLMs es en realidad un ajuste fino masivo. ¿Estamos retrocediendo a métodos antiguos? Descúbrelo.

2026-06-09 · 2 min

CAPruner: Podador de Grafos de Escena para Razonamiento Espacial 3D en LLMs

CAPruner optimiza la poda de grafos de escena para potenciar el razonamiento espacial 3D de LLMs, reduciendo costos y mejorando precisión.

2026-06-09 · 3 min

Sistema de gestión de aprendizaje con IA para secundaria: estudio longitudinal

Descubre cómo un LMS con IA mejora el rendimiento académico en secundaria a largo plazo. Estudio longitudinal con privacidad y retroalimentación temprana.

2026-06-09 · 3 min

Evaluación de prompting avanzado en Gemini Flash para QA biomédica multi-salto

Evaluamos prompts avanzados en Gemini Flash para QA biomédica. Un prompt complejo logró 0.720, superando al básico (0.565). El diseño de prompts es clave.

2026-06-09 · 2 min

ScaleSweep: Cuantificación NVFP4 precisa de LLMs con escalas de bloque

ScaleSweep mejora la cuantificación NVFP4 de LLMs optimizando escalas de bloque, logrando más del 93% del rendimiento original. ¡Conócelo!

2026-06-09 · 2 min

Aumenta la precisión de sistemas de recomendación con LLMs usando Python

Descubre cómo los LLMs, junto con Python, pueden aumentar drásticamente la precisión de tus sistemas de recomendación. Mejora la experiencia del usuario con IA.

2026-06-08 · 2 min

LLMs en el dispositivo: cómo ejecutar IA en móviles y edge

Descubre cómo los LLMs en el dispositivo permiten ejecutar IA en móviles y edge, mejorando privacidad, reduciendo latencia y costos. Guía completa para empresas.

2026-06-08 · 3 min

Actúa como un investigador real: benchmarks para LLMs y agentes

Descubre AARRI-Bench, el benchmark que mide si los agentes de IA pueden pensar como investigadores humanos. El mejor modelo solo alcanza un 68.3% de éxito.

2026-06-08 · 2 min

Detección Zero-Shot de Deriva en Embeddings para Inyecciones en LLMs

Descubre ZEDD: detección ligera de inyecciones de prompts en LLMs sin entrenamiento, con >93% de precisión y <3% de falsos positivos. ¡Escalable y eficaz!

2026-06-08 · 2 min

Consistencia de grafos de evidencia en RAG: análisis por modelo

Descubre cómo la consistencia de grafos de evidencia (EGC) detecta alucinaciones en RAG, pero su efectividad varía según la familia de modelos. Un análisis revelador.

2026-06-08 · 2 min

Cerrando brecha de comportamiento con LLMs en recomendaciones multi-verticales

Descubre cómo usar LLMs y RAG jerárquico para mejorar recomendaciones en nuevas verticales de e-commerce, superando el problema del arranque en frío.

2026-06-08 · 2 min

Elmes*: Rúbricas Automatizadas para Evaluar LLMs en Educación

Descubre Elmes*, un framework que automatiza la creación de rúbricas detalladas para evaluar modelos de lenguaje en escenarios educativos de cola larga.

2026-06-08 · 2 min

¿Saltar una capa o repetirla? Aprendiendo programas de capas en LLMs

Descubre cómo los LLMs pueden ejecutar programas dinámicos de capas, saltando o repitiendo, para mejorar precisión y eficiencia en razonamiento matemático.

2026-06-08 · 2 min

TALAN: Adaptación Latente Alineada con Tareas para Post-Entrenamiento de LLMs

TALAN mejora razonamiento y código en LLMs con una vía lateral latente. Solo 1% de parámetros adicionales, supera a LoRA y DoRA en benchmarks STEM.

2026-06-08 · 2 min