#lms · DeepCodeNews

MA-ProofBench: Evaluación de LLMs en demostración de teoremas de análisis

Descubre MA-ProofBench, el primer benchmark para demostración de teoremas en análisis matemático. LLMs solo logran 16% en nivel básico y 5% en PhD.

2026-06-15 · 2 min

Affordance20Q: Cómo la IA razona sobre propiedades físicas

Descubre Affordance20Q, el benchmark que pone a prueba el razonamiento de la IA sobre propiedades físicas sin revelar objetos. ¿Superarán los LLMs este desafío?

2026-06-15 · 1 min

Affordance20Q: Razonamiento de affordance desde propiedades físicas

Affordance20Q: un benchmark que desafía a las LLMs a identificar objetos por sus propiedades físicas jugando a 20 preguntas. ¿Pueden razonar sin ver el nombre?

2026-06-15 · 3 min

Abstracción de secuencias de acciones en flujos de trabajo interpretables

WorkflowView usa LLMs para convertir secuencias de acciones en flujos de trabajo interpretables. Logra alta precisión en reconstrucción de tareas y predicción de abandono con privacidad.

2026-06-15 · 2 min

Clasificación de preguntas Bloom entre datasets: Modelos supervisados y LLMs

Descubre cómo los LLMs con prompting superan a modelos supervisados en clasificación Bloom. Conoce una interfaz ligera para docentes.

2026-06-15 · 3 min

Clasificación transversal de preguntas según Bloom: modelos supervisados y LLMs con prompts

Descubre cómo los LLMs con prompts superan a los modelos supervisados en clasificación de preguntas educativas según Bloom. Un estudio con 5 datasets y una interfaz ligera para docentes.

2026-06-15 · 3 min

¿Puede editar 1 neurona arreglar bucles de repetición en LLMs?

Editar una sola neurona elimina bucles de repetición en LLMs como Gemma 4, pero no soluciona la falta de conocimiento. Resultados clave.

2026-06-15 · 2 min

Marco estadístico de dos etapas para evaluar interferencia asociativa en LLMs

Nuevo marco de dos etapas adapta el IAT a LLMs para separar cumplimiento de consistencia. Revela que la interferencia asociativa varía entre modelos.

2026-06-15 · 3 min

MeEvo: Evolución metacognitiva y natural para diseño de heurísticas

Descubre MeEvo, un innovador framework que combina evolución natural y metacognitiva para diseñar heurísticas automáticas con LLMs, mejorando eficiencia y estabilidad en problemas complejos.

2026-06-15 · 2 min

Confía pero verifica: mitigando alucinaciones médicas con auditoría adversarial

Descubre cómo un sistema de cinco agentes reduce en un 53% las alucinaciones médicas de los LLMs al verificar fármacos prohibidos. Mejora la seguridad clínica.

2026-06-15 · 2 min

LLMs pequeños: poda vs entrenamiento desde cero

¿Poda o entrenar desde cero para LLMs pequeños? Este estudio compara ambos métodos bajo distintos presupuestos de tokens y revela cuándo conviene cada uno.

2026-06-15 · 2 min

Interacción de representaciones lingüísticas en LLMs multilingües

Descubre cómo los modelos de lenguaje multilingües representan las lenguas: separabilidad, jerarquías y efectos no deseados entre idiomas. Implicaciones para IA confiable.

2026-06-15 · 1 min

Be My Tutor: destilación conjunta para mejora mutua de LLMs

Descubre cómo dos LLMs mejoran mutuamente mediante destilación conjunta y retroalimentación entre pares, logrando una mejora Pareto en múltiples dominios.

2026-06-15 · 2 min

NeST: Ajuste Selectivo de Neuronas para Seguridad en LLMs

Descubre NeST, un método de alineación de seguridad para LLMs que reduce ataques de jailbreak del 44.5% al 1.1% con solo 0.4M parámetros.

2026-06-15 · 1 min

Sentinel: Compresión eficiente de contexto en LLMs

Descubre Sentinel, un método ligero de compresión de contexto para LLMs que usa patrones de atención. Logra hasta 5x de compresión en QA sin perder rendimiento.

2026-06-15 · 2 min