#delos

Optimización de Políticas Guiada por Física con Autodestilación

Descubre PGPO, un nuevo método de optimización guiado por la física que estabiliza el post-entrenamiento de LLMs, mejorando hasta 4.5 puntos en Science-QA.

2026-06-03 · 2 min

TurtleAI: Evaluación de modelos multimodales en Turtle Graphics

Descubre TurtleAI, el benchmark que evalúa modelos multimodales en programación visual con Turtle Graphics. Muestra fallos y cómo el ajuste fino mejora un 20%.

2026-06-03 · 2 min

Generación de textos largos confiables con rechazo de alucinaciones

El método SHARS reduce alucinaciones en generación de textos largos usando muestreo de rechazo. Mejora la consistencia factual sin recursos externos. ¡Descúbrelo!

2026-06-03 · 1 min

VidMsg: Benchmark de Mensajes Implícitos en Videos Cortos

Descubre VidMsg, el benchmark que evalúa cómo los modelos de IA entienden mensajes implícitos en videos cortos. ¡Resultados que te sorprenderán!

2026-06-03 · 2 min

La forma de la suma: estructuras geométricas de la aritmética en LLMs

Descubre cómo los LLMs representan la suma geométricamente y por qué cometen errores. Un nuevo estudio revela la estructura oculta de la aritmética.

2026-06-03 · 2 min

CoEval: ranking de modelos sin datos ni benchmarks confiables

Descubre CoEval: un framework que evalúa y rankea modelos de lenguaje sin necesidad de datos etiquetados ni benchmarks fiables. Resultados limpios y por solo $5.89.

2026-06-03 · 2 min

Recuperación del modelo del mundo en planificadores LLM ajustados

¿Aprenden los LLM a representar el modelo del mundo al planificar? Este análisis revela cómo el ajuste supervisado codifica la validez de acciones y predicados.

2026-06-03 · 2 min

Supervivencia sin censura con modelos fundacionales tabulares

Aprende cómo aplicar modelos fundacionales tabulares al análisis de supervivencia sin entrenamiento. Resultados competitivos con Cox y AFT. ¡Entra!

2026-06-03 · 3 min

Qwen-Image-Flash: Más allá del diseño objetivo

Descubre cómo Qwen-Image-Flash optimiza el pipeline de entrenamiento en destilación de pocos pasos para modelos visuales, yendo más allá del diseño objetivo.

2026-06-03 · 2 min

E2LLM: Hacia un servicio eficiente de LLM en entornos Edge/Fog heterogéneos

Descubre cómo E2LLM optimiza el despliegue de LLMs en entornos Edge/Fog, reduciendo el tiempo de espera en más del 50%.

2026-06-03 · 1 min

Intercambio de curación humana por aumentación sintética en RLVR

Descubre cómo la aumentación sintética de tareas sustituye la curación humana en RLVR, reduciendo costos sin perder rendimiento en benchmarks de código y razonamiento.

2026-06-03 · 2 min

El entrenamiento de consistencia puede afianzar la desalineación

Un estudio revela que el entrenamiento por consistencia puede afianzar la desalineación en modelos de IA. Descubre sus efectos contradictorios en la alineación.

2026-06-03 · 2 min

Agentes de IA crean gusanos informáticos adaptativos

Los agentes de IA crean gusanos adaptativos que se propagan sin costo para el atacante. Descubre la nueva amenaza cibernética.

2026-06-03 · 2 min

Reevaluando el aprendizaje continuo con pocos ejemplos

La evaluación con pocos ejemplos revela nuevas perspectivas sobre estabilidad y plasticidad en aprendizaje continuo. El meta-aprendizaje mejora la adaptación.

2026-06-03 · 1 min

Autoevaluación Agrupada: Método Simple para Incertidumbre en LLMs

Aprende cómo la autoevaluación por clusters permite a los LLMs medir su incertidumbre con solo dos muestras, mejorando la confiabilidad de sus respuestas.

2026-06-03 · 3 min

FLARE: Retroalimentación Diagnóstica para Refinar Código con LLM

Descubre FLARE: retroalimentación precisa a nivel de línea para depurar código LLM. Mejora la precisión hasta un 8.5%.

2026-06-03 · 2 min

Más allá de la acumulación de codificadores en VLM

Descubre cómo medir el rol de cada codificador en modelos VLM multicodificador. Capacidad y Necesidad revelan pares óptimos para entrenar sin acumular. Investigación con 16 benchmarks.

2026-06-03 · 2 min

q0: Primitivas para el preentrenamiento con hiper-épocas

Descubre q0: primitivas para preentrenar con hiper-épocas. Genera una población de modelos diversos que logran menor pérdida de validación con hasta 4.6x menos épocas.

2026-06-03 · 3 min

AlignAtt4LLM: Traducción simultánea con LLMs decoder-only

AlignAtt4LLM logra traducción simultánea inglés-alemán/italiano con baja latencia aplicando AlignAtt en LLMs solo decodificador. Resultados superiores.

2026-06-03 · 3 min

Expresión fiel de confianza en modelos de razonamiento grandes

¿Los modelos de razonamiento grandes expresan su confianza de forma fiel? Cuantificamos la calibración entre incertidumbre interna y verbalizada, revelando desa

2026-06-03 · 3 min