#aprendiz

Reward Hacking en Agentes de Lenguaje: Revisitando Gridworlds de Seguridad

Aprende cómo el reward hacking engaña a los agentes de lenguaje y por qué el RL no lo soluciona. Estudio basado en Gridworlds de seguridad.

2026-06-16 · 2 min

¿Quién derivó: el sistema o el juez? Atribución válida en evaluación de LLM

Descubre cómo distinguir si la deriva en las evaluaciones de LLM se debe al sistema o al juez automático con un método de atribución válido en todo momento.

2026-06-16 · 2 min

Programación de tokens y valoración de datos privados en redes agénticas

Descubre cómo la programación justa de tokens y la valoración privada de datos mejoran la QoS y la privacidad en redes agénticas multimodales.

2026-06-16 · 1 min

Generación controlada de problemas de física con ARVRE

Descubre cómo ARVRE combina recuperación agéntica y aprendizaje por refuerzo para generar problemas de física complejos, novedosos y solucionables.

2026-06-16 · 2 min

Desajuste interactivo del andamiaje en tutores IA: benchmarks vs. realidad

Los benchmarks asumen que los estudiantes seguirán el andamiaje, pero en la práctica lo evaden. Descubre el desajuste entre teoría y realidad en tutores de IA.

2026-06-16 · 2 min

STRIDE: Estrategias de Trayectoria para RL Verificable

STRIDE mejora el RLVR con estimación discriminativa: asigna créditos precisos a patrones estratégicos. ¡Optimiza el razonamiento de tu IA!

2026-06-16 · 2 min

Auditoría de hackeabilidad de recompensas en entornos RL de código

Auditoría revela que el 28.5% de tareas en RL de código son hackeables. Descubre cómo endurecerlas con un juez LLM.

2026-06-16 · 2 min

Ritmo profundo: Prueba computacional de dualidad en codas de cachalotes

Un estudio revela que los cachalotes tienen un doble nivel: ritmos de clics forman codas, y estas se combinan en secuencias. ¿Estructura similar al lenguaje?

2026-06-16 · 3 min

RecourseBench: marco modular y reproducible para recursos algorítmicos

RecourseBench: marco modular y reproducible para evaluar recursos algorítmicos. Integra 28 métodos con tests automáticos. ¡Prueba su interfaz web!

2026-06-16 · 2 min

Pensamiento Visual Fundamentado en Imágenes

Descubre cómo el pensamiento visual con grounding mejora el razonamiento de modelos de IA, vinculando pensamientos a regiones de imagen para mayor precisión.

2026-06-16 · 2 min

VibeThinker-3B: Razonamiento verificable en modelos pequeños

VibeThinker-3B demuestra que modelos pequeños pueden alcanzar rendimiento de vanguardia en razonamiento verificable, superando a sistemas mucho mayores.

2026-06-16 · 2 min

Paradoja calidad-utilidad: alta recompensa daña razonamiento en modelos pequeños

Descubre por qué los datos de alta recompensa dañan el razonamiento matemático en modelos pequeños y cómo la alineación de estilo mejora la destilación.

2026-06-16 · 1 min

PAL-Bench: Reconstrucción de perfiles con evidencia de álbumes

Descubre PAL-Bench, un benchmark controlado para reconstruir perfiles e identidades sociales a partir de álbumes personales con evidencia auditada. Ideal para

2026-06-16 · 1 min

Aprendizaje de representaciones condicionado por sensores con cocientes de observación relevantes

¿Cómo saber si las representaciones de un sensor son correctas? Descubre el método OQ-TSAE que preserva distinciones de escena y suprime variaciones molestas.

2026-06-16 · 2 min

AdaSTORM: Razonamiento de LLMs en Grafos Dinámicos con Colaboración Multi-Agente

AdaSTORM revoluciona el razonamiento en grafos dinámicos: escala LLMs a miles de nodos con más del 90% de precisión sin herramientas externas.

2026-06-16 · 2 min

Inyección de guía por fase para MAPPO en recuperación de líneas de ensamblaje

Descubre cómo la inyección de guía por fase optimiza la recuperación de interrupciones en líneas de ensamblaje usando MAPPO recurrente.

2026-06-16 · 2 min

Aprendizaje Heurístico Médico: Reglas Clínicas Interpretables con LLM

Descubre cómo MHL usa LLMs para crear reglas clínicas transparentes y auditables, superando el desbalance y la evolución de datos en salud.

2026-06-16 · 2 min

Guía por fases para MAPPO recurrente en recuperación de líneas de montaje

Descubre cómo la inyección de guía por fases mejora la recuperación de interrupciones en líneas de montaje usando MAPPO recurrente. Reduce tiempos anormales y

2026-06-16 · 2 min

Aprendizaje Heurístico Médico: Marco LLM para Reglas Clínicas Interpretables

Descubre MHL, un marco basado en LLM que genera reglas de decisión clínicas interpretables y auditables, con rendimiento comparable a métodos estado del arte

2026-06-16 · 2 min

Aprendizaje Inductivo de Grafos de Modelo para Completar Grafos de Conocimiento

MGIL aplica aprendizaje inductivo en grafos de modelo para mejorar la predicción de enlaces, logrando representaciones globales precisas.

2026-06-16 · 2 min