#ea · DeepCodeNews

Aprendizaje escalable de circuitos para interpretar grandes modelos de lenguaje

CircuitLasso interpreta LLMs con regresión dispersa, logrando precisión estructural a menor costo. Descubre cómo las características semánticas se propagan.

2026-06-16 · 1 min

¿Ayuda la captura inteligente de datos en la toma de decisiones?

La captura inteligente de datos con IA mejora la toma de decisiones: dashboards, análisis predictivo y alertas en tiempo real. Implementa con Q2BSTUDIO.

2026-06-16 · 1 min

TuneJury: Métrica abierta para alinear preferencias en música generada

Aprende cómo TuneJury mejora la generación musical con un modelo de recompensa par a par. Alinea preferencias humanas para mejores resultados.

2026-06-16 · 2 min

FusionRS: Dataset de teledetección RGB-Infrarrojo para modelos visión-lenguaje

Descubre FusionRS, el primer dataset RGB-Infrarrojo-texto para teledetección. Mejora alineación y descripciones multimodales.

2026-06-16 · 2 min

¿Puede la captura inteligente de datos reemplazar procesos manuales?

¿Cansado de la entrada manual de datos? La captura inteligente con IA automatiza documentos, formularios y facturas, ahorrando tiempo y minimizando errores.

2026-06-16 · 2 min

HAMON: Mezcla Óptica Pasiva de Secuencias para Pronósticos a Largo Plazo

Descubre HAMON, un método óptico pasivo que supera modelos digitales en pronósticos a largo plazo, mejorando el MSE un 14%.

2026-06-16 · 2 min

Atención, no escala, impulsa alineación humano-IA en predicción multimodal

Descubre cómo la atención selectiva, no la escala del modelo, mejora la alineación entre humanos e IA en la predicción del lenguaje multimodal. Estudio con 600

2026-06-16 · 1 min

Seguridad computacional para IA generativa: perspectiva de pruebas de hipótesis

Descubre cómo la seguridad computacional en IA generativa usa pruebas de hipótesis para detectar prompts maliciosos y contenido generado.

2026-06-16 · 2 min

Razonamiento matemático avanzado para LLMs con lógica de primer orden

DREAM mejora el razonamiento matemático de LLMs mediante lógica de primer orden, logrando hasta un 6.4% de mejora.

2026-06-16 · 1 min

Unificando explicaciones post-hoc de completado de grafos de conocimiento

Unificando explicaciones post-hoc en KGC: nueva taxonomía mejora reproducibilidad y evaluación. Ideal para investigadores y desarrolladores.

2026-06-16 · 2 min

Optimización de cobertura sanitaria en Etiopía con aprendizaje aumentado

Optimiza la cobertura sanitaria en Etiopía con un enfoque de aprendizaje aumentado. Conoce el planificador HARP y sus algoritmos para maximizar la población

2026-06-16 · 1 min

BridgePolicy: Políticas visomotoras con difusión basada en observaciones

BridgePolicy: política visomotora que integra observaciones en dinámica de difusión para control robótico. Supera métodos en 52 simulaciones y 5 tareas reales.

2026-06-16 · 3 min

Interpretación como transformación lineal: modelo cognitivo-geométrico

Explora cómo las transformaciones lineales modelan la comunicación y la influencia entre agentes heterogéneos, revelando los límites del entendimiento.

2026-06-16 · 3 min

JADE: Evaluación Dinámica Basada en Expertos para Tareas Profesionales Abiertas

JADE combina principios expertos y evaluación dinámica para evaluar IA en tareas profesionales abiertas, mejorando estabilidad y detectando fallos.

2026-06-16 · 3 min

AgentLeak: Benchmark de fuga de privacidad en sistemas multi-agente LLM

AgentLeak revela que el 68.9% de los datos sensibles se filtran por mensajes entre agentes en sistemas multi-agente LLM, no solo en salidas finales. Descubre

2026-06-16 · 2 min

SkillsBench: Evaluación de habilidades de agente en tareas diversas

SkillsBench evalúa habilidades de agente en 87 tareas: +16.6% de mejora. Ideal para desarrolladores que buscan optimizar agentes de IA.

2026-06-16 · 2 min

JADE: Evaluación Dinámica Basada en Expertos para Tareas Profesionales Abiertas

JADE: un marco de evaluación dinámica basado en expertos para tareas profesionales abiertas. Mejora la estabilidad y detecta fallos críticos en agentes de IA.

2026-06-16 · 2 min

SkillsBench: mide el rendimiento de habilidades de agentes en tareas diversas

Descubre cómo SkillsBench mide el rendimiento de habilidades de agentes en 87 tareas. ¿Las habilidades curadas mejoran la tasa de aprobación? +16.6 pp.

2026-06-16 · 1 min

SorryDB: ¿Puede la IA demostrar teoremas Lean reales?

Descubre SorryDB, el benchmark dinámico que evalúa la capacidad de la IA para demostrar teoremas reales de Lean. ¿Qué tan avanzados están los demostradores

2026-06-16 · 2 min

SorryDB: ¿Pueden los demostradores de IA resolver teoremas Lean reales?

Descubre SorryDB, un benchmark dinámico de teoremas Lean de proyectos reales en GitHub. ¿Qué tan bien rinden la IA y los demostradores especializados?

2026-06-16 · 1 min