#llms

Uso de IA en ingeniería: equilibrio con propósito claro

Los estudiantes de ingeniería valoran los LLMs para escritura y codificación, pero temen inexactitudes y dependencia. Conoce el equilibrio necesario para

2026-06-16 · 1 min

P3B3: Benchmark para medir sesgo de variedad en portugués

Benchmark P3B3 mide el sesgo entre portugués europeo y brasileño en LLMs. Descubre cómo los modelos favorecen una variedad y la necesidad de equilibrio.

2026-06-16 · 2 min

Decodificación revocable guiada por tokens ancla en LLMs de difusión

Descubre ASRD, un framework sin entrenamiento que mejora la precisión hasta un 6.4% y acelera la inferencia 7.2x en LLMs de difusión usando tokens ancla.

2026-06-16 · 2 min

Desmitificando la Varianza en el Descubrimiento de Circuitos de LLMs

Descubre por qué los circuitos de LLMs varían y cómo el nuevo método CEAP reduce la varianza de remuestreo. Análisis de fidelidad y control de modelos.

2026-06-16 · 3 min

Razonamiento matemático avanzado para LLMs con lógica de primer orden

DREAM mejora el razonamiento matemático de LLMs mediante lógica de primer orden, logrando hasta un 6.4% de mejora.

2026-06-16 · 1 min

¿Cuándo necesitamos los LLMs? Un diagnóstico para bandidos basados en lenguaje

¿LLMs o bandidos ligeros? Descubre el diagnóstico geométrico que optimiza costes y precisión en sistemas de decisión.

2026-06-16 · 2 min

Una definición unificada de alucinación: es el modelo del mundo, estúpido

Descubre la definición unificada de alucinación en IA: el modelo del mundo es la clave. Entiende por qué los LLM alucinan y cómo mitigarlo.

2026-06-16 · 1 min

Combinando RAG con LLMs para recomendaciones de lectura

Descubre cómo combinar RAG con LLMs para generar recomendaciones de lectura personalizadas. Aumenta relevancia y solidez hasta un 35%.

2026-06-16 · 3 min

PACUTE: Evaluación de tokens en filipino para LLMs

El benchmark PACUTE expone las limitaciones de los LLMs en la morfología filipina. Modelos abiertos al azar, fronterizos mejores pero lejos del nivel de

2026-06-16 · 1 min

TQA-Bench: Evaluación de LLMs en preguntas sobre múltiples tablas

Descubre TQA-Bench, el nuevo benchmark para evaluar LLMs en preguntas complejas sobre múltiples tablas relacionales. Resultados clave.

2026-06-16 · 1 min

¿XAI global revela comportamientos inyectados en LLMs? SHAP vs RuleSHAP

Descubre cómo los métodos XAI globales como SHAP y RuleSHAP revelan comportamientos inyectados en LLMs para combatir la desinformación. Comparativa y mejora

2026-06-16 · 1 min

CLPO: Aprendizaje Curricular para Razonamiento de LLMs

CLPO combina aprendizaje curricular y optimización de políticas para mejorar el razonamiento de LLMs. Reestructura problemas y supera a GRPO y DAPO en 10

2026-06-16 · 2 min

MA-ProofBench: Evaluación de LLMs en demostración de teoremas de análisis

Descubre MA-ProofBench, el primer benchmark para demostración de teoremas en análisis matemático. LLMs solo logran 16% en nivel básico y 5% en PhD.

2026-06-15 · 2 min

Affordance20Q: Cómo la IA razona sobre propiedades físicas

Descubre Affordance20Q, el benchmark que pone a prueba el razonamiento de la IA sobre propiedades físicas sin revelar objetos. ¿Superarán los LLMs este desafío?

2026-06-15 · 1 min

Affordance20Q: Razonamiento de affordance desde propiedades físicas

Affordance20Q: un benchmark que desafía a las LLMs a identificar objetos por sus propiedades físicas jugando a 20 preguntas. ¿Pueden razonar sin ver el nombre?

2026-06-15 · 3 min

Abstracción de secuencias de acciones en flujos de trabajo interpretables

WorkflowView usa LLMs para convertir secuencias de acciones en flujos de trabajo interpretables. Logra alta precisión en reconstrucción de tareas y predicción de abandono con privacidad.

2026-06-15 · 2 min

Clasificación de preguntas Bloom entre datasets: Modelos supervisados y LLMs

Descubre cómo los LLMs con prompting superan a modelos supervisados en clasificación Bloom. Conoce una interfaz ligera para docentes.

2026-06-15 · 3 min

Clasificación transversal de preguntas según Bloom: modelos supervisados y LLMs con prompts

Descubre cómo los LLMs con prompts superan a los modelos supervisados en clasificación de preguntas educativas según Bloom. Un estudio con 5 datasets y una interfaz ligera para docentes.

2026-06-15 · 3 min