Uso de IA en ingeniería: equilibrio con propósito claro
Los estudiantes de ingeniería valoran los LLMs para escritura y codificación, pero temen inexactitudes y dependencia. Conoce el equilibrio necesario para
Los estudiantes de ingeniería valoran los LLMs para escritura y codificación, pero temen inexactitudes y dependencia. Conoce el equilibrio necesario para
Benchmark P3B3 mide el sesgo entre portugués europeo y brasileño en LLMs. Descubre cómo los modelos favorecen una variedad y la necesidad de equilibrio.
Descubre ASRD, un framework sin entrenamiento que mejora la precisión hasta un 6.4% y acelera la inferencia 7.2x en LLMs de difusión usando tokens ancla.
Descubre por qué los circuitos de LLMs varían y cómo el nuevo método CEAP reduce la varianza de remuestreo. Análisis de fidelidad y control de modelos.
DREAM mejora el razonamiento matemático de LLMs mediante lógica de primer orden, logrando hasta un 6.4% de mejora.
¿LLMs o bandidos ligeros? Descubre el diagnóstico geométrico que optimiza costes y precisión en sistemas de decisión.
Descubre la definición unificada de alucinación en IA: el modelo del mundo es la clave. Entiende por qué los LLM alucinan y cómo mitigarlo.
Descubre cómo combinar RAG con LLMs para generar recomendaciones de lectura personalizadas. Aumenta relevancia y solidez hasta un 35%.
El benchmark PACUTE expone las limitaciones de los LLMs en la morfología filipina. Modelos abiertos al azar, fronterizos mejores pero lejos del nivel de
Descubre TQA-Bench, el nuevo benchmark para evaluar LLMs en preguntas complejas sobre múltiples tablas relacionales. Resultados clave.
Descubre cómo los métodos XAI globales como SHAP y RuleSHAP revelan comportamientos inyectados en LLMs para combatir la desinformación. Comparativa y mejora
CLPO combina aprendizaje curricular y optimización de políticas para mejorar el razonamiento de LLMs. Reestructura problemas y supera a GRPO y DAPO en 10
Descubre MA-ProofBench, el primer benchmark para demostración de teoremas en análisis matemático. LLMs solo logran 16% en nivel básico y 5% en PhD.
Descubre Affordance20Q, el benchmark que pone a prueba el razonamiento de la IA sobre propiedades físicas sin revelar objetos. ¿Superarán los LLMs este desafío?
Affordance20Q: un benchmark que desafía a las LLMs a identificar objetos por sus propiedades físicas jugando a 20 preguntas. ¿Pueden razonar sin ver el nombre?
WorkflowView usa LLMs para convertir secuencias de acciones en flujos de trabajo interpretables. Logra alta precisión en reconstrucción de tareas y predicción de abandono con privacidad.
Descubre cómo los LLMs con prompting superan a modelos supervisados en clasificación Bloom. Conoce una interfaz ligera para docentes.
Descubre cómo los LLMs con prompts superan a los modelos supervisados en clasificación de preguntas educativas según Bloom. Un estudio con 5 datasets y una interfaz ligera para docentes.
Editar una sola neurona elimina bucles de repetición en LLMs como Gemma 4, pero no soluciona la falta de conocimiento. Resultados clave.
Nuevo marco de dos etapas adapta el IAT a LLMs para separar cumplimiento de consistencia. Revela que la interferencia asociativa varía entre modelos.