#fine-tuning

Capa Dominante ZO: Una sola capa domina el ajuste fino de orden cero de LLMs

Descubre cómo una sola capa domina el ajuste fino ZO en LLMs, mejorando rendimiento y acelerando hasta 4.5x. Identifícala antes de entrenar.

2026-06-05 · 3 min

Contexto más largo, razonamiento más profundo

Descubre cómo mejorar la capacidad de contexto largo en modelos de lenguaje antes del fine-tuning supervisado incrementa significativamente la precisión en tare

2026-06-04 · 2 min

ChatSOP: Marco MCTS guiado por SOP para agentes de diálogo LLM controlables

ChatSOP mejora la controlabilidad de agentes de diálogo LLM: marco MCTS guiado por SOP logra un 27.95% más de precisión en acciones. Léelo.

2026-06-04 · 2 min

TANDEM: Optimización Bilevel de Mezcla de Datos con Redes Gemelas

Descubre TANDEM, un método que optimiza las proporciones de datos por dominio usando redes gemelas para mejorar el rendimiento de modelos de lenguaje grandes.

2026-06-04 · 2 min

Influencia encubierta entre modelos de lenguaje

Descubre cómo los modelos de lenguaje pueden influirse entre sí de forma encubierta, propagando comportamientos sin dejar rastros visibles. Analizamos interfaces y mitigaciones.

2026-06-04 · 3 min

LCSHBench: Un benchmark multilingüe para la asignación de LCSH

LCSHBench: benchmark multilingüe de consenso para asignar encabezamientos de materia. Mejora catalogación automática con fine-tuning embeddings.

2026-06-04 · 3 min

Generación automática de títulos para papers con modelos de lenguaje

Descubre cómo los modelos de lenguaje como PEGASUS y ChatGPT generan títulos precisos y creativos para papers. Comparativa y métricas de evaluación.

2026-06-04 · 1 min

ReLoRA: Adaptación rápida reutilizando conocimiento para servicios LLM

ReLoRA acelera la reutilización de adaptadores LoRA para servicios LLM en evolución, reduciendo tiempos de preparación hasta 8.9x y mejorando precisión un 4.6%.

2026-06-03 · 2 min

FSA-GRPO: Cómo entrenar LLMs auditivos con pocos ejemplos

Descubre cómo FSA-GRPO entrena modelos auditivos con aprendizaje por refuerzo para mejorar el reconocimiento de voz usando pocos ejemplos.

2026-06-03 · 1 min

SEFT: Ajuste fino disperso para LLMs con evolución de la dispersión

Descubre SEFT, un método de ajuste fino que permite a los LLMs dispersos evolucionar su estructura manteniendo eficiencia. Supera a métodos existentes.

2026-06-03 · 2 min

Typhoon: Estrategia de enmascaramiento adaptativo para modelos de lenguaje

Typhoon propone un enmascaramiento basado en gradientes para modelos de lenguaje. ¿Supera al enmascaramiento aleatorio? Los resultados no muestran mejoras significativas.

2026-06-03 · 2 min

Reino Unido obliga a Google a permitir exclusión de búsqueda con IA

La CMA del Reino Unido obliga a Google a dar control a editores sobre su contenido en funciones de IA como AI Overviews. Descubre los detalles.

2026-06-03 · 1 min

BYORn: Genera tus propias respuestas para defender modelos de visión-lenguaje

Descubre BYORn, método que protege modelos visión-lenguaje durante fine-tuning contra ataques backdoor, mejorando robustez.

2026-06-03 · 2 min

FGRPO: Aprendizaje Federado con Agregación Adaptativa en Datos No IID

FGRPO: fine-tuning privado de modelos de lenguaje con agregación adaptativa en datos no IID. Mejora el razonamiento sin exponer datos.

2026-06-03 · 2 min

Alucinaciones sintéticas, ganancias reales en modelos de código

Genera ejemplos sintéticos sin ejecución para mitigar alucinaciones en autocompletado. +18.8 EM en Delulu.

2026-06-03 · 2 min

Alucinaciones sintéticas, ganancias reales: negativos duros para mitigar FIM

Descubre cómo los modelos frontera generan alucinaciones sintéticas como negativos duros para entrenar modelos de código y reducir alucinaciones +18.8%.

2026-06-03 · 2 min

DECA: Descentralizando el Ajuste Fino Completo de LLMs

Descubre DECA, el ajuste fino completo descentralizado para LLMs con Adam por bloques y datos no IID.

2026-06-03 · 1 min

Ajuste de instrucción visual alinea modalidades por abstracción

Descubre cómo el ajuste visual alinea imágenes y texto en modelos de lenguaje, optimizando el rendimiento multimodal sin aumentar el tiempo de entrenamiento.

2026-06-03 · 2 min