#gpt · DeepCodeNews

Generación automática de títulos para papers con modelos de lenguaje

Descubre cómo los modelos de lenguaje como PEGASUS y ChatGPT generan títulos precisos y creativos para papers. Comparativa y métricas de evaluación.

2026-06-04 · 1 min

Pedagogía aritmética para modelos de lenguaje

Descubre cómo el método pedagógico GASING entrena modelos de lenguaje en aritmética básica. Un GPT-2 pequeño alcanza más del 80% de precisión sin refuerzo. ¡Lee más!

2026-06-04 · 2 min

¿Los asistentes de IA recomiendan tu marca? Compruébalo en 2 minutos

¿Tu marca aparece cuando los compradores preguntan a ChatGPT o Claude? Descúbrelo con esta prueba de 2 minutos y mejora tu visibilidad en IA.

2026-06-04 · 3 min

DeskCraft: Evaluación de agentes de escritorio en flujos de trabajo profesionales

DeskCraft: benchmark para agentes de escritorio en flujos creativos con colaboración humano-agente. Evalúa GPT-5.4 y descubre sus limitaciones en tareas largas

2026-06-03 · 2 min

GTBench: Benchmarck curricular para evaluar LLMs en teoría de grafos

Nuevo benchmark curricular GTBench evalúa LLMs como asistentes en teoría de grafos. GPT-5 lidera, Llama falla.

2026-06-03 · 2 min

MultiTurnPSB: Seguridad en IA médica ante ataques multi-turno

Los chatbots médicos fallan hasta en un 80% ante ataques multi-turno. Descubre cómo MultiTurnPSB revela vulnerabilidades y las defensas con clasificadores.

2026-06-03 · 2 min

WaterSIC: Cuantización lineal casi óptima (teoría de la información)

WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!

2026-06-03 · 2 min

Pruebas de razonamiento aritmético en LLMs con ataques de reasignación numérica

Descubre cómo los LLMs fallan ante cambios numéricos mínimos en problemas aritméticos. Nuevos ataques automáticos revelan fragilidades en razonamiento.

2026-06-03 · 3 min

Aprendizaje por refuerzo con agente autorrefinado para navegación UAV con visión

AgenticRL usa un agente GPT para diseñar recompensas y refinar la navegación UAV con visión, logrando un 91% de éxito real y un 94% de precisión sim-real.

2026-06-03 · 2 min

Humanoid-GPT: Escalando datos y estructura para seguimiento zero-shot

Humanoid-GPT escala datos y estructura para seguimiento zero-shot de movimientos. Descubre cómo logra generalización sin precedentes.

2026-06-03 · 2 min

El plan Vigilath: domina los motores IA y GEO en 2026

Domina la nueva era de búsqueda con Vigilath. Aprende cómo optimizar tu marca para ser la respuesta elegida por IA como ChatGPT y Gemini en 2026.

2026-06-03 · 3 min

Bancos británicos acceden a GPT-5.5 de OpenAI tras veto de Anthropic

Bancos británicos obtienen GPT-5.5 de OpenAI tras exclusión de Anthropic. ¿Cómo afecta la rivalidad entre IA a la ciberseguridad de infraestructuras críticas?

2026-06-03 · 2 min

Pronóstico de sismogramas de tres componentes con transformers

Descubre cómo SeismoGPT, un modelo transformer, pronostica sismogramas triaxiales. Aplicaciones en alerta sísmica y mitigación de desastres.

2026-06-03 · 2 min

Heterogeneidad cognitiva y sesgos en cadenas de suministro con LLM

La heterogeneidad cognitiva en LLM (DeepSeek, GPT) afecta cadenas de suministro. La simulación revela sesgos y cómo compartir información mitiga ineficiencias.

2026-06-03 · 2 min

Nuevo marco para rechazos de ciberseguridad en agentes de IA

Solo 2 de 8 modelos frontier rechazan tareas ofensivas. Presentamos el primer marco para definir cuándo los agentes de IA deben negarse en ciberseguridad.

2026-06-03 · 2 min

OpenAI mejora GPT-5.5 y retirará modelos ChatGPT heredados

OpenAI lanza mejora para GPT-5.5 y retira modelos clásicos como o3. Conoce los cambios y el futuro de ChatGPT.

2026-06-03 · 2 min

AutoEval correcto: evaluar modelos con datos sintéticos

Descubre cómo los algoritmos de AutoEval usan datos sintéticos para reducir costos de anotación humana y aumentar la muestra efectiva hasta un 50% con GPT-4.

2026-06-03 · 2 min

Destilación de Grandes Modelos de Lenguaje con Puntuación Concreta

Descubre CSD, técnica de destilación que evita suavizado softmax y optimiza logits, mejorando modelos de lenguaje grandes. Ideal para IA eficiente.

2026-06-02 · 2 min

Descubriendo vulnerabilidades en LLMs con evolución calidad-diversidad

Nuevo método evolutivo basado en MAP-Elites revela vulnerabilidades específicas en modelos como GPT-4o y Claude, mejorando la seguridad y robustez de los LLMs.

2026-06-02 · 2 min

IstGPT: Detección de anomalías espacio-temporales con LLMs

Descubre IstGPT, la primera herramienta de detección de anomalías basada en LLMs y grafos para proteger sistemas industriales en tiempo real contra ataques ICS.

2026-06-02 · 2 min