#gpt-4

Aprendizaje online de habilidades con recuperación dinámica basada en estado

SGDR revoluciona el aprendizaje de habilidades en agentes web: recuperación dinámica basada en estado mejora un 10% la tasa de éxito en WebArena. ¡Conoce los detalles!

2026-06-04 · 2 min

El cacheo de prompts no solo ahorra dinero: permite prompts de 20K tokens

Descubre cómo el cacheo de prompts reduce hasta 10x el costo en Claude y 2x en GPT-4o, permitiendo prompts de sistema de 20K tokens para mejorar la calidad de salida.

2026-06-04 · 2 min

ChatSOP: Marco de planificación MCTS guiado por SOP para agentes de diálogo

Descubre ChatSOP: guía agentes de diálogo con SOP y MCTS. Aumenta precisión en acciones un 28%. ¡Prueba el marco!

2026-06-04 · 2 min

MultiTurnPSB: Seguridad en IA médica ante ataques multi-turno

Los chatbots médicos fallan hasta en un 80% ante ataques multi-turno. Descubre cómo MultiTurnPSB revela vulnerabilidades y las defensas con clasificadores.

2026-06-03 · 2 min

AutoEval correcto: evaluar modelos con datos sintéticos

Descubre cómo los algoritmos de AutoEval usan datos sintéticos para reducir costos de anotación humana y aumentar la muestra efectiva hasta un 50% con GPT-4.

2026-06-03 · 2 min

Descubriendo vulnerabilidades en LLMs con evolución calidad-diversidad

Nuevo método evolutivo basado en MAP-Elites revela vulnerabilidades específicas en modelos como GPT-4o y Claude, mejorando la seguridad y robustez de los LLMs.

2026-06-02 · 2 min

ToMAP: Persuasores LLM con conciencia del oponente

Descubre cómo ToMAP, un modelo de 3B parámetros, supera a GPT-4o en persuasión usando Teoría de la Mente. Aumenta efectividad un 39.4%.

2026-06-02 · 2 min

Medición y mitigación de sesgos en código generado por grandes modelos de lenguaje

Aprende a evaluar y reducir el sesgo en el código generado por GPT-4o y Gemini. Analizamos métricas CBS, ACR y estrategias de mitigación para lograr equidad en IA.

2026-06-02 · 2 min

Inyección indirecta de comandos en agentes ReAct según profundidad

Descubre cómo la profundidad de inyección y el framing del payload determinan el éxito de ataques en agentes ReAct. Estudio revela riesgos clave en seguridad de IA.

2026-06-01 · 3 min

Aumento de paráfrasis en destino para traducción de lengua de señas con LLMs

Descubre la paráfrasis generada por GPT-4o que mejora la traducción de lengua de señas en PHOENIX14T, pero revela límites en conjuntos extremos.

2026-06-01 · 2 min