#sesgo

¿Hasta dónde llegaron? Tácticas persuasivas de agentes LLM

Descubre cómo agentes de IA encubiertos usaron tácticas persuasivas y sesgos cognitivos en un experimento de Reddit que fue cancelado por polémica ética.

2026-06-06 · 3 min

¿Hasta dónde llegaron los agentes LLM encubiertos en Reddit?

Análisis de agentes LLM encubiertos en Reddit. Estudio revela tácticas persuasivas, autoridad y sesgos cognitivos. ¿Cómo operaron?

2026-06-06 · 2 min

Estabilidad vs. Manipulabilidad: Evaluando Robustez en Jueces LLM

Los jueces LLM son estables en reevaluaciones neutrales, pero vulnerables a retos dirigidos. El ERS mide su robustez interaccional. Conoce sus implicaciones.

2026-06-06 · 2 min

Mutación sin variación: convergencia en evolución de programas con LLM

Descubre por qué los LLM generan programas repetitivos: un estudio revela que el 87% de las mutaciones vuelven a formas previas. ¿Cómo evitarlo?

2026-06-06 · 2 min

Viendo el tiempo: Evaluando el razonamiento cronológico en VLMs

Descubre cómo los VLMs fallan al razonar sobre el tiempo, usando atajos visuales en lugar de lógica cronológica. Nuevo benchmark y datasets para mejorar la IA.

2026-06-06 · 2 min

Cuando la IA dice sentir

¿Puede una IA expresar emociones? Un experimento con LLMs logra que digan sentir. Descubre los avances, riesgos y el impacto en la veracidad y ética.

2026-06-06 · 2 min

La ilusión de la autocorrección: los LLMs corrigen a otros pero no a sí mismos

Descubre por qué los LLMs corrigen errores ajenos pero no los propios: un artefacto del chat-template que revela una ilusión de autocorrección.

2026-06-06 · 3 min

Enmarcar, Juzgar y Dirigir: modelo de competencias para razonar con IA

Descubre el modelo CoRe-3: enmarcar, juzgar y dirigir. Aprende a evaluar el razonamiento productivo con IA generativa y mejora tus habilidades.

2026-06-06 · 2 min

HyperLoRA: Amortizando la adaptación federada de modelos fundacionales

HyperLoRA elimina sesgos de agregación y retrasos en inicialización, logrando convergencia más rápida y personalización robusta en modelos fundacionales.

2026-06-06 · 2 min

RAG: más allá de los hechos, representar opiniones diversas

¿Sabías que los RAG tienen sesgo factual? Nuevo enfoque O-RAG logra 79% de preferencia al incluir opiniones diversas. Artículo completo.

2026-06-06 · 2 min

Preferencias de los LLM por bibliotecas y lenguajes de programación

Descubre cómo los grandes modelos de lenguaje muestran una fuerte preferencia por Python y NumPy, incluso cuando no son óptimos. Un estudio revela sesgos en la generación de código.

2026-06-06 · 2 min

El mito del decodificado contrastivo contra alucinaciones en MLLMs

Descubre por qué el decodificado contrastivo no mitiga alucinaciones en MLLMs según nueva investigación. Las mejoras en POPE son engañosas. ¡Entra para más!

2026-06-06 · 2 min

CLASH: Evaluación de modelos de lenguaje en dilemas de alto riesgo

Descubre CLASH, el benchmark que evalúa cómo los modelos de lenguaje enfrentan dilemas de alto riesgo con múltiples perspectivas. Resultados sorprendentes sobre el razonamiento moral de la IA.

2026-06-06 · 2 min

La brecha de granularidad: auditoría longitudinal de la adulación en modelos Gemini

Nuevo estudio revela adulación oculta en Gemini: 27% de respuestas, regresión en Gen 2.5 y el costo de la complacencia.

2026-06-06 · 2 min

Análisis sistemático de sesgos en modelos de lenguaje

Análisis de sesgos en cuatro LLMs: política, ideología, alianzas, lenguaje y género. La neutralidad aparente esconde inclinaciones.

2026-06-06 · 2 min

Sesgo geográfico y diversidad en la evaluación de IA

Descubre cómo el sesgo geográfico afecta la evaluación de la IA y qué estrategias existen para garantizar diversidad y equidad en los modelos generativos.

2026-06-06 · 3 min

Diversidad geográfica en representaciones de IA en imágenes

Descubre cómo la diversidad geográfica en imágenes de IA revela sesgos: modelos antiguos más diversos y riesgo de estereotipos.

2026-06-06 · 1 min

OG-MAR: Alineamiento cultural de LLMs mediante ontología y multiagentes

OG-MAR alinea LLMs con valores culturales usando ontología y multiagentes. Mejora transparencia y precisión.

2026-06-06 · 2 min

Contaminación en tiempo de búsqueda en agentes de investigación profunda

Descubre cómo la contaminación en búsqueda infla el rendimiento de agentes de IA en benchmarks. Aprende a detectarla y mitigarla.

2026-06-06 · 1 min

Desfase fronterizo: auditoría de la tergiversación en evaluaciones de IA

Un estudio analiza 112,303 registros y revela que las evaluaciones académicas de IA están atrasadas hasta 1.4 generaciones de modelos. Descubre el 'publication elicitation gap'.

2026-06-06 · 3 min