#anotaciones

ALMANAC: Dataset de modelos mentales para colaboración de agentes

Descubre ALMANAC, el primer dataset con anotaciones de modelos mentales para mejorar la colaboración entre humanos y agentes de IA. ¡Mejora tus agentes ahora!

2026-06-06 · 2 min

Clasificación Multietiqueta Robusta con Regularización Adaptativa al Ruido

Mejora la clasificación multietiqueta de imágenes satelitales con NAR, que maneja ruido aditivo y sustractivo. Aprendizaje robusto.

2026-06-05 · 1 min

Ranking estadísticamente fiable con LLM usando inferencia potenciada por predicción

PRECISE combina anotaciones humanas con juicios de LLM para evaluar rankings. Reduce error estándar un 21% y usa solo 100 etiquetas para identificar la mejor variante. +407 bps en ventas.

2026-06-05 · 2 min

Generación procedural de sonidos de motor con anotaciones de control

Descubre cómo generar datasets de sonidos de motor con anotaciones precisas. Ideal para entrenar modelos de IA en diseño de sonido automotriz.

2026-06-04 · 2 min

Inferencia Aumentada Generativa: análisis causal combinando IA y humanos

Aprende cómo Generative Augmented Inference (GAI) combina datos de IA y humanos para una inferencia causal más precisa, reduciendo errores y mejorando intervalos de confianza.

2026-06-04 · 2 min

Midiendo lo relevante: Benchmarks sintéticos para modelos de cuello de botella

Aprende cómo los benchmarks sintéticos optimizan los modelos de cuello de botella de conceptos para apoyo a la decisión y automatización.

2026-06-04 · 2 min

Anotaciones verificadas y marco LLM para corregir FOLIO y MALLS

Descubre cómo anotaciones verificadas revelan que ~39% de FOLIO y MALLS son incorrectos. Un marco LLM reduce el esfuerzo de reetiquetado humano.

2026-06-03 · 2 min

AutoEval correcto: evaluar modelos con datos sintéticos

Descubre cómo los algoritmos de AutoEval usan datos sintéticos para reducir costos de anotación humana y aumentar la muestra efectiva hasta un 50% con GPT-4.

2026-06-03 · 2 min

Modelado Bayesiano de Bloques Dispersos para Predicción de Expresión cis

Descubre cómo bsBSLMM mejora la predicción de expresión génica usando bloques LD y anotaciones. Resultados superiores en TWAS y GWAS.

2026-06-02 · 2 min

TLG: Fundamentos de lógica temporal para preguntas de video

Descubre TLG, un sistema que mejora la precisión en razonamiento temporal de video del 46.9% al 71.37% usando anotaciones reales y lógica formal. ¡Aumenta el rendimiento en preguntas de video!

2026-06-02 · 3 min

OpenAI Codex: agentes crean espacios de trabajo con Sites y plugins

OpenAI Codex: Sites y plugins por roles para espacios de trabajo interactivos. Annotations permite ediciones precisas sin regenerar. Ideal para empresas.

2026-06-02 · 2 min

MindZero: Razonamiento Mental Online sin Anotaciones

MindZero revoluciona el razonamiento mental en IA al aprender sin anotaciones. Descubre cómo supera a métodos tradicionales en precisión y velocidad.

2026-06-02 · 2 min

Dr. DocBench: benchmark completo para análisis de documentos expertos

Descubre Dr. DocBench, el benchmark que expone las limitaciones de los modelos actuales en el análisis de documentos expertos con 65k anotaciones en 52 dominios.

2026-06-02 · 2 min

CAFOSat: Dataset anotado para mapeo de CAFO con imágenes de alta resolución

Descubre CAFOSat, un dataset anotado con más de 45,000 imágenes para mapear granjas industriales mediante IA. Mejora la vigilancia ambiental y sanitaria.

2026-06-02 · 2 min

Critic-R: mejora la búsqueda agéntica con retroalimentación introspectiva

Descubre Critic-R: un marco que cierra el ciclo de retroalimentación entre agente y retriever, mejorando la precisión en búsquedas complejas sin anotaciones manuales. Resultados superiores en QA.

2026-06-02 · 2 min

GLIDE: Inferencia basada en predicciones para evaluar sistemas GenAI

GLIDE: biblioteca Python que combina anotaciones humanas y predicciones de LLM para evaluar sistemas GenAI y agentes sin sesgo, ahorrando costos de anotación.

2026-06-01 · 3 min

Changelog: Anotaciones simplificadas, comandos persistentes y pulido de la interfaz

2026-05-31 · 2 min