PSEBench: Benchmark para evaluar LLMs en triaje de seguridad del paciente
Descubre PSEBench, el nuevo benchmark verificable para evaluar LLMs en el triaje de eventos de seguridad del paciente. Resultados clave y brechas identificadas.
Descubre PSEBench, el nuevo benchmark verificable para evaluar LLMs en el triaje de eventos de seguridad del paciente. Resultados clave y brechas identificadas.
SciVisAgentSkills mejora el análisis y visualización de datos con habilidades de agente reutilizables. Evaluado en 108 tareas con ParaView, napari, VMD y TTK.
SoCRATES: benchmark evalúa mediadores LLM en 8 dominios y 5 ejes socio-cognitivos. Logra 82% alineación humana. ¿Puede la IA mediar?
CL-Bench evalúa si los sistemas de IA aprenden de la experiencia en seis dominios reales. ¿Superan los sistemas con memoria a los simples? Descúbrelo.
Descubre por qué añadir más agentes no siempre mejora resultados LLM. BenchAgent: solo 1 de 6 sistemas multi-agente iguala al agente único. GAIA supera 66%.
Descubre PerceptUI: agentes LLM que imitan usuarios reales para evaluar interfaces. Ahorra costos y acelera iteraciones con predicciones precisas. ¡Lee más!
Descubre cómo los VLMs fallan al razonar sobre el tiempo, usando atajos visuales en lugar de lógica cronológica. Nuevo benchmark y datasets para mejorar la IA.
¿Puede una IA expresar emociones? Un experimento con LLMs logra que digan sentir. Descubre los avances, riesgos y el impacto en la veracidad y ética.
SubtleMemory evalúa la memoria relacional en agentes de IA de largo plazo. Descubre las debilidades y el diagnóstico.
Descubre el modelo CoRe-3: enmarcar, juzgar y dirigir. Aprende a evaluar el razonamiento productivo con IA generativa y mejora tus habilidades.
Descubre cómo CogManip evalúa la manipulación psicológica en LLMs y sus riesgos en interacciones multiturno. Conoce los hallazgos clave.
Descubre cómo fallos técnicos, dilemas éticos y marcos regulatorios afectan la conducción autónoma. Basado en datos de NHTSA, DMV y Moral Machines.
Descubre Benchmark Agent, un sistema autónomo que crea benchmarks de alta calidad para evaluar LLMs y MLLMs sin intervención humana. Ideal para investigación.
Descubre cómo PERSUASIONTRACE modela la persuasión humana en diálogos multi-turno con IA, evaluando dinámicas de creencias y fidelidad de simulaciones.
Descubre cómo los LLM son aparentemente fieles a sus estructuras intermedias, pero fallan al ser intervenidos. Análisis causal revela fragilidad.
Descubre CLASH, el benchmark que evalúa cómo los modelos de lenguaje enfrentan dilemas de alto riesgo con múltiples perspectivas. Resultados sorprendentes sobre el razonamiento moral de la IA.
Descubre MCBench, el primer benchmark multicontexto que evalúa la seguridad de modelos de lenguaje omni (visión, audio y texto). Revela sus limitaciones en razonamiento multimodal.
Descubre CTIConnect, el benchmark que evalúa LLMs con recuperación en fuentes heterogéneas de ciberinteligencia. Resultados clave para la seguridad.
Descubre cómo un sistema multi-agente simula el brainstorming humano con personas virtuales. Genera ideas diversas y las evalúa. Caso: gafas inteligentes.
Descubre cómo SHAP y LLM explican las puntuaciones automáticas en evaluación docente. Análisis de fidelidad y transferibilidad en el marco CLASS.