
EMBODIED WEB AGENTS: Rompiendo barreras entre el mundo físico y digital para una IA integrada
Investigadores presentan EMBODIED WEB AGENTS, un nuevo paradigma para que la IA interactúe en el mundo físico mientras razona con información de la web, abordando tareas que requieren una inteligencia integrada.
La inteligencia artificial contemporánea se encuentra ante un desafío fundamental: la mayoría de los agentes operan en dominios aislados, o bien, procesan información digital, o interactúan con el mundo físico, pero rara vez hacen ambas cosas de manera integrada. Esta separación limita su capacidad para resolver tareas complejas como cocinar siguiendo recetas en línea o navegar por una ciudad usando mapas en tiempo real.
La nueva propuesta: EMBODIED WEB AGENTS
Para abordar esta limitación, los investigadores han introducido un paradigma innovador: EMBODIED WEB AGENTS (EWA). El objetivo es desarrollar sistemas de IA que puedan percibir y actuar en el mundo físico mientras razonan sobre información dinámica y no estructurada obtenida de la web. Esto presenta desafíos profundamente entrelazados, como vincular instrucciones digitales abstractas con datos físicos y decidir cuándo cambiar entre acciones físicas y la consulta de información digital.
Un entorno de simulación unificado y un nuevo benchmark
Para hacer realidad este concepto, se ha desarrollado un entorno de simulación que integra:
- Entornos 3D realistas: Incluye escenarios interiores fotorrealistas de AI2-THOR y entornos exteriores basados en Google Street View y Google Earth API en ciudades como Nueva York y Boston.
- Interfaces web funcionales: Incorpora sitios web como Wikipedia, tiendas en línea, sitios de recetas y servicios como OpenStreetMap, permitiendo a los agentes interactuar fluidamente tanto con espacios físicos como digitales.
Sobre esta plataforma, se ha publicado el EMBODIED WEB AGENTS Benchmark, un conjunto de casi 1500 tareas que exigen un razonamiento coordinado. Los dominios incluyen:
- Cocina: Combinar ingredientes físicos con recetas en línea.
- Navegación: Usar mapas en línea para la orientación física.
- Compras: Coordinar acciones en tiendas físicas con opciones en línea.
- Turismo: Conectar puntos de referencia físicos con información de Wikipedia.
- Geolocalización: Explorar un entorno físico y usar la web para determinar la ubicación.
Resultados experimentales y análisis de errores
Las pruebas con modelos de IA de vanguardia (como GPT-4o y Gemini) revelan una brecha de rendimiento significativa frente a los humanos. La precisión de los modelos varía entre 5.4% y 34.72%, mientras que la humana oscila entre 77.08% y 92.59%.
Un análisis detallado muestra que los modelos no fallan en tareas aisladas, sino en la integración transdominio.
- Los errores transdominio constituyen la mayoría de los fallos (66.6%).
- Los agentes a menudo quedan atrapados en un solo entorno: realizan acciones físicas irrelevantes sin consultar la web, o hacen clics repetitivos en la web sin actuar en el mundo físico.
- También se observa una desalineación entre instrucciones y acciones, como intentar cortar un huevo cuando la receta indica una manzana.
- Los errores aislados (solo web o solo físicos) son mucho menos frecuentes (8.0% y 14.6% respectivamente).
Este trabajo no solo subraya los desafíos actuales, sino que también abre nuevas y emocionantes oportunidades en la intersección de la cognición encarnada y el acceso al conocimiento a escala web.