Los investigadores que trabajan en grandes modelos de inteligencia artificial como ChatGPT tienen grandes cantidades de texto, fotografías y vídeos de Internet para entrenar sistemas. Pero los robóticos que entrenan máquinas físicas enfrentan barreras: los datos de los robots son costosos y, como no hay flotas de robots deambulando por el mundo, simplemente no hay suficientes datos fácilmente disponibles para que funcionen bien en entornos dinámicos. como las casas de las personas.
Algunos investigadores han recurrido a simulaciones para entrenar robots. Sin embargo, incluso ese proceso, que a menudo involucra a un diseñador gráfico o ingeniero, es laborioso y costoso.
Dos nuevos estudios de investigadores de la Universidad de Washington presentan sistemas de inteligencia artificial que utilizan videos o fotografías para crear simulaciones que pueden entrenar robots para que funcionen en entornos reales. Esto podría reducir significativamente los costos de entrenar robots para que funcionen en entornos complejos.
En el primer estudio, un usuario escanea rápidamente un espacio con un teléfono inteligente para registrar su geometría. El sistema, llamado RialTo, puede crear una simulación de “gemelo digital” del espacio, donde el usuario puede ingresar cómo funcionan diferentes cosas (abrir un cajón, por ejemplo). Luego, un robot puede repetir virtualmente movimientos en la simulación con ligeras variaciones para aprender a realizarlos de manera efectiva. En el segundo estudio, el equipo construyó un sistema llamado URDFormer, que toma imágenes de entornos reales de Internet y crea rápidamente entornos de simulación físicamente realistas donde los robots pueden entrenar.
Los equipos presentaron sus estudios: el primero el 16 de julio y el segundo el 19 de julio — en la conferencia Robotics Science and Systems en Delft, Países Bajos.
«Estamos tratando de habilitar sistemas que pasen de manera económica del mundo real a la simulación», dijo Abhishek Guptaprofesor asistente de la Universidad de Washington en la Escuela de Ingeniería y Ciencias de la Computación Paul G. Allen y coautor principal de ambos artículos. “Los sistemas pueden luego entrenar robots en esas escenas de simulación, para que el robot pueda funcionar de manera más efectiva en un espacio físico. Esto es útil para la seguridad (no se pueden tener robots mal entrenados que rompan cosas y lastimen a las personas) y potencialmente amplía el acceso. Si puedes hacer que un robot funcione en tu casa simplemente escaneándolo con tu teléfono, eso democratizará la tecnología”.
Si bien actualmente muchos robots están bien preparados para trabajar en entornos como líneas de montaje, enseñarles a interactuar con personas y en entornos menos estructurados sigue siendo un desafío.
«En una fábrica, por ejemplo, hay un montón de repeticiones», dijo el autor principal del estudio URDFormer. Zoey Chenestudiante de doctorado de la Universidad de Washington en la Escuela Allen. “Las tareas pueden ser difíciles de realizar, pero una vez que programas un robot, puede seguir realizando la tarea una y otra vez. Mientras que las casas son únicas y cambian constantemente. Hay diversidad de objetos, de tareas, de planos y de personas moviéndose a través de ellos. Aquí es donde la IA se vuelve realmente útil para los robóticos”.
Los dos sistemas abordan estos desafíos de diferentes maneras.
RialTo, que Gupta creó con un equipo del Instituto de Tecnología de Massachusetts, hace que alguien pase por un entorno y grabe en vídeo su geometría y sus partes móviles. Por ejemplo, en una cocina, abren los armarios, la tostadora y el frigorífico. Luego, el sistema utiliza modelos de IA existentes (y un humano realiza un trabajo rápido a través de una interfaz gráfica de usuario para mostrar cómo se mueven las cosas) para crear una versión simulada de la cocina que se muestra en el video. Un robot virtual se entrena a sí mismo mediante prueba y error en el entorno simulado, intentando repetidamente tareas como abrir el horno tostador, un método llamado aprendizaje por refuerzo.
Al pasar por este proceso en la simulación, el robot mejora en esa tarea y evita perturbaciones o cambios en el entorno, como una taza colocada al lado de la tostadora. Luego, el robot puede transferir ese aprendizaje al entorno físico, donde es casi tan preciso como un robot entrenado en la cocina real.
El otro sistema, URDFormer, se centra menos en una precisión relativamente alta en una sola cocina; en cambio, evoca de forma rápida y económica cientos de simulaciones de cocinas genéricas. URDFormer escanea imágenes de Internet y las combina con modelos existentes de cómo, por ejemplo, probablemente se moverán esos cajones y gabinetes de la cocina. Luego predice una simulación a partir de la imagen inicial del mundo real, lo que permite a los investigadores entrenar robots de forma rápida y económica en una amplia gama de entornos. La desventaja es que estas simulaciones son significativamente menos precisas que las que genera RialTo.
«Los dos enfoques pueden complementarse entre sí», afirmó Gupta. “URDFormer es realmente útil para la capacitación previa en cientos de escenarios. RialTo es particularmente útil si ya ha entrenado previamente un robot y ahora desea implementarlo en la casa de alguien y lograr que tenga un éxito tal vez del 95 %”.
En el futuro, el equipo de RialTo quiere implementar su sistema en los hogares de las personas (en gran medida se ha probado en un laboratorio), y Gupta dijo que quiere incorporar pequeñas cantidades de datos de entrenamiento del mundo real con los sistemas para mejorar sus tasas de éxito.
«Con suerte, sólo una pequeña cantidad de datos del mundo real puede solucionar las fallas», dijo Gupta. «Pero todavía tenemos que encontrar la mejor manera de combinar los datos recopilados directamente en el mundo real, que es caro, con los datos recopilados en simulaciones, que son baratos, pero un poco incorrectos».
Fuente: universidad de washington
!function(f,b,e,v,n,t,s){if(f.fbq)return;n=f.fbq=function(){n.callMethod?
n.callMethod.apply(n,arguments):n.queue.push(arguments)};if(!f._fbq)f._fbq=n;
n.push=n;n.loaded=!0;n.version=’2.0′;n.queue=[];t=b.createElement(e);t.async=!0;
t.src=v;s=b.getElementsByTagName(e)[0];s.parentNode.insertBefore(t,s)}(window,
document,’script’,’https://connect.facebook.net/en_US/fbevents.js’);
fbq(‘init’, ‘1254095111342376’);
fbq(‘track’, ‘PageView’);