Los bots de Google DeepMind avanzan hacia bots de uso general, IA generativa y Wi-Fi de escritorio

Créditos de imagen: Mente profunda

[A version of this piece first appeared in TechCrunch’s robotics newsletter, Actuator. Subscribe here.]

A principios de este mes, el equipo DeepMind de Google presentó Open X-Embodiment, una base de datos de trabajos de robótica creada en colaboración con 33 institutos de investigación. Los investigadores participantes compararon el sistema con ImageNet, una base de datos histórica fundada en 2009 que ahora incluye más de 14 millones de imágenes.

«Así como ImageNet impulsó la investigación en visión por computadora, creemos que Open X-Embodiment puede hacer lo mismo para el desarrollo de la robótica», señalaron en ese momento los investigadores Quan Vuong y Pannag Sanketi. «Construir un conjunto de datos de diversas demostraciones de robots es el paso clave para entrenar un modelo general que pueda controlar muchos tipos diferentes de robots, seguir diversas instrucciones, realizar razonamientos básicos sobre tareas complejas y generalizar de manera efectiva».

En el momento de su anuncio, Open X-Embodiment contenía más de 500 habilidades y 150.000 tareas recopiladas de 22 encarnaciones del robot. No son exactamente los números de ImageNet, pero es un buen comienzo. Luego, DeepMind entrenó su modelo RT-1-X con los datos y lo utilizó para entrenar robots en otros laboratorios, donde registró una tasa de éxito del 50% en comparación con los métodos internos desarrollados por los equipos.

Probablemente he dicho esto decenas de veces en estas páginas, pero es un momento realmente emocionante para el aprendizaje automático. He hablado con muchos equipos que abordan el problema desde diferentes ángulos y con una eficacia cada vez mayor. La era del robot personalizado está lejos de terminar, pero ciertamente sentimos que estamos vislumbrando un mundo donde un robot de propósito general es una clara posibilidad.

Sin duda, la simulación será una gran parte de la ecuación, junto con la inteligencia artificial (incluida la diversidad generativa). Todavía parece que algunas empresas han puesto el caballo delante del carro cuando se trata de construir dispositivos para tareas generales, pero después de unos años, ¿quién sabe?

Vincent VanHook es alguien a quien he estado tratando de identificar durante algún tiempo. Si yo estaba disponible, él no. Envíos de noche y todo eso. Afortunadamente, finalmente pudimos hacerlo el fin de semana pasado.

Vanhoucke es nuevo en el puesto de jefe de robótica de Google DeepMind, y asumió el cargo en mayo. Sin embargo, ha estado en la empresa durante más de 16 años, más recientemente como científico distinguido en Google AI Robotics. Después de todo, podría ser la mejor persona con quien hablar sobre las ambiciones robóticas de Google y cómo llegaron hasta aquí.

Créditos de imagen: Google

¿En qué momento de la historia de DeepMind se desarrolló el equipo de robótica?

Originalmente no estaba del lado de la cerca de DeepMind. Fui parte de la investigación de Google. Recientemente nos fusionamos con el esfuerzo de DeepMind. Entonces, en cierto sentido, mi participación en DeepMind es muy reciente. Pero hay una historia más larga de investigación en robótica que se lleva a cabo en Google DeepMind. Comenzó con la creciente opinión de que la tecnología de percepción se había vuelto realmente buena.

Mucha visión por computadora y procesamiento de sonido y todas estas cosas han dado un giro y están casi al nivel humano. Y empezamos a preguntarnos: «Bueno, suponiendo que esto continúe durante los próximos años, ¿cuáles son las consecuencias?». Una consecuencia clara fue que de repente tener robots en un entorno del mundo real sería una posibilidad real. La capacidad de desarrollar y realizar tareas en un entorno cotidiano dependía por completo de tener una cognición realmente fuerte. Inicialmente trabajé en inteligencia artificial general y visión por computadora. También trabajé en el reconocimiento de voz en el pasado. Vi la escritura en la pared y decidí centrarme en el uso de la robótica como la siguiente etapa de nuestra investigación.

READ Meetkai está creando un gemelo digital de su Silicon Box Chip Packaging Factory de $ 2 mil millones

Tengo entendido que gran parte del equipo de Everyday Robots terminó en este equipo. La historia de Google con los robots se remonta a mucho más atrás. Han pasado 10 años desde que Alphabet realizó todas estas adquisiciones [Boston Dynamics, etc.]. Parece que mucha gente de esas empresas ha completado el actual equipo de robótica de Google.

Hay una gran parte del equipo que surgió de estas adquisiciones. Eso fue antes de mi época: me gustaba mucho la visión por computadora y el reconocimiento de voz, pero todavía tenemos muchas de esas personas. Cada vez llegamos más a la conclusión de que todo el problema de la robótica cae dentro del problema general de la IA. Resolver la parte de inteligencia realmente ha sido el factor clave para cualquier proceso significativo en la robótica del mundo real. Hemos centrado muchos de nuestros esfuerzos en resolver esta percepción, y comprender y controlar el contexto de la AGI será el gran problema a resolver.

Gran parte del trabajo que ha estado haciendo Everyday Robots parece referirse a la inteligencia artificial general o IA generativa. ¿Se ha transferido el trabajo que estaba haciendo el equipo al equipo de robótica de DeepMind?

Llevamos siete años cooperando con Everyday Robots. Aunque éramos dos equipos separados, teníamos un vínculo muy profundo. De hecho, una de las cosas que nos impulsó a empezar a mirar la robótica en ese momento fue una colaboración que era un proyecto de Skunkworks con el equipo de Everyday Robots, donde casualmente tenían varios brazos robóticos que habían sido retirados. Eran una generación de armas que condujo a una nueva generación y estaban tiradas por ahí sin hacer nada.

Decidimos que sería divertido tomar esos brazos, ponerlos a todos en una habitación y hacer que practicaran y aprendieran a agarrar cosas. La idea de aprender un problema de comprensión no estaba en el espíritu de la época. La idea de utilizar el aprendizaje automático y la percepción como medio para controlar el agarre robótico no era algo que se hubiera explorado. Cuando lo lograron, les dimos una recompensa y cuando fracasaron, les dimos el visto bueno.

Por primera vez utilizamos el aprendizaje automático y básicamente resolvimos este problema de comprensión general mediante el aprendizaje automático y la inteligencia artificial. Ese fue un momento brillante en ese momento. Realmente había algo nuevo allí. Esto llevó a investigaciones con Everyday Robots sobre centrarse en el aprendizaje automático como una forma de controlar esos robots. Y también, desde el punto de vista de la investigación, impulsar más robótica es un problema interesante para aplicar todas las técnicas de inteligencia artificial de aprendizaje profundo que hemos podido trabajar tan bien en otras áreas.

Créditos de imagen: Mente profunda

¿Su equipo ha adoptado los bots cotidianos?

READ Cree accesos directos de escritorio para AppImages con esta herramienta

Una pequeña parte del equipo fue absorbida por mi equipo. Heredamos sus robots y todavía los usamos. Incluso ahora, seguimos desarrollando tecnología en la que ellos ya fueron pioneros y en la que han estado trabajando. Toda la campaña continúa con un enfoque ligeramente diferente al que el equipo imaginó originalmente. Realmente estamos enfocados en la pieza de inteligencia mucho más que en construir el robot.

Mencionaste que el equipo se mudó a las oficinas de Alphabet X. ¿Hay algo más profundo en la colaboración entre equipos y el intercambio de recursos?

Es una decisión muy práctica. Tienen buen Wi-Fi, buena potencia y mucho espacio.

Ojalá todos los edificios de Google tuvieran buena conexión Wi-Fi.

Eso esperabas, ¿no? Pero nuestra decisión de mudarnos aquí fue muy sencilla. Debo decir que la decisión más importante fue que aquí tenían un buen café. Nuestra oficina anterior no tenía buena comida y la gente empezó a quejarse. No hay ninguna agenda oculta allí. Nos encanta trabajar en estrecha colaboración con el resto de X. Creo que hay muchas sinergias ahí. Tienen robots realmente talentosos que trabajan en varios proyectos. Tenemos colaboraciones con Intrinsic que nos gustaría patrocinar. Tiene mucho sentido para nosotros estar aquí y es un edificio hermoso.

Hay un poco de superposición con Intrinsic, en términos de lo que hacen con su plataforma: cosas como robótica sin código y robots de aprendizaje. Se superpone con la inteligencia artificial general y generativa.

Es interesante cómo los robots han evolucionado desde todos los ángulos hasta volverse altamente personalizados y adquirir un conjunto de experiencias y habilidades completamente diferente. En gran medida, el camino que estamos emprendiendo es intentar lograr una robótica de uso general, ya sea aplicada a un entorno industrial o más bien a un entorno doméstico. Los principios detrás de esto, impulsados por un núcleo de IA muy poderoso, son muy similares. Realmente estamos superando los límites al tratar de explorar cómo podemos respaldar el espacio de aplicaciones de la manera más amplia posible. Esto es nuevo y emocionante. Es una zona muy verde. Hay mucho que explorar en el espacio.

Me gusta preguntar a la gente qué tan lejos creen que estamos de algo que razonablemente podemos llamar robots de uso general.

Hay un matiz en la definición de robots de uso general. Realmente nos centramos en métodos de propósito general. Algunos enfoques se pueden aplicar tanto a robots industriales como domésticos o a robots de acera, todos con diferentes realizaciones y factores de forma. No confiamos en tener un avatar de uso general que haga todo por usted, como tampoco lo haríamos si tuviera un avatar muy específico para su problema. decente. Podemos ajustarlo rápidamente para solucionar el problema que tengas, concretamente. Así que aquí surge una gran pregunta: ¿algún día surgirán robots de uso general? Esto es algo sobre lo que mucha gente está formulando hipótesis sobre si sucederá y cuándo.

Hasta la fecha, se han logrado más éxitos con robots personalizados. Creo que, hasta cierto punto, la tecnología simplemente no estaba ahí para permitir que surgieran más robots de uso general. Si la situación empresarial nos llevará hasta aquí es una muy buena pregunta. No creo que esta pregunta pueda responderse hasta que tengamos más confianza en la tecnología que la respalda. Esto es lo que conducimos ahora. Cada vez vemos más señales de vida, ya que son plausibles enfoques muy generales que no dependen de una encarnación específica. Lo último que hicimos fue este proyecto RTX. Fuimos a varios laboratorios académicos (creo que ahora tenemos 30 socios diferentes) y les pedimos que analizaran su misión y los datos que recopilaron. Llevemos eso a un almacén de datos compartido, entrenemos un modelo grande encima y veamos qué sucede.

Créditos de imagen: Mente profunda

¿Qué papel jugará la IA generativa en la robótica?

READ Cómo usar FaceTime Audio para hacer una llamada de audio de alta calidad

Creo que estará muy centralizado. Ha habido una gran revolución en el modelo lingüístico. Todo el mundo empieza a preguntarse si podemos utilizar muchos modelos lingüísticos para robots, y creo que tal vez sea demasiado superficial. Ya sabes, “Tomemos la moda actual y descubramos qué podemos hacer con ella”, pero resulta que es bastante profundo. La razón de esto es que si lo piensas bien, los modelos de lenguaje no tienen que ver realmente con el lenguaje. Se trata de sentido común y comprensión del mundo cotidiano. Así, si el modelo de lengua grande sabe que estás buscando una taza de café, probablemente la encontrará en el armario de la cocina o en la mesa.

Colocar una taza de café sobre la mesa tiene sentido. Colocar una mesa encima de una taza de café es ilógico. Son hechos simples como este en los que realmente no piensas, porque son muy obvios para ti. Siempre ha sido difícil incorporar eso a un sistema incorporado. Es realmente difícil codificar el conocimiento, mientras que estos grandes modelos de lenguaje tienen ese conocimiento y lo codifican de una manera que es accesible y podemos usarlo. Así que pudimos tomar ese sentido común y aplicarlo a la planificación robótica. Hemos podido aplicarlo a interacciones de robots, manipulaciones, interacciones entre humanos y robots, y tener un agente que tenga ese sentido común y pueda pensar en cosas en un entorno simulado, junto con la cognición, es realmente fundamental para el problema de la robótica.

Las diversas tareas que Gato aprendió a completar.

Es probable que la simulación sea una parte importante de la recopilación de datos para su análisis.

Sí. Es uno de los componentes de esto. El desafío de la simulación es que luego es necesario cerrar la brecha entre la simulación y la realidad. La simulación es una aproximación a la realidad. Puede resultar muy difícil lograr que sea muy preciso y que refleje en gran medida la realidad. La física del simulador debe ser buena. La representación visual de la realidad en esa simulación debe ser muy buena. En realidad, ésta es otra área en la que la IA generativa está empezando a dejar su huella. Puedes imaginar que en lugar de tener que ejecutar un simulador de física, simplemente estás generando mediante generación de imágenes o un modelo generativo de algún tipo.

Ty Brady me dijo recientemente que Amazon usa simulación para crear paquetes.

Esto tiene sentido. Y de cara al futuro, creo que más allá de la simple generación de activos, se puede imaginar la generación del futuro. ¿Imagínese qué pasaría si un robot hiciera algo? Verifique que realmente esté haciendo lo que desea y utilícelo como una forma de planificar el futuro. Es como soñar con un robot, utilizando modelos generativos, en lugar de tener que hacerlo en el mundo real.

Vinicio Terrazas

«Food ninja. Freelance fanático de la cultura pop. Wannabe zombie maven. Aficionado a Twitter».

Los bots de Google DeepMind avanzan hacia bots de uso general, IA generativa y Wi-Fi de escritorio

Simulación de eventos de turboalimentación de ATLAS – CERN Courier

¿Divertido o molesto? Cómo funciona la nueva función ‘Audio Emoji’ de Google en Android

La filtración del Sony Xperia 1 VI revela una nueva aplicación de cámara y más funciones tomadas de las cámaras Alpha

La cancelación en España del premio taurino nacional genera debate

El nuevo cartel de Borderlands fue compartido en CCXP México

Calendario de UFC, carteleras, horarios de inicio, probabilidades, cómo ver UFC 301: Alexandre Pantoja vs.Steve Erceg

Los pacientes infectados por el VIH tienen un mayor riesgo de sufrir neumonía y reingreso después de una cirugía cardíaca

Entradas recientes

Deja una respuesta Cancelar la respuesta

More Stories

Simulación de eventos de turboalimentación de ATLAS – CERN Courier

¿Divertido o molesto? Cómo funciona la nueva función ‘Audio Emoji’ de Google en Android

La filtración del Sony Xperia 1 VI revela una nueva aplicación de cámara y más funciones tomadas de las cámaras Alpha

You may have missed

La cancelación en España del premio taurino nacional genera debate

El nuevo cartel de Borderlands fue compartido en CCXP México

Calendario de UFC, carteleras, horarios de inicio, probabilidades, cómo ver UFC 301: Alexandre Pantoja vs.Steve Erceg

Los pacientes infectados por el VIH tienen un mayor riesgo de sufrir neumonía y reingreso después de una cirugía cardíaca