Physical Intelligence reunió a un equipo de estrellas de la IA y ha recaudado 400 millones de dólares con la promesa de un asombroso avance en el aprendizaje de los robots.

FUENTE:es.wired.com

AUTOR: Mauricio Serfatty Godoy.

En una puerta metálica del Mission District de San Francisco, un único carácter: ‘π‘, ofrece una pista críptica sobre el círculo virtuoso de trabajo que tiene lugar adentro.

Entonces la puerta se abre, para revelar una actividad frenética en la que intervienen personas… y máquinas. Una mujer usa dos joysticks para manejar un par de brazos robóticos de mesa que cuidadosamente levantan y doblan camisetas en una pila ordenada. Varios robots más grandes mueven artículos de despensa de una caja desordenada a otra. En una esquina de la sala, un hombre maneja una pinza de plástico que se ajusta a la muñeca y tiene una cámara web en la parte superior. Hay piezas de robots por toda la sala.

Inteligencia artificial física

El almacén es la sede de Physical Intelligence, también conocida como PI o ‘π’ (ahora entiendes el símbolo de la puerta principal). Es una startup que pretende dotar a los robots de una profunda mejora con inteligencia artificial. Tal es el entusiasmo y la expectativa en torno al sueño de la empresa que los inversionistas apuestan cientos de millones a que logrará el próximo gran avance en el campo de la IA. La semana pasada, Physical Intelligence anunció que había recaudado 400 millones de dólares de inversores como OpenAI y Jeff Bezos, con una valoración de más de 2,000 millones de dólares.

En una sala de conferencias acristalada de la segunda planta del edificio, Karol Hausman, CEO de la startup, un hombre alto con suave acento alemán y una barba incipiente, expone su visión.

«Si te pusiera al mando de un robot nuevo, con un poco de práctica probablemente serías capaz de controlarlo», asegura Hausman. «Y si realmente resolvemos este problema, la IA será capaz de hacer lo mismo».

Un soplo de inteligencia

Physical Intelligence cree que puede dotar a los robots de una comprensión del mundo físico y una destreza similares a las humanas alimentando su modelo maestro de IA con datos de sensores y movimientos de robots que realizan un gran número de demostraciones. «Esto es, para nosotros, lo que hará falta para «resolver» la inteligencia física», señala Hausman. «Insuflar inteligencia a un robot con solo conectarlo a nuestro modelo».

A pesar de los asombrosos avances de la IA en los últimos años, nadie ha descubierto cómo hacer que los robots sean especialmente inteligentes o capaces. Las máquinas que se encuentran en fábricas o almacenes son esencialmente autómatas de alta tecnología, que realizan movimientos coreografiados con precisión, sin rastro de ingenio o ingenuidad.

Hausman está acompañado en la mesa de conferencias por otros cofundadores: Sergey Levine, un joven profesor asociado de la Universidad de Berkeley; Brian Ichter, un tipo simpático y barbudo que trabajó con Hausman en Google; y Chelsea Finn, una profesora adjunta de la Universidad de Stanford que se une al equipo por videoconferencia.

El equipo reunido ha despertado la esperanza de una revolución robótica que se inspire en otros avances recientes de la IA, especialmente en las notables capacidades de los grandes modelos de lenguaje (LLM) que impulsan IA conversacionales como ChatGPT. Creen firmemente que pueden llevar ese mismo nivel de asombro al mundo físico, y hacerlo pronto.

Las habilidades lingüísticas de la inteligencia artificial comenzaron a cambiar en 2018, cuando OpenAI demostró que un modelo de aprendizaje automático, conocido como ‘transformer’, podía generar trozos de texto sorprendentemente coherentes cuando se le daba una cadena inicial. Los informáticos habían pasado décadas tratando de escribir programas para manejar el lenguaje en toda su complejidad y ambigüedad. El modelo de OpenAI se conoce como Generative Pretrained Transformer (Transformador Generativo Preentrenado) o, de cariño, GPT. Mejoró constantemente a medida que se le alimentaba con cantidades cada vez mayores de datos extraídos de libros e internet (¿con el permiso de quién?), hasta que llegó a ser capaz de mantener conversaciones convincentes y responder a una amplia gama de preguntas.

Robots con un plan. ¿Qué puede salir mal?

A principios de 2022, Hausman e Ichter, entonces en Google, junto con Levine, Finn y otros, demostraron que los LLM también podían ser la base de la inteligencia robótica. Aunque los LLM no pueden interactuar con el mundo físico, contienen mucha información sobre objetos y escenas gracias al vasto alcance de sus datos de entrenamiento. Aunque imperfecto (como alguien que entiende el mundo simplemente leyendo sobre él), ese nivel de comprensión puede bastar para dotar a los robots de la capacidad de idear planes de acción sencillos.

Hausman y compañía conectaron un LLM a un robot manco en un simulacro de cocina en la sede de Google en Mountain View (California), dándole la capacidad de resolver problemas abiertos. Cuando al robot se le decía: «Se me cayó la Coca-Cola en la mesa», utilizaba el LLM para idear un plan de acción sensato que incluía encontrar y recuperar la lata, tirarla a la basura y conseguir una esponja para limpiarla, todo ello sin programación convencional.

Más tarde, el equipo conectó al mismo robot un modelo de lenguaje visual, entrenado tanto con texto como con imágenes, para mejorar su capacidad de entender el mundo que le rodea. En un experimento, colocaron cerca fotos de distintos famosos y pidieron al robot que le diera una lata de refresco a Taylor Swift: «Taylor no aparecía en ninguno de los datos de entrenamiento del robot, pero los modelos de visión del lenguaje saben cómo es», explica Finn, con su largo pelo castaño enmarcando una amplia sonrisa.

Ese mismo año, justo cuando ChatGPT se estaba haciendo viral, el equipo decidió hacer una demostración del robot en una conferencia académica en Auckland, Nueva Zelanda. Ofrecieron a los asistentes la posibilidad de controlarlo en California tecleando las órdenes que quisieran. El público quedó impresionado por la capacidad general del robot para resolver problemas, pero también creció el interés por las implicaciones más amplias de ChatGPT.

Los LLM pueden ayudar a los robots a comunicarse, reconocer cosas y elaborar planes, pero su capacidad más básica para actuar se ve limitada por la falta de inteligencia sobre el mundo físico. Saber cómo agarrar un objeto de forma extraña es trivial para los humanos solo gracias a una profunda comprensión instintiva de cómo se comportan las cosas tridimensionales y cómo funcionan nuestras manos y dedos. Los expertos en robótica reunidos se dieron cuenta de que las extraordinarias habilidades de ChatGPT podrían traducirse en algo igual de impresionante en las habilidades físicas de un robot, si se pudieran captar a gran escala las acciones en lugar de las palabras y aprender de ellas. «Había una energía en el aire», recuerda Finn.

Ha habido indicios de que esto puede funcionar

En 2023, Quan Vuong, otro cofundador de Physical Intelligence, reunió a investigadores de 21 instituciones diferentes para entrenar 22 brazos robóticos distintos en una serie de tareas utilizando el mismo modelo de transformer. En la mayoría de los casos, el nuevo modelo era mejor que el que los investigadores habían desarrollado específicamente para su robot», recuerda Finn.

Image may contain Wristwatch Clothing Footwear Shoe Accessories Bag Handbag Adult Person Architecture and Building
Fotografía: Will Knight

Del mismo modo que los humanos aprenden durante toda su vida a pasar de tantear objetos en la primera infancia a tocar el piano unos años más tarde, alimentar a los robots con muchos más datos de entrenamiento podría revelar nuevas habilidades extraordinarias.

Las expectativas de una revolución robótica también se ven avivadas por los numerosos robots humanoides que están promocionando empresas emergentes como Agility y Figure, así como grandes compañías como Hyundai y Tesla. Las capacidades de estas máquinas siguen siendo limitadas, pero las demostraciones teledirigidas pueden hacer que parezcan más capaces, y sus defensores prometen grandes cosas. Hace poco, Elon Musk llegó a sugerir que los robots humanoides podrían superar en número a los seres humanos en la Tierra en 2040.

La idea de invertir cientos de millones en una empresa que persigue un avance fundamental en investigación puede parecer incluso una locura. Pero OpenAI ha demostrado lo grande que puede ser la recompensa, y la empresa ha contribuido tanto a la inversión inicial de Physical Intelligence como a su última inversión a través de su fondo inicial. «La razón para invertir es el talento», señala una fuente familiarizada con el pensamiento de OpenAI. «Tienen a algunas de las mejores personas del planeta en robótica«.

Es evidente que OpenAI también está intensificando sus propios esfuerzos en robótica. La semana pasada, Caitlin Kalinowski, que anteriormente dirigió el desarrollo de auriculares de realidad virtual y aumentada en Meta, anunció en LinkedIn que se unía a OpenAI para trabajar en hardware, incluida la robótica.

Lachy Groom, amigo del CEO de OpenAI, Sam Altman, e inversor y cofundador de Physical Intelligence, se une al equipo en la sala de conferencias para hablar del aspecto empresarial del plan. Groom lleva una sudadera con capucha de aspecto caro y parece muy joven. Acabo de hablar con Kushner», indica en referencia a Joshua Kushner, fundador y socio gerente de Thrive Capital, que dirigió la ronda de inversión inicial de la empresa. También es, por supuesto, el hermano del yerno de Donald Trump, Jared Kushner.

Otras empresas persiguen el mismo tipo de avance. Una de ellas, Skild, fundada por especialistas en robótica de la Universidad Carnegie Mellon, recaudó 300 millones de dólares en julio: «Al igual que OpenAI construyó ChatGPT para el lenguaje, nosotros estamos construyendo un cerebro de propósito general para robots», explica Deepak Pathak, CEO de Skild y profesor adjunto en la Universidad Carnegie Mellon.

¿Viene otra revolución?

No todo el mundo está seguro de que esto pueda lograrse del mismo modo que OpenAI descifró el código del lenguaje de la IA.

Sencillamente, no existe un repositorio a escala de internet de acciones robóticas similar a los datos de texto e imágenes disponibles para entrenar a los LLM. Lograr un gran avance en inteligencia física podría requerir exponencialmente más datos de todos modos.

«Las palabras en secuencia son, dimensionalmente hablando, un juguetito diminuto comparado con todo el movimiento y la actividad de los objetos en el mundo físico», afirma Illah Nourbakhsh, un robotista de la CMU que no participa en Skild. «Los grados de libertad que tenemos en el mundo físico son mucho más que las letras del alfabeto».

Ken Goldberg, académico de la UC Berkeley que trabaja en la aplicación de la IA a los robots, advierte de que el entusiasmo que se está creando en torno a la idea de una revolución robótica impulsada por los datos, así como por los humanoides, está alcanzando proporciones exageradas: «Para obtener los niveles de rendimiento esperados, necesitaremos ‘ingeniería a la antigua’, modularidad, algoritmos y métricas», asegura.

Russ Tedrake, informático del Instituto Tecnológico de Massachusetts y vicepresidente de investigación robótica del Instituto de Investigación Toyota, opina que el éxito de los LLM ha hecho que muchos especialistas en robótica, incluido él mismo, se replanteen sus prioridades de investigación y se centren en encontrar formas de lograr un aprendizaje robótico a una escala más ambiciosa. Pero admite que siguen existiendo retos formidables.

«Sigue siendo un poco un sueño», expresa Tedrake sobre la idea de desbloquear las capacidades robóticas generales con el aprendizaje a gran escala. «Aunque se han dado señales de vida».

Robots que ven YouTube

El secreto para avanzar, sugiere Tedrake, puede consistir en enseñar a los robots a aprender de nuevas formas, por ejemplo viendo videos de YouTube de humanos haciendo cosas. Uno se pregunta si este método podría dar lugar a algún comportamiento extraño en futuras máquinas, como una habilidad preternatural para hacer bailes de TikTok. Tedrake explica que, al principio, el método se limitaría a enseñar a los robots movimientos sencillos, como alcanzar algo, y tendría que combinarse con datos recogidos de trabajos robóticos reales.

«Cuando tú y yo ponemos nuestra inteligencia a ver videos de YouTube podemos inferir las fuerzas que usa la gente», indica. «Hay una cierta cantidad de [aprendizaje] que solo requiere que los robots interactúen con cosas físicas».

Hausman me lleva escaleras abajo para ver cómo Physical Intelligence planea perseguir el aprendizaje de los robots a gran escala. Un par de brazos robóticos intentan ahora doblar ropa sin ayuda humana, utilizando el algoritmo de la empresa. Los brazos se mueven con rapidez y seguridad para tomar una camiseta y luego doblar la prenda, lenta y toscamente, como haría un niño, antes de dejarla en el suelo.

robot dobla ropa
Fotografía: Will Knight

Tecnología de punta para doblar la ropa

Ciertas tareas, como doblar la ropa, son especialmente útiles para entrenar robots, manifiesta Hausman, porque la tarea implica tratar con una gran variedad de artículos que a menudo están distorsionados y desmenuzados y que se doblan y arrugan mientras se intenta manipularlos. «Es una buena tarea, porque para resolverla de verdad hay que generalizar», explica. «Aunque recopiláramos muchos datos, no podríamos hacerlo en todas y cada una de las situaciones en las que podría encontrarse cualquier prenda».

Physical Intelligence espera recopilar muchos más datos trabajando con otras empresas, como firmas de comercio electrónico y de fabricación, que tengan robots haciendo una gran variedad de cosas. La startup también espera desarrollar hardware personalizado, como la pinza equipada con una cámara web; no ha dicho cómo se utilizará, pero tal vez podría permitir el entrenamiento crowdsourced con personas que realizan tareas cotidianas.

Después de ver las demostraciones, me voy de Physical Intelligence con la idea de robots mucho más inteligentes. Volviendo a la luz del sol, me pregunto si el mundo está preparado para que algo como ChatGPT llegue al mundo físico y se haga cargo de tantas tareas. Podría revolucionar las fábricas y los almacenes y ser una bendición para la economía, pero también podría desatar un pánico más amplio sobre el potencial de la IA para automatizar el trabajo.

Avances sorprendentes

Unos meses más tarde, me pongo en contacto con Physical Intelligence y descubro que el equipo ya ha dado algunos pasos impresionantes en el campo de la robótica.

Haussman, Levine y Finn se apretujan en una ventana de Zoom para explicar que la empresa ha desarrollado su primer modelo utilizando una enorme cantidad de datos de entrenamiento sobre más de 50 complejas tareas domésticas comunes.

El trío me muestra un video de un robot móvil descargando una secadora; otro de un brazo robótico limpiando una mesa de cocina desordenada; y luego un par de brazos robóticos que ahora parecen notablemente competentes doblando ropa. Me sorprende lo humanos que parecen los movimientos del robot. Con un movimiento de su muñeca robótica, sacude un par de pantalones cortos para aplanarlos y doblarlos.

Cortesía: Physical Intelligence

La clave para conseguir habilidades más generales no fue solamente una gran cantidad de datos, sino también la combinación de un LLM con un tipo de modelo tomado de la generación de imágenes de IA: «No es ChatGPT ni mucho menos, pero quizá se acerque a GPT-1″, argumenta Levine en referencia al primer gran modelo de lenguaje de OpenAI.

También hay algunas meteduras de pata extrañamente humanas, o quizá propias de niños pequeños. En uno de ellos, un robot llena demasiado un cartón de huevos e intenta cerrarlo a la fuerza. En otro, un robot tira un recipiente de una mesa en lugar de llenarlo de objetos. Lo realmente emocionante para nosotros es que tenemos esta receta general», cuenta Hausman, «que muestra algunas señales de vida realmente interesantes».


Esta web usa cookies analíticas y publicitarias (propias y de terceros) para analizar el tráfico y personalizar el contenido y los anuncios que le mostremos de acuerdo con su navegación e intereses, buscando así mejorar su experiencia. Si presiona "Aceptar" o continúa navegando, acepta su utilización. Puede configurar o rechazar su uso presionando "Configuración". Más información en nuestra Política de Cookies.


ACEPTAR
Aviso de cookies

¡Comparte en tus redes!

¡Comparte esta noticia con tus amigos!