Inicio » Tecnología » Fei-Fei Li tiene una visión: World Labs hace máquinas con IA espacial 3D

Fei-Fei Li tiene una visión: World Labs hace máquinas con IA espacial 3D

La profesora de la Universidad de Stanford ya es parte de la historia de la IA y desde su startup dice que para desbloquear la inteligencia visual, debemos respetar el hecho de que «el mundo es 3D».

La pionera y madrina de la IA moderna, Fei-Fei Li, desempeñó un papel importante en la revolución del aprendizaje profundo al trabajar durante años para crear el conjunto de datos y la competencia ImageNet, que desafió a los sistemas de IA a reconocer objetos y animales en 1000 categorías.

En 2012, una red neuronal llamada AlexNet causó conmoción en la comunidad de investigación de IA cuando superó rotundamente a todos los demás tipos de modelos y ganó el concurso ImageNet.

A partir de ahí, las redes neuronales despegaron, impulsadas por las enormes cantidades de datos de entrenamiento gratuitos que ahora están disponibles en Internet y las GPU que ofrecen una potencia de procesamiento sin precedentes.

En los 13 años transcurridos desde ImageNet, los investigadores de visión artificial dominaron el reconocimiento de objetos y avanzaron hacia la generación de imágenes y videos.

Li cofundó el Instituto de IA centrado en el ser humano (HAI) de Stanford y continuó ampliando los límites de la visión artificial. Justo este año lanzó su propia startup, World Labs , que genera escenas en 3D que los usuarios pueden explorar.

World Labs se dedica a brindar a la IA «inteligencia espacial», o la capacidad de generar, razonar e interactuar con mundos en 3D. Desde allí, hace apenas un par de semanas, Li pronunció un discurso de apertura en NeurIPS, la gran conferencia sobre IA, sobre su visión de la visión artificial en una entrevista exclusiva a IEEE Spectrum.

¿Por qué tituló su charla “Ascendiendo la escalera de la inteligencia visual”?

Fei-Fei Li: Creo que es intuitivo que la inteligencia tiene diferentes niveles de complejidad y sofisticación. En la charla, quiero transmitir la idea de que, en las últimas décadas, especialmente en los últimos 10 años de la revolución del aprendizaje profundo , las cosas que hemos aprendido a hacer con la inteligencia visual son simplemente asombrosas. Nos estamos volviendo cada vez más capaces con la tecnología. Y también me inspiró la “escalera de causalidad” de Judea Pearl [en su libro de 2020 The Book of Why ].

La charla también tiene un subtítulo: “De ver a hacer”. Esto es algo que la gente no aprecia lo suficiente: que ver está estrechamente vinculado con la interacción y la acción, tanto para los animales como para los agentes de inteligencia artificial. Y esto es un alejamiento del lenguaje. El lenguaje es fundamentalmente una herramienta de comunicación que se utiliza para transmitir ideas. En mi opinión, son modalidades de inteligencia muy complementarias, pero igualmente profundas.

¿Quieres decir que reaccionamos instintivamente a ciertas imágenes?

Li: No me refiero sólo al instinto. Si observamos la evolución de la percepción y la evolución de la inteligencia animal, están profundamente entrelazadas. Cada vez que podemos obtener más información del entorno, la fuerza evolutiva impulsa la capacidad y la inteligencia. Si no percibimos el entorno, nuestra relación con el mundo es muy pasiva; comer o ser comido es un acto muy pasivo. Pero tan pronto como podemos captar las señales del entorno a través de la percepción, la presión evolutiva realmente aumenta y eso impulsa la inteligencia.

¿Crees que así es como estamos creando una inteligencia artificial cada vez más profunda? ¿Permitiendo que las máquinas perciban más del entorno?

Li: No sé si “profundo” es el adjetivo que utilizaría. Creo que estamos creando más capacidades. Creo que se está volviendo más complejo, más capaz. Creo que es absolutamente cierto que abordar el problema de la inteligencia espacial es un paso fundamental y crítico hacia la inteligencia a gran escala.

He visto las demostraciones de World Labs. ¿Por qué quieres investigar la inteligencia espacial y construir estos mundos en 3D?

Li: Creo que la inteligencia espacial es el camino que tomará la inteligencia visual. Si nos tomamos en serio la resolución del problema de la visión y la vinculamos con la acción, hay un hecho muy simple y evidente: el mundo es tridimensional. No vivimos en un mundo plano. Nuestros agentes físicos, ya sean robots o dispositivos, vivirán en el mundo tridimensional. Incluso el mundo virtual se está volviendo cada vez más tridimensional. Si hablas con artistas, desarrolladores de juegos, diseñadores, arquitectos, médicos, incluso cuando trabajan en un mundo virtual, mucho de esto es tridimensional. Si te tomas un momento y reconoces este hecho simple pero profundo, no hay duda de que resolver el problema de la inteligencia tridimensional es fundamental.

Tengo curiosidad por saber cómo las escenas de World Labs mantienen la permanencia de los objetos y el cumplimiento de las leyes de la física. Me parece un gran avance, ya que las herramientas de generación de videos como Sora todavía tienen problemas con esas cosas.

Li: Una vez que se respeta la tridimensionalidad del mundo, gran parte de esto resulta natural. Por ejemplo, en uno de los vídeos que publicamos en las redes sociales, se dejan caer pelotas de baloncesto en una escena. Como es en 3D, permite ese tipo de capacidad. Si la escena está formada únicamente por píxeles generados en 2D, la pelota de baloncesto no irá a ninguna parte.

O, como en Sora, podría ir a algún lado y luego desaparecer. ¿Cuáles son los mayores desafíos técnicos a los que se enfrenta mientras intenta impulsar esa tecnología?

Li: Nadie ha resuelto este problema, ¿verdad? Es muy, muy difícil. Puedes ver [en un vídeo de demostración de World Labs] que hemos tomado un cuadro de Van Gogh y hemos generado toda la escena a su alrededor con un estilo coherente: el estilo artístico, la iluminación, incluso el tipo de edificios que tendría ese barrio. Si te das la vuelta y se convierten en rascacielos, resultaría completamente poco convincente, ¿verdad? Y tiene que ser en 3D. Tienes que navegar por él. Así que no se trata solo de píxeles.

¿Puedes decirnos algo sobre los datos que has utilizado para entrenarlo?

Li: Mucho.

¿Tiene desafíos técnicos relacionados con la carga computacional?

Li: Es una gran cantidad de computación. Es el tipo de computación que el sector público no puede permitirse. Esta es una de las razones por las que me siento entusiasmado por tomarme este año sabático, por hacer esto al estilo del sector privado. Y también es parte de la razón por la que he estado abogando por el acceso a la computación en el sector público, porque mi propia experiencia subraya la importancia de la innovación con una cantidad adecuada de recursos.

Sería bueno empoderar al sector público, ya que generalmente está más motivado por adquirir conocimiento por el conocimiento en sí mismo y por el conocimiento para el beneficio de la humanidad.

Li: El descubrimiento de conocimientos debe estar respaldado por recursos, ¿no es así? En la época de Galileo, el mejor telescopio permitía a los astrónomos observar nuevos cuerpos celestes. Fue Hooke quien se dio cuenta de que las lupas pueden convertirse en microscopios y descubrió las células. Cada vez que hay nuevas herramientas tecnológicas, se facilita la búsqueda de conocimientos. Y ahora, en la era de la IA, las herramientas tecnológicas implican computación y datos. Tenemos que reconocer eso en el sector público.

¿Qué le gustaría que sucediera a nivel federal para proporcionar recursos?

Li: Este ha sido el trabajo de Stanford HAI durante los últimos cinco años. Hemos estado trabajando con el Congreso, el Senado, la Casa Blanca, la industria y otras universidades para crear NAIRR, el Recurso Nacional de Investigación en IA .

Suponiendo que podamos lograr que los sistemas de IA comprendan realmente el mundo 3D, ¿qué nos aportaría eso?

Li: Liberará mucha creatividad y productividad para las personas. Me encantaría diseñar mi casa de una manera mucho más eficiente. Sé que muchos usos médicos implican comprender un mundo 3D muy particular, que es el cuerpo humano. Siempre hablamos de un futuro en el que los humanos crearán robots para ayudarnos , pero los robots navegan en un mundo 3D y requieren inteligencia espacial como parte de su cerebro. También hablamos de mundos virtuales que permitirán a las personas visitar lugares o aprender conceptos o entretenerse. Y esos utilizan tecnología 3D, especialmente los híbridos, lo que llamamos AR [ realidad aumentada ]. Me encantaría caminar por un parque nacional con un par de anteojos que me brinden información sobre los árboles, el camino, las nubes. También me encantaría aprender diferentes habilidades con la ayuda de la inteligencia espacial.

¿Qué tipo de habilidades?

Li: Mi ejemplo poco convincente es si tengo una rueda pinchada en la carretera, ¿qué hago? Ahora mismo, abro un vídeo sobre cómo cambiar una rueda. Pero si pudiera ponerme unas gafas y ver qué le pasa a mi coche y que me guiaran en ese proceso, sería genial. Pero ese es un ejemplo poco convincente. Puedes pensar en cocinar, puedes pensar en esculpir… cosas divertidas.

¿Hasta dónde crees que llegaremos con esto en nuestra vida?

Li: Creo que va a suceder en nuestra vida porque el ritmo del progreso tecnológico es realmente rápido. Ya has visto lo que han traído los últimos diez años. Sin duda, es un indicio de lo que vendrá después.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com