Un nuevo modelo de IA permite que los avatares virtuales realicen gestos naturales sincronizados con el habla, abriendo posibilidades para una interacción humano-máquina más realista y aplicaciones en videojuegos, cine y más.
Un avance significativo en el campo de la inteligencia artificial permite que los avatares virtuales generen gestos naturales y realistas que se sincronizan con su habla.
Este logro, desarrollado por investigadores de la Universidad de Stanford, podría revolucionar la forma en que interactuamos con la tecnología, así como transformar industrias como la del entretenimiento y los medios de comunicación.
El modelo de IA desarrollado por Changan Chen y su equipo en Stanford se entrenó con una enorme cantidad de datos: 1.000 horas de audiolibros con su texto correspondiente y 60 horas de datos de movimiento de personas gestulando mientras hablaban.
Este proceso, según Ehsan Adeli, también de Stanford, permitió a la IA «decodificar las relaciones entre diferentes tipos de datos», específicamente texto, audio y video.
Este entrenamiento inicial le permitió a la IA comprender la conexión entre el habla, el lenguaje corporal y las emociones. No solo aprendió las relaciones naturales entre ciertos movimientos y el habla –como inclinar la cabeza antes de hacer un gesto con las manos– sino también cómo un tono de voz específico se relaciona con ciertas emociones.
Esta base de conocimiento permitió a la IA generar gestos realistas a partir de una menor cantidad de ejemplos que modelos similares.
A diferencia de otros modelos de IA que predicen movimientos corporales solo a partir de texto escrito o audio hablado, este modelo utiliza ambas formas de entrada. Incluso es capaz de identificar emociones como «felicidad» a partir de imágenes de una persona moviéndose, con o sin audio.
En pruebas de comparación, el modelo superó a otros modelos de IA existentes en la generación de gestos sincronizados con el habla.
Como explica Chen: «Los métodos existentes en la generación de gestos con habla presentan movimientos antinaturales que no corresponden al habla». En cambio, este modelo genera «un movimiento humano más diverso y expresivo», incluyendo gestos más enfáticos al enfatizar ciertas palabras, como «cansado» o «porque».
Las implicaciones de este avance son vastas. Adeli sugiere que esta tecnología podría utilizarse para crear asistentes de IA o agentes con avatares virtuales realistas para interactuar con los humanos.
También podría mejorar la naturalidad de los gestos de los personajes en videojuegos y películas animadas. Sin embargo, el sistema actual requiere acceso previo a los datos de audio del hablante, lo que impide la generación de gestos en tiempo real, aunque los investigadores están trabajando en esta funcionalidad para el futuro.