El nuevo modelo desarrollado por la compañía china Kuaishou Technology, es capaz de generar videos más largos con visuales vívidas y puede producir videos en alta definición de 1080p que pueden durar hasta dos minutos.
En febrero de este año, OpenAI lanzó su modelo de generación de videos Sora, capaz de crear videos en alta definición de un minuto de duración. Sora aún no se ha vuelto accesible, y otro modelo de generación de texto a video parece estar acaparando los titulares.
Kuaishou Technology, una empresa china conocida por su plataforma de videos cortos, ha presentado su modelo de texto a video llamado Kling.
Según se informa, Kling utiliza una tecnología similar a Sora y puede producir videos en alta definición de 1080p que pueden durar hasta dos minutos. El modelo puede crear movimientos realistas a gran escala que esencialmente simulan las características del mundo físico.
El jueves, la empresa lanzó un video de demostración que muestra su capacidad para crear un video. Según se informa, el modelo está abierto para acceso y, en algunos casos, puede crear videos que están muy por delante de la producción de Sora.
El modelo de video Kling es autodesarrollado por el equipo de LLM de Kuaishou. Por ahora, está disponible por invitación para probar en la aplicación Kuaiying, una aplicación de grabación y edición de videos de la compañía Kuaishou.
Varios entusiastas de la IA compartieron sus creaciones de Kling en X. El modelo genera videos de hasta dos minutos a una calidad de 30 fps. Por otro lado, Sora solo ha sido capaz de crear videos de un minuto de duración hasta ahora.
Basado en las muestras publicadas en X, los videos generados por Kling parecen simular con precisión las propiedades físicas del mundo real.
Es necesario señalar que Kling no es el único modelo de texto a video de China. En abril, Vidu AI, un modelo de texto a video capaz de videos de 16 segundos a 1080p, fue lanzado en China.
Se informa que Kling está basado en la arquitectura Diffusion Transformer y puede traducir indicaciones textuales en visuales vívidos.
El modelo Kling utiliza una avanzada reconstrucción 3D de rostro y cuerpo respaldada por la tecnología propietaria 3D VAE de la compañía, lo que permite a los usuarios crear videos en varias relaciones de aspecto.
Esto es posible a través del entrenamiento de resolución variable, permitiendo la plena expresión y movimiento de las extremidades a partir de una sola foto de cuerpo entero.
Parece que China está avanzando rápidamente en el desarrollo de modelos de IA y Kling parece ser un testimonio de su rápido crecimiento. Parece que Sora, de OpenAI, probablemente enfrentará una competencia feroz en China.