Un equipo de cuatro personas, John Mullan, Duncan Crawbuck, Chaitu Aluru, Aakash Sastry, ha revolucionado el mundo del video con Sora, un modelo que promete transformar la creación audiovisual con inteligencia artificial.
En un mundo donde la tecnología avanza a pasos agigantados, un equipo de cuatro visionarios ha logrado lo impensable: desarrollar Sora, un modelo de inteligencia artificial que redefine la creación de video.
En este artículo, exploramos cómo John Mullan, Duncan Crawbuck, Chaitu Aluru y Aakash Sastry han llevado a Hotshot a la vanguardia del sector.
El viaje de Hotshot y el nacimiento de Sora son un testimonio del poder de la innovación y la dedicación.
En un mundo impulsado por la tecnología, estos avances prometen cambiar la forma en que interactuamos con el contenido audiovisual, expandiendo los límites de la creatividad humana.
El Comienzo de una Revolución
Desde su lanzamiento, el modelo Hotshot ha captado la atención de la industria. Descrito por sus creadores como «una nueva cámara para nuestra imaginación», su capacidad para generar videos de alta calidad a partir de texto ha sido asombrosa. Este avance no solo marca un hito tecnológico, sino que también abre la puerta a nuevas aplicaciones en video.
Desarrollando el Modelo
A lo largo de 13 meses, el equipo ha entrenado tres modelos de video distintos. El primero, Hotshot-XL, generaba videos de un segundo a 8fps. Aunque fue más una demostración técnica que un producto final, su código abierto permitió que más de 20,000 desarrolladores y artistas experimentaran con él cada mes.
Avanzando con Hotshot Act-One
El siguiente paso fue Hotshot Act-One, capaz de crear videos de tres segundos. Este modelo significó un aumento considerable en la escala del dataset, utilizando 200 millones de videos con descripciones detalladas. Fue aquí donde el equipo empezó a experimentar con el entrenamiento distribuido y modelos de difusión de alta resolución.
El Nacimiento de Sora
Con la experiencia acumulada, el equipo desarrolló Sora, un modelo que genera hasta 10 segundos de video en 720p. La visión futura del equipo es clara: «En los próximos 12 meses, videos enteros de YouTube serán generados por IA». Control total sobre cada aspecto de la generación, duraciones más largas y resoluciones más altas están en el horizonte.
Desafíos y Aprendizajes
El camino no ha sido fácil. La gestión de datos masivos, la necesidad de miles de GPUs y la optimización constante fueron algunos de los desafíos enfrentados. «Entrenar estos modelos es la versión software de los lanzamientos de cohetes», comenta el equipo.
La Importancia de la Ingeniería de Datos
Para entrenar un modelo más grande, el equipo escaló su corpus a 600 millones de clips y 1,000 millones de imágenes. Crearon un conjunto de datos con 300,000 muestras de video con descripciones temporales detalladas para mejorar la comprensión de video del modelo.
Innovación en la Infraestructura
La escalabilidad fue un reto constante. Desde gestionar miles de GPUs hasta optimizar cada aspecto del entrenamiento, el equipo invertía el 99% de su tiempo en infraestructura y optimización. «La optimización es dinero», afirman, destacando la importancia de cada segundo ahorrado.
Mirando Hacia el Futuro
Con el lanzamiento de Sora, Hotshot no solo ha demostrado ser un líder en innovación tecnológica, sino también un modelo a seguir para otros emprendedores. El equipo invita a todos a probar el modelo y explorar las posibilidades creativas que ofrece.
Pruebe usted mismo las cosas aquí: en Sora están ansiosos por ver lo que sus usuarios imaginan con ella.