Inicio » Ciencias » YuE: revolucionando la generación musical con inteligencia artificial

YuE: revolucionando la generación musical con inteligencia artificial

Una nueva era en la creación musical impulsada por modelos de código abierto ya produce creaciones musicales de hasta 5 minutos.

En el vertiginoso mundo de la inteligencia artificial (IA), la música ha encontrado un nuevo aliado en YuE, una serie de modelos de código abierto diseñados para transformar letras en canciones completas. Desarrollado por el equipo de Multimodal Art Projection (M-A-P) de la Universidad de Ciencia y Tecnología de Hong Kong (HKUST), YuE promete redefinir la forma en que concebimos la creación musical.

El nombre «YuE» (乐) significa «música» y «felicidad» en chino, encapsulando la esencia y propósito del proyecto. A diferencia de otros modelos que generan clips musicales cortos sin vocales, YuE se destaca por su capacidad para producir canciones completas de hasta cinco minutos, incorporando tanto melodías vocales pegajosas como acompañamientos instrumentales adecuados. Esta hazaña es notable, ya que la generación de música de larga duración con vocales y acompañamientos sincronizados ha sido un desafío persistente en el campo de la IA.

Uno de los aspectos más impresionantes de YuE es su versatilidad. Es capaz de modelar una amplia gama de géneros, estilos vocales e idiomas, incluyendo inglés, chino, japonés y coreano. Para demostrar esta diversidad, el equipo ha compartido ejemplos que van desde el jazz suave hasta el metal enérgico. Por ejemplo, en la pista «Quiet Evening», YuE genera una melodía de jazz suave con letras románticas, mientras que en «Step Back» produce una intensa canción de metal con riffs potentes y vocales agresivas.

El desarrollo de YuE implicó la implementación de varias técnicas innovadoras. Se utilizó un tokenizador de audio mejorado semánticamente para reducir los costos de entrenamiento y acelerar la convergencia. Además, se introdujo una técnica de doble token para permitir la sincronización de pistas vocales e instrumentales sin modificar la arquitectura original del modelo LLaMA. También se implementó una estrategia denominada «cadena de pensamientos de letras» que permite al modelo generar progresivamente la canción completa en un solo contexto, siguiendo la condición de las letras. Finalmente, se adoptó un esquema de entrenamiento en tres etapas para garantizar una mejor escalabilidad, musicalidad y control de las letras.

Desde su lanzamiento el 26 de enero de 2025, YuE ha recibido actualizaciones significativas. El 29 de enero, el equipo actualizó la descripción de la licencia, alentando a artistas y creadores de contenido a samplear e incorporar las salidas generadas por YuE en sus propias obras, incluso con fines de monetización, siempre y cuando se acredite al modelo como «YuE por HKUST/M-A-P».

Para aquellos interesados en experimentar con YuE, el equipo ha proporcionado enlaces a los puntos de control del modelo en Hugging Face, incluyendo modelos en inglés, chino, japonés y coreano, así como un modelo de upsampler para mejorar la calidad del audio generado.

YuE representa un avance significativo en la intersección de la música y la inteligencia artificial. Al ofrecer una herramienta poderosa y accesible para la generación de música, abre nuevas posibilidades para músicos, productores y entusiastas de la tecnología en todo el mundo. Como señala el equipo de M-A-P, «YuE es capaz de modelar diversos géneros, idiomas y técnicas vocales», lo que subraya su potencial para influir en la industria musical contemporánea.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com