La nueva herramienta de inteligencia artificial permite crear y modificar cualquier tipo de audio mediante comandos de texto, revolucionando la producción musical y el diseño sonoro.
NVIDIA ha dado un salto revolucionario en el campo del audio generativo con el lanzamiento de Fugatto (Foundational Generative Audio Transformer Opus 1), un modelo de IA que promete transformar la manera en que creamos y manipulamos el sonido.
CAPACIDADES ÚNICAS
El modelo destaca por su versatilidad sin precedentes:
- Genera música a partir de descripciones textuales
- Modifica canciones existentes añadiendo o eliminando instrumentos
- Altera acentos y emociones en voces
- Crea sonidos completamente nuevos y únicos
RESPALDO PROFESIONAL
«Esto es increíble», afirma Ido Zmishlany, productor multiplatino y cofundador de One Take Audio.
«La idea de poder crear sonidos completamente nuevos sobre la marcha en el estudio es extraordinaria».
TECNOLOGÍA Y DESARROLLO
- Utiliza 2.500 millones de parámetros
- Entrenado en sistemas NVIDIA DGX con 32 GPUs H100 Tensor Core
- Desarrollado por un equipo internacional durante más de un año
- Incorpora datos de millones de muestras de audio
APLICACIONES PRÁCTICAS
- Producción Musical:
- Prototipado rápido de canciones
- Experimentación con diferentes estilos
- Mejora de calidad de audio existente
- Publicidad:
- Adaptación rápida de campañas para diferentes regiones
- Modificación de voces en off con distintos acentos y emociones
- Videojuegos:
- Generación de activos de audio en tiempo real
- Modificación de sonidos según la acción del juego
- Educación:
- Personalización de voces para aprendizaje de idiomas
- Creación de contenido educativo con voces familiares
INNOVACIONES TÉCNICAS
- ComposableART: permite combinar instrucciones antes separadas
- Interpolación temporal: genera sonidos que evolucionan en el tiempo
- Control fino sobre acentos y emociones
- Capacidad para crear soundscapes nunca antes escuchados
PERSPECTIVA DE FUTURO
«Fugatto es nuestro primer paso hacia un futuro donde el aprendizaje multitarea no supervisado en síntesis y transformación de audio emerge de la escala de datos y modelos», explica Rafael Valle, manager de investigación de audio aplicado en NVIDIA.