La empresa Stability AI, conocida por sus innovadores modelos de código abierto como Stable Diffusion, ha dado un paso audaz en el mundo del audio con el lanzamiento de Stable Audio 3.0. Esta nueva inteligencia artificial es capaz de componer melodías completas, generando canciones de hasta seis minutos de duración con una estructura musical cohesiva y realista.
Según la compañía, Stable Audio 3.0 es una familia de modelos entrenada exclusivamente con datos que poseen licencias completas. Una de las mejoras más destacadas respecto a su predecesor, Stable Audio 2.0, es la significativa ampliación en la duración máxima de las composiciones, que ahora duplica la capacidad anterior, manteniendo al mismo tiempo la coherencia melódica y la estructura a lo largo de piezas extensas.
La arquitectura de Stable Audio 3.0 se compone de cuatro modelos distintos, cada uno diseñado para optimizar un propósito específico. El modelo Small SFX está especialmente adaptado para la generación de efectos de sonido y puede ejecutarse directamente en dispositivos móviles o portátiles convencionales. Le sigue el modelo Small, que, con 459 millones de parámetros, también está orientado a la creación de música completa directamente en el dispositivo.
El modelo Medium, que cuenta con 1.400 millones de parámetros, eleva la capacidad de generación hasta pistas de seis minutos y veinte segundos. Finalmente, el modelo Large, el más potente con 2.700 millones de parámetros, está concebido para aplicaciones que requieren generación de audio a gran escala y con baja latencia, como plataformas de servicios profesionales.
Tres de estos modelos (Small SFX, Small y Medium) se distribuyen bajo licencias abiertas, lo que permite a cualquier usuario descargarlos, modificarlos y utilizarlos libremente, incluso con fines comerciales. La licencia comunitaria de Stability AI facilita la distribución y monetización del contenido generado. No obstante, las organizaciones con ingresos anuales superiores a un millón de dólares deberán optar por una licencia empresarial para su uso comercial.
Capacidades Avanzadas de Stable Audio 3.0
Una característica innovadora de Stable Audio 3.0 es su autocodificador semántico-acústico, que permite generar audio de duración variable con una precisión de segundos. Esto significa que los usuarios pueden solicitar la creación de audio con la duración exacta que necesitan, eliminando la rigidez de las duraciones preestablecidas.
Otra funcionalidad relevante es el soporte para LoRA (Low-Rank Adaptation), una técnica que posibilita la personalización del modelo mediante la incorporación de bibliotecas de sonido propias o la especificación de un estilo musical particular. Stability AI ha puesto a disposición la documentación para el entrenamiento de LoRA, junto con los pesos de los modelos Small y Medium, para aquellos interesados en adaptar los resultados a su visión creativa.
La IA también ofrece capacidades de inpainting de audio, permitiendo restaurar o completar segmentos de audio faltantes. Esta función facilita la modificación de partes específicas de una pista, la corrección de secciones sin necesidad de regenerar toda la composición o la extensión de una pieza musical más allá de su final original.
Mientras que los modelos Small SFX, Small y Medium son de acceso gratuito y se pueden descargar desde Hugging Face, el modelo Large solo está disponible a través de una API y servicios de autoalojamiento de pago. Los usuarios que deseen probar el modelo Large sin una infraestructura propia deberán esperar a su integración en plataformas asociadas.
Stability AI ha adelantado que se encuentra desarrollando una suite de productos dirigida a músicos profesionales, aunque aún no ha revelado detalles específicos. La compañía ya ha establecido acuerdos de colaboración con sellos discográficos de renombre como Warner Music Group y Universal Music Group. La empresa enfatiza que todos los modelos de esta familia han sido entrenados con datos debidamente licenciados, un aspecto crucial para evitar litigios relacionados con derechos de autor, como los que han enfrentado con modelos anteriores.

