Nvidia presenta Fugatto, una IA para generar y transformar música, voces y sonidos con instrucciones de texto

La herramienta permite manipular el sonido a todo tipo de usuarios, desde músicos profesionales hasta desarrolladores de videojuegos.

All Music Works: La primera discográfica española de artistas 100% creados por IA

Música generada con IA.
Música generada con IA.

Un equipo internacional de investigadores en inteligencia artificial ha desarrollado de la mano de Nvidia Fugatto, una innovadora herramienta que promete cambiar radicalmente la forma en que creamos, modificamos y experimentamos con sonidos.

Este nuevo sistema, cuyo nombre completo es Foundational Generative Audio Transformer Opus 1, se perfila como una verdadera navaja suiza del audio, capaz de generar y transformar música, voces y sonidos mediante simples instrucciones de texto.

La herramienta supera las limitaciones de los modelos de inteligencia artificial actuales, permitiendo a usuarios, desde músicos profesionales hasta desarrolladores de videojuegos, manipular el sonido de formas hasta ahora inimaginables.

Con Fugatto, un productor musical puede crear fragmentos musicales con solo escribir una descripción, añadir o eliminar instrumentos de una canción existente, o incluso modificar el acento y la emoción de una voz grabada.

Una tecnología sin precedentes

Rafael Valle, uno de los investigadores principales del proyecto y director de investigación aplicada de audio en Nvidia, explica que el objetivo era "crear un modelo que comprenda y genere sonido tal como lo hacen los humanos". Lo más sorprendente es la capacidad del sistema para generar sonidos completamente nuevos, como hacer que una trompeta "ladre" o un saxofón "maúlle".

La tecnología destaca por su flexibilidad. Un anuncio publicitario podría adaptar rápidamente su voz en off para diferentes regiones, cambiando acentos y emociones.

Los desarrolladores de videojuegos pueden modificar elementos de audio sobre la marcha, y las herramientas de aprendizaje de idiomas podrían personalizar voces para que un curso en línea suene como un familiar o amigo.

Cómo funciona

Fugatto utiliza una técnica llamada ComposableART que permite combinar instrucciones de formas novedosas. Por ejemplo, un usuario podría solicitar un texto hablado con tristeza y en francés, controlando incluso el grado de acento o la intensidad de la emoción.

La tecnología se ha entrenado con un impresionante banco de datos utilizando 32 procesadores de última generación, lo que le permite realizar tareas sorprendentes como crear paisajes sonoros que evolucionan con el tiempo.

Imaginen una tormenta que se transforma gradualmente en el amanecer con el canto de los pájaros, todo generado automáticamente.

Más allá de la reproducción

A diferencia de otros modelos de inteligencia artificial que solo pueden reproducir datos con los que han sido entrenados, Fugatto permite crear sonidos completamente nuevos.

Ido Zmishlany, un reconocido productor musical y compositor (y cofundador de One Take Audio, parte del programa de startups Nvidia Inception), lo describe como "algo salvaje".

Y va más allá, porque sugiere que estamos escribiendo un nuevo capítulo en la historia de la música: "La historia de la música es también una historia de la tecnología. La guitarra eléctrica dio al mundo el rock and roll. Cuando apareció el sampler, nació el hip-hop. Con la IA, estamos escribiendo el próximo capítulo de la música. Tenemos un nuevo instrumento, una nueva herramienta para hacer música".

El proyecto, desarrollado por un equipo de investigadores de países como India, Brasil, China, Jordania y Corea del Sur, destaca por su enfoque internacional y colaborativo. La versión completa del modelo cuenta con 2.500 millones de parámetros, lo que le confiere una capacidad de procesamiento y generación de audio sin precedentes.

Una ventana al futuro

Fugatto es más que una herramienta tecnológica: abre una ventana a un futuro donde la creatividad humana se potencia mediante la inteligencia artificial.

Como señala Rohan Badlani, uno de los investigadores, el sistema permite sentirse un poco artista incluso a quienes no lo son.

La tecnología aún se encuentra en desarrollo, pero ya ha generado expectación en industrias como la música, la publicidad, los videojuegos y el aprendizaje de idiomas. Sin duda, Fugatto marca el comienzo de una nueva era en la generación y transformación de sonidos.

stats