Nvidia salta al espacio musical de IA con el nuevo generador de audio Fugatto

Nvidia, el gigante de los chips informáticos, ha entrado en la carrera musical de la IA al anunciar su nuevo modelo, Fugatto, el martes (26 de noviembre). La compañía llama a Fugatto, abreviatura de Foundational Generative Audio Transformer Opus 1, una “navaja suiza para el sonido”.

Usando indicaciones de texto o audio, Fugatto puede generar música nueva con solo hacer clic en un botón y editar audio existente, incluida la eliminación o adición de instrumentos de una canción o cambiar el acento y la emoción de una voz, en segundos.

Con Fugatto, Nvidia pretende enfrentarse a los principales modelos musicales de IA de la actualidad, incluidos Suno, Udio y muchos más. Aunque es un participante tardío en la carrera por crear el mejor modelo de inteligencia artificial musical, Fugatto parece tener una calidad de audio nítida y una serie de capacidades que podrían cambiar el proceso de creación musical para productores y compositores.

Según el anuncio de blog de nvidia“Una de las partes más difíciles del esfuerzo fue generar un conjunto de datos combinados que contiene millones de muestras de audio utilizadas para la capacitación”, en lo que la compañía dice que trabajó durante más de un año para lograrlo. “El equipo empleó una estrategia multifacética para generar datos e instrucciones que ampliaron considerablemente la gama de tareas que el modelo podía realizar, al mismo tiempo que lograban un rendimiento más preciso y permitían nuevas tareas sin requerir datos adicionales”. No está claro si este conjunto de datos incluía material protegido por derechos de autor. Nvidia no ha respondido a vallas publicitarias solicitud de comentario.

Nvidia propone varios casos de uso para Fugatto, incluida la generación de una partitura para medios visuales; editar ciertas partes de una partitura; y alterar una voz para que tenga diferentes acentos, emociones y timbres. “Fugatto puede hacer ladrar una trompeta o maullar un saxofón. Todo lo que los usuarios puedan describir, el modelo puede crearlo”, dice rafael vallegerente de investigación de audio aplicada en Nvidia.

“La historia de la música es también una historia de la tecnología”, afirma Ido Zmishlanyproductor, compositor y cofundador de One Take Audio, miembro de Nvidia Inception, su programa para startups de vanguardia. “Con la IA estamos escribiendo el próximo capítulo de la música. Tenemos un nuevo instrumento, una nueva herramienta para hacer música, y eso es muy emocionante”.

Nvidia afirma que este es el primer modelo musical de IA que muestra “propiedades emergentes (capacidades que surgen de la interacción de sus diversas habilidades entrenadas) y la capacidad de combinar instrucciones de forma libre”. Valle agrega que Fugatto es “nuestro primer paso hacia un futuro en el que el aprendizaje multitarea no supervisado en síntesis y transformación de audio surja de la escala de datos y modelos”.