Nvidia presenta un modelo de inteligencia artificial que puede crear música e imitar el habla

NVIDIA (NVDA) ha desarrollado un nuevo tipo de modelo de inteligencia artificial que puede crear efectos de sonido, cambiar la forma en que suena una persona y generar música utilizando indicaciones de lenguaje natural. Llamado Fugatto, o Transformador de audio generativo fundamental Opus 1, el modelo es un proyecto de investigación. Nvidia dice que no anuncia ningún plan para lanzar la tecnología, pero podría tener amplias implicaciones para industrias que van desde la música y el entretenimiento hasta los servicios de traducción.

“Lo que es tan emocionante [Fugatto] es que tener un modelo al que puedes pedirle que emita sonidos de ciertas maneras realmente abre el panorama de las cosas que puedes imaginar hacer con él”, dijo a Yahoo Finanzas Bryan Catanzaro, vicepresidente de investigación de aprendizaje profundo aplicado en Nvidia. .

Las acciones de Nvidia cayeron un 4% ese día.

Lo que diferencia a Fugatto de otros modelos, explicó Catanzaro, es que puede realizar las tareas de varios otros modelos. Por ejemplo, existen modelos que pueden sintetizar el habla y otros que pueden agregar efectos de sonido a la música; Fugatto, sin embargo, lo hace todo. Piense en ello como una especie de complemento a los modelos de generación de videos e imágenes como Stable Video Diffusion de Stability AI o Sora de OpenAI.

“La mejora fundamental aquí es que… podemos sintetizar audio usando el lenguaje y eso, creo, abre nuevas perspectivas para herramientas que la gente puede usar para crear audio increíble”, agregó Catanzaro.

Según Nvidia, Fugatto es el primer modelo fundamental con propiedades emergentes, lo que significa que es capaz de mezclar los elementos en los que ha sido entrenado y seguir “instrucciones de forma libre”.

El director ejecutivo de Nvidia, Jensen Huang, antes de un partido de béisbol entre los Gigantes de San Francisco y los Diamondbacks de Arizona en San Francisco, el martes 3 de septiembre de 2024. (Foto AP/Jeff Chiu) — El director ejecutivo de Nvidia, Jensen Huang, antes de un partido de béisbol entre los Gigantes de San Francisco y los Diamondbacks de Arizona en San Francisco, el 3 de septiembre de 2024. (Foto AP/Jeff Chiu) · PRENSA ASOCIADA

El modelo puede generar audio mediante indicaciones de palabras estándar, así como manipular archivos de audio que usted cargue. Entonces, si tiene un archivo de una persona hablando, puede traducir las palabras de esa persona a otro idioma y al mismo tiempo hacer que suene como su voz. También puedes tomar una melodía simple y hacerla sonar como una interpretación orquestal o agregar diferentes ritmos a la música.

También puedes cargar un documento y hacer que el modelo lo lea con la voz que desees. Es más, puedes decirle al modelo que produzca voces que tengan peso emocional. ¿Quieres un audio de un profesor de inglés abatido leyendo a Edgar Allen Poe? Fugatto debería poder hacerlo.

Catanzaro, sin embargo, advierte que el modelo no siempre es perfecto. Y algunos resultados son mejores que otros.

Al igual que los modelos generativos de imagen y vídeo, Fugatto plantea interrogantes sobre el impacto potencial en artistas, ingenieros de sonido y personas en campos relacionados. Catanzaro, sin embargo, dice que espera que la tecnología ayude a los músicos.

‘ Este Articulo puede contener información publicada por terceros, algunos detalles de este articulo fueron extraídos de la siguiente fuente: finance.yahoo.com ’