A OpenAI está desenvolvendo um modelo que pode transformar prompts de texto e áudio em música original, relata The Information, no que é mais um sinal de um movimento mais profundo no áudio criativo. As primeiras descrições indicam que a ferramenta pode, em determinado momento, compor vídeos em tempo real ou aumentar apoios instrumentais para vocais – possíveis soluções de fluxo de trabalho para criadores, editores e músicos.…
Não está claro quando e como o produto será embalado, mas a empresa está considerando se deve torná-lo um aplicativo independente ou incorporá-lo em produtos existentes, como Bate-papoGPT ou o modelo de vídeo Sora. Um detalhe interessante: a OpenAI trouxe alunos da Juilliard School para anotar partituras manualmente, sugerindo que o mix de treinamento envolverá dados musicais estruturados, em vez de apenas áudio bruto.

Os casos de uso mais práticos são bastante óbvios. Imagine pedir “uma batida lo-fi quente de 85 bpm” para colocar em um vlog, ou pedir “a adição de um violão de cordas de náilon no estilo bossa nova” atrás de um vocal existente. A ferramenta também foi capaz de transferir estilo, acompanhamento com reconhecimento de andamento e pontuação adaptativa que corresponde ao arco de uma determinada cena de vídeo. Se o OpenAI integrar texto, áudio e talvez prompts MIDI, seus criadores poderiam iterar rapidamente – cantarolar uma melodia, descrever uma vibração, ajustar a partir de breves dicas textuais.
Um sistema mais avançado também facilitaria a edição com reconhecimento de haste (capacidade de isolar vocais, baixo, bateria), correspondência de tons e alongamento dinâmico (para que a música termine em uma cadência quando o vídeo for cortado), etc.
Por que os dados de treinamento são importantes para músicas geradas por IA
O fato de a OpenAI usar partituras anotadas aponta para a primazia que ela dá à estrutura simbólica – isto é, notas, acordes, ritmo e forma – em vez de apenas aprender com formas de onda de áudio. Isso serve para melhorar a coerência, diminuir artefatos de looping e forçar o modelo a seguir regras musicais em durações mais longas. Na aplicação, ao combinar dados simbólicos com gravações emparelhadas, pode-se obter um tempo de frase melhorado e com mais qualidade musical, bem como um timbre do instrumento e uma melhor transformação entre as transições.
A estratégia de dados também apresenta desvantagens legais e de licenciamento. Os detentores de direitos dificultaram o treinamento de modelos de IA musical em catálogos comerciais. A indústria fonográfica já processou os principais geradores de música por cópia não autorizada de gravações sonoras. Neste contexto, conjuntos de dados selecionados, acordos de licenciamento e anotações fornecidas por humanos fazem mais do que apenas melhorar a qualidade – eles são gerenciamento de riscos.
As apostas são altas. De acordo com a IFPI, o mercado global de música gravada em 2019 valia aproximadamente 28,6 mil milhões de dólares e o streaming representou cerca de 67% dessa receita. A cadeia de valor desde a composição até à produção, distribuição e monetização é aquela que toda a IA musical deve cruzar se chegar aos mercados de consumo ou de criadores.
Um campo lotado e benchmarks claros em IA musical
OpenAI não é o primeiro. Observamos também que a pesquisa MusicLM do Google, bem como o Dream Track experimental do YouTube (que usou o modelo Lyria) demonstraram geração plausível de texto para música e condicionamento de estilo artístico em pilotos controlados. O MusicGen aberto da Meta, bem como os produtos iniciais da Suno e Udio, mostraram a criação de músicas prontas para vírus em poucos minutos – com versos, refrões, refrões cativantes e tudo.


Esses produtos estabeleceram as expectativas do usuário: geração rápida, fidelidade semelhante à do rádio e capacidade de edição. Eles também estabeleceram proteções legais. As startups têm lutado contra riscos de litígio e analisado a questão da proveniência dos dados de treinamento, e as plataformas experimentam faixas de proveniência de conteúdo e marcas d’água para manter o áudio sintético rastreável. Se a OpenAI lançar uma ferramenta musical, a proveniência, as desativações e as parcerias com gravadoras terão destaque.
Obstáculos técnicos e custos de IA de áudio de alta fidelidade
A geração de áudio de alta fidelidade exige muita computação. Para produzir um minuto de áudio estéreo a 48 kHz, é necessário gerar mais de cinco milhões de quadros, e fazer isso de forma interativa, com baixa latência e capacidade de edição não é trivial. Os modelos precisam gerenciar a estrutura de longo alcance (seções de música) com transientes pontiagudos (batidas de bateria, ataques de palheta) e manter a coerência de fase para que os instrumentos não manchem.
A pilha vencedora funde modelagem hierárquica (estrutura de planejamento em alto nível e, em seguida, renderização com difusão ou decodificadores autorregressivos) junto com ferramentas para pintura interna, condicionamento de melodia e separação de fonte. Se a OpenAI incorporar isso no Sora, ou em outros sistemas multimodais, ela poderá sincronizar a música com a ação na tela usando incorporações de cena e oferecer aos criadores trilhas sonoras com qualidade de trilha sonora sem inserir folhas de sinalização manualmente.
O preço sinalizará a intenção. Poderia haver um nível amigável ao consumidor para adoção em massa entre criadores de vídeos curtos e podcasters, e um nível “profissional” oferecendo hastes, taxas de bits mais altas, licenciamento comercial e integrações de DAW voltadas para estúdios. A partilha de receitas ou pools de licenciamento – talvez em colaboração com editoras e editoras – poderia aliviar as tensões da indústria e expandir o acesso aos catálogos.
Para os músicos, o valor a curto prazo é a velocidade: esboçar arranjos, testar estilos e criar demos organizadas. Acesso, para quem não é músico: um caminho desde o prompt até a faixa finalizada sem passar pela teoria musical. O risco, como sempre, é a desapropriação; a oportunidade é mais trabalho para os criativos humanos que direcionam e refinam os resultados da IA.
O que assistir enquanto a OpenAI se expande para a criação musical
Os principais sinais incluem se a OpenAI consegue acordos com as principais gravadoras e editoras, lança programas opt-in para artistas e envia marcas d’água ou metadados de proveniência por padrão. Fique atento também às integrações com ChatGPT e Sora, plug-ins DAW e ferramentas de edição mais refinadas. Se ele fornecer geração legal de alta qualidade e controles físicos nos quais você realmente não precisa pensar muito, ele poderá muito bem se estabelecer como o gerador de cama de som padrão para a Internet em pouco tempo.
‘O artigo anterior pode incluir informações divulgadas por terceiros’
‘Alguns detalhes deste artigo foram extraídos da seguinte fonte www.findarticles.com’
‘ O artigo anterior foi obtido e traduzido do site internacional da celebrity.land ’ Source Link














