Em resumo
- ElevenLabs lançou o Music v2, capaz de mudar de gênero no meio da faixa, construir músicas seção por seção e pintar partes específicas.
- A Stability AI lançou o Stable Audio 3.0, uma família de quatro modelos com pesos abertos para três variantes, treinados em dados licenciados, gerando faixas de até seis minutos e vinte segundos de duração.
- Ambos os lançamentos baseiam-se fortemente em dados de treinamento licenciados – mas o Suno, avaliado em US$ 2,45 bilhões e com cerca de 100 milhões de usuários, ainda é a plataforma que a maioria das pessoas procura primeiro.
Duas atualizações musicais significativas de IA chegaram esta semana, e nenhuma delas veio de Suno.
ElevenLabs, empresa de IA de voz fundada na Polônia, avaliada em US$ 11 bilhões após uma Série D de US$ 500 milhões em fevereiro, lançou Música v2. Stability AI – o pessoal da Stable Diffusion – caiu Áudio estável 3.0uma família de quatro modelos com pesos abertos e pistas que duram seis minutos.
O pano de fundo é a Recording Industry Association of America processos de direitos autorais de 2024 contra Suno e Udio, o que tornou “treinado em dados licenciados” a frase mais importante em qualquer anúncio musical de IA. Tanto o ElevenLabs quanto o Stability estão se apoiando nisso, garantindo que você não terá problemas com os resultados gerados.
Música v2: uma faixa, da ópera ao heavy metal, sem quebras
Music v2 é o segundo modelo musical da ElevenLabs, chegando cerca de 10 meses após o primeiro. O tom central é a coerência sob pressão. De acordo com Elevenlabs, uma única faixa pode mudar da ópera para o heavy metal e vice-versa, manter-se unida através do rap rápido e incorporar efeitos sonoros não musicais – tudo sem que a composição se desfaça.
O áudio generativo tende a desmoronar exatamente quando os prompts ficam complicados, então vale a pena assistir, especialmente em composições mais longas.
A pintura interna agora é realmente útil: selecione uma seção, regenere-a, deixe todo o resto intacto. Os usuários também podem criar músicas seção por seção – introdução, verso, refrão – com o modelo mantendo a continuidade em vez de tratar cada clipe como uma geração independente. O suporte multilíngue também melhorou, embora a ElevenLabs não tenha publicado detalhes.
O modelo alimenta três plataformas: ElevenMusic para criadores, ElevenAPI para desenvolvedores e ElevenCreative para marcas. Está ao vivo no ElevenMusic e ElevenCreative agora; O acesso à API é feito antecipadamente pela equipe de vendas.
A ElevenLabs também reduziu os preços do Music v1 e v2 em até 50% para ElevenAPI e em até 40% para autoatendimento ElevenCreative. A empresa bateu US$ 500 milhões em receita recorrente anual em abril de 2026. A música ainda é uma pequena fatia disso – mas o ElevenMusic, lançado como um aplicativo para consumidores em abril, é um tiro direto na base de usuários da Suno.
Áudio estável 3.0: pesos abertos, no dispositivo, na verdade mais longos
Áudio estável 2.0 atingiu o máximo de três minutos e já estava atrás do Suno quando foi lançado em 2024. Stable Audio 3.0 vem com quatro modelos: Small SFX (efeitos sonoros no dispositivo), Small (composição musical completa no dispositivo), Medium (até 6:20, hardware mais forte) e Large (somente API). Três dos quatro têm pesos abertos no Hugging Face.
Os modelos Small funcionam com 459 milhões de parâmetros cada – sem necessidade de GPU. (Os parâmetros são o que medem a capacidade de um modelo de IA, essencialmente.) O meio atinge 1,4 bilhão de parâmetros e gera sua saída de 6:20 em cerca de 1,31 segundos em uma GPU H200. Grande, com 2,7 bilhões, é apenas API para organizações com mais de US$ 1 milhão em receitas. A granularidade de geração por segundo significa que você obtém exatamente o comprimento da trilha solicitado, não uma aproximação.
Também é compatível com ComfyUI para configurações locais
A arquitetura é nova: um autoencoder semântico-acústico que Stability chama SAME, projetado para manter a coerência melódica em saídas mais longas. O ajuste fino LoRA é suportado, para que os artistas possam adaptar os modelos aos seus próprios catálogos. A pintura interna também está na moda – segmento único, multissegmento e continuação causal para estender uma trilha além de seu ponto final original.
Para contextualizar, um LoRA (modelo de adaptação de baixa classificação) é como um modelo minúsculo que condiciona como o modelo completo gera seus resultados. Se você treinar um LoRA no blues, o modelo produzirá blues, se você treinar um LoRA no blues BB King, o modelo produzirá músicas que soarão como BB King. Inpainting significa que um modelo pode corrigir pequenos erros em sua criação. Então, por exemplo, se o modelo tiver alucinações na marca de 2:30, você pode selecionar alguns segundos da música, pedir ao modelo para alterá-lo para o que você quiser, e o modelo irá gerar um trecho da música que se encaixa perfeitamente naquele período de tempo e combina com a música real como um todo.
A estabilidade tem sido tecnicamente confiável em música de IA há anos sem romper comercialmente. A peça aberta é a estratégia de difusão estável aplicada ao áudio – semear a comunidade de desenvolvedores e ver o que é construído. O licenciamento é mais limpo do que qualquer coisa que a Stable Audio já tenha lançado, com parcerias em vigor com o Universal Music Group e o Warner Music Group.
O alvo: Suno, o rei da música com IA
Se ChatGPT é o rei do texto de IA, Suno é o rei da música de IA. A empresa por trás do modelo atingiu uma avaliação de US$ 2,45 bilhões em novembro de 2025, ultrapassou US$ 300 milhões em receita recorrente anual e foi usada por cerca de 100 milhões de pessoas.
Gera cerca de 7 milhões de músicas por dia. A Warner Music resolveu seu processo contra Suno em novembro de 2025; Sony e UMG ainda estão em tribunal federal.
Para evitar essas guerras de direitos autorais, a ElevenLabs tem acordos de licenciamento com Believe, Kobalt e Merlin. Estabilidade tem Warner e Universal. Udio fez um acordo com todas as três especialidades e agora é um jardim murado – nada que você gere pode sair da plataforma.
Stable Audio 3.0 Small e Medium já está disponível no Hugging Face. Large está ativo por meio da API Stability AI. O Music v2 é gratuito para usuários do ElevenMusic, com níveis comerciais por meio do ElevenCreative e ElevenAPI.
Resumo Diário Boletim informativo
Comece cada dia com as principais notícias do momento, além de recursos originais, podcast, vídeos e muito mais.
‘O artigo anterior pode incluir informações divulgadas por terceiros’
‘Alguns detalhes deste artigo foram extraídos da seguinte fonte decrypt.co’
‘ O artigo anterior foi obtido e traduzido do site internacional da celebrity.land ’ Source Link















