Como softwares que imitam cantores desafiam direitos autorais
Valentina Candido
08 de maio de 2023(atualizado 28/12/2023 às 17h24)Programas que clonam a voz de celebridades produziram hits. Canção gravada com inteligência artificial foi ouvida 10 milhões de vezes
Temas
Compartilhe
Apresentação do The Weeknd em Nova York
Em março de 2023, uma música cantada nas vozes de Drake e The Weeknd ficou famosa no TikTok. Com 10 milhões de visualizações em menos de uma semana, tudo indicava que “Heart On My Sleeve” era uma nova parceria de sucesso da dupla de artistas, que havia atuado em conjunto antes. Exceto pelo fato de que nenhum deles gravou o single .
Na verdade, a música pertence a um usuário anônimo, que revelou ter usado vozes artificiais dos cantores sintetizadas por um software de inteligência artificial. As similaridades com o estilo original dos artistas, dos timbres e da letra, que não se sabe se é uma composição própria ou se também foi gerada por uma IA, confundiu fãs e reacendeu a discussão sobre direitos autorais em casos de deepfakes – quando a tecnologia é usada para produzir uma versão extremamente semelhante à realidade.
Sob pressão da UMG (Universal Music Group), gravadora que gere a carreira de Drake e The Weeknd, a produção foi retirada temporariamente do ar. A empresa interpretou o caso como uma violação de copyrights e exigiu que as plataformas usem seus algoritmos para bloquear outras produções feitas com inteligência artificial.
Neste texto, o Nexo explica a evolução dos deepfakes musicais e porque eles ocupam um limbo nas legislações sobre direitos autorais.
“Heart On My Sleeve” não foi uma situação isolada de deepfake musical. Nos últimos anos, a produção de músicas por vozes sintetizadas afetou celebridades de diversos gêneros.
Em abril de 2020, a OpenAI, empresa responsável pelo ChatGPT e pelo Dalle-E, lançou o Jukebox, um algoritmo de código aberto para a geração de músicas.
Para divulgar o projeto, a empresa publicou áudios gerados pelo programa que simulam o estilo de cantores famosos. Entre eles, ficou famosa a voz sintetizada de Frank Sinatra, morto em 1998.
Por 3 minutos, a frase “It’s Christmas time! It’s hot tub time!” é repetida ao som de pop clássico em timbres similares ao do artista. A gravação, ouvida 451 mil vezes no SoundCloud, se tornou um símbolo do salto tecnológico ao demonstrar ser possível fazer a voz de uma pessoa morta dizer algo inédito.
No mesmo mês que a OpenAI lançou o Jukebox, o canal do Youtube Vocal Synthesis publicou um vídeo com a leitura de um trecho de Hamlet feita por uma voz sintetizada de Jay-Z. Na época, a empresa Roc Nation, que pertence ao cantor, solicitou ao YouTube que retirasse o conteúdo do ar por violação de direitos autorais.
O canal, que também publicou vídeos gerados por IA de Bob Dylan cantando “Baby One More Time” e áudios de seis presidentes dos Estados Unidos dizendo “Fuck tha Police” , alegou que se tratava de uma paródia, o que estaria indicado nos títulos e descrições. O YouTube aceitou a defesa e manteve a publicação, que hoje tem cerca de 144 mil visualizações.
O rapper Eminem aparece em mais de um caso envolvendo deepfakes musicais. Entre eles, um dos mais famosos foi quando o canal do YouTube 30 Hertz explorou a voz sintetizada do rapper feita a partir de samples gravados em seu período de maior sucesso na década de 1990.
Por alguns meses, 30 Hertz recebeu ideias de fãs e gravou vídeos com a voz artificial do cantor. Foi lançado um vídeo do rapper xingando o empresário Mark Zuckerberg e uma regravação do álbum ‘My Name Is’ com letras atualizadas ao contexto de 2021.
Segundo reportagens da época, o vídeo com a regravação do álbum atingiu mais de 685 mil visualizações no YouTube. O conteúdo original não está mais na plataforma, e o canal, disponível somente pelo SoundCloud , adicionou uma mensagem em uma versão de 2023 dizendo que conteúdos como aquele estão sendo derrubados pela UMG.
A produção de música a partir de vozes artificiais não é uma tecnologia nova. O recurso está disponível desde 1961, quando programadores fizeram um computador IBM 7094 cantar a música “Daisy Bell”, escrita de Harry Dacre, pela primeira vez. A questão é que até a introdução da IA à tecnologia, a voz produzida era muito robótica e podia ser facilmente diferenciada da voz humana.
A inteligência artificial facilitou a conversão de ondas sonoras em dados e passou a produzir respostas a partir da integração desses dados em uma rede de informações. Com isso, os programas de sintetização produzem vozes com mais variações na fala e menos artificialidade, aproximando-se da linguagem humana. É o que viabilizou, por exemplo, recursos de assistência por voz, como a Alexa, da Amazon, e a Siri, da Apple.
Hoje, alguns desses programas de sintetização de voz estão disponíveis gratuitamente na internet com código aberto, o que torna possível que qualquer pessoa modifique o seu funcionamento e os utilize para a produção de deepfakes musicais.
Esse é o caso do Tacotron 2, software do Google feito para produzir discursos a partir de um texto escrito. Os usuários conseguem modificar o código para que a voz de leitura seja modulada por arquivos de áudio próprios – como uma música ou uma entrevista de uma celebridade. Este foi o recurso usado pelo vídeo de 2020 que faz a voz sintetizada do cantor Jay-z ler o texto de Hamlet.
Outro exemplo é o So Vits SVC (Singing Voice Conversion), um projeto do GitHub criado com objetivo de converter um áudio em uma voz musicalizada. O recurso, que permite que o timbre de uma pessoa seja aplicado em uma música que ela nunca cantou, foi usado para a criação da versão de “Hey There Delilah” na voz sintetizada do rapper Kanye West em março de 2023.
Uma das explicações para esses softwares ainda não serem populares como outros recursos de AI, como o Chat GPT e o Dall-E, está ligado ao fato da interface usada ser pouco intuitiva para pessoas não habituadas com linguagem de programação.
A questão dos direitos autorais sobre obras geradas por inteligência artificial é uma questão em aberto. Na maioria dos países, ainda não está definido se o dono do arquivo usado como base por uma inteligência artificial tem direitos sobre as obras sintetizadas por ela. Isso faz com que casos de deep fakes caiam em um limbo jurídico.
Como a propriedade sobre a voz também não é um consenso, os direitos autorais de músicas gravadas com vozes clonadas é ainda mais complexo.
Internacionalmente, a Convenção de Roma , de 1961, regulamenta o direito dos cantores sobre a reprodução de músicas em 96 países . O acordo segue a lógica do direito de autoria, que dá aos artistas soberania sobre suas obras. Ele impede que uma música seja usada sem a autorização e creditação de seus intérpretes, embora não especifique se o direito é expandido para a voz ou para o estilo.
Entre os signatários da convenção, o Brasil costuma ser favorável ao direito do emissor sobre a sua voz nas interpretações judiciais sobre o assunto. De acordo com a advogada Gabriela Buarque em entrevista ao portal Jota , isso acontece porque a voz normalmente é considerada um traço da personalidade e recebe o mesmo tratamento legal que o direito de imagem.
Fora da Convenção de Roma, os Estado Unidos operam sobre outro sistema . No país onde aconteceram os casos mais emblemáticos de deepfakes musicais, a propriedade é regulamentada pelas leis de copyright. Isso significa que a soberania sobre uma obra não é necessariamente do seu autor, mas de quem a registra, de forma que o que não está registrado também não é protegido juridicamente.
Pelas normas de copyright, segundo explicou Joe Bennett , professor de Berklee College of Music (EUA), explicou à revista americana Billboard, o registro não abrange a voz, somente as notas, acordes, letra e gravação de uma música.
Por essa razão, explica Bennett, casos como a reclamação de Jay-Z contra o canal Vocal Synthesis ou da música gravada com a voz de Drake e de The Weeknd só seriam julgados favoravelmente se os artistas conseguissem argumentar em corte que a própria voz foi registrada – o que aconteceu em julgamentos envolvendo os cantores Tom Waits e Bette Midler .
NEWSLETTER GRATUITA
Enviada à noite de segunda a sexta-feira com os fatos mais importantes do dia
Gráficos
O melhor em dados e gráficos selecionados por nosso time de infografia para você
Destaques
Navegue por temas