O codec SoundStream do Google suprime o ruído e comprime o áudio ao mesmo tempo

Todas as sessões do Transform 2021 agora estão disponíveis sob demanda. Olhe agora.

O Google anunciou hoje o SoundStream, um codec de áudio “neural” de ponta a ponta que pode fornecer áudio de alta qualidade enquanto codifica diferentes tipos de som, incluindo fala clara, fala alta e reverberante, música e ruído ambiente. A empresa afirma que é o primeiro codec alimentado por IA que funciona com voz e música enquanto roda em tempo real em um processador de smartphone.

Os codecs de áudio compactam o áudio para reduzir a necessidade de alto armazenamento e requisitos de largura de banda. Idealmente, o áudio decodificado deve ser indistinguível do original e apresentar baixa latência. Embora a maioria dos codecs aproveite a experiência de domínio e pipelines de processamento de sinal cuidadosamente projetados, há interesse em substituir especificações artesanais por IA que podem aprender a codificar em um piscar de olhos.

No início deste ano, o Google lançou o Lyra, um codec de áudio neural treinado para comprimir a fala de baixa taxa de bits. O SoundStream expande esse trabalho com um sistema composto por codificador, decodificador e quantizador. O codificador converte o áudio em um sinal codificado, que é comprimido com o quantizador e convertido novamente em áudio com o decodificador. Após o treinamento, o codificador e o decodificador podem ser executados em clientes separados para transportar áudio pela Internet, e o decodificador pode operar em qualquer taxa de bits.

Em pipelines de processamento de áudio convencionais, compressão e aprimoramento ̵

Aqui está um áudio de referência antes de processar com SoundStream:

E aqui está o áudio após o processamento:

O Google avisa que o SoundStream ainda está em fase experimental. No entanto, a empresa planeja lançar uma versão atualizada do Lyra que inclui seus componentes para fornecer maior qualidade de áudio e “complexidade reduzida”.

“A compactação eficiente é necessária sempre que o áudio precisa ser transmitido, seja em streaming de vídeo ou durante uma chamada de conferência. O SoundStream é um passo importante para melhorar os codecs de áudio orientados por aprendizado de máquina. Ele supera os codecs de última geração, como Opus e EVS , pode melhorar o áudio, se necessário, e requer o fornecimento de um único modelo escalável em vez de muitos “, escrevem o cientista de pesquisa do Google Neil Zeghidour e o associado de pesquisa Marco Tagliasacchi em uma postagem no blog. “Ao integrar o SoundStream ao Lyra, os desenvolvedores podem aproveitar as APIs e ferramentas do Lyra existentes para seu trabalho, oferecendo flexibilidade e melhor qualidade de som.”

A missão da VentureBeat é ser um mercado digital para tomadores de decisão de tecnologia para obter conhecimento de tecnologias e transações transformadoras. Nosso site fornece informações essenciais sobre tecnologias de dados e estratégias para ajudá-lo a administrar sua organização. Convidamos você a se tornar um membro da nossa comunidade para obter acesso:

informações atuais sobre os tópicos de seu interesse

torne-se um membro

Leave a Reply

Your email address will not be published. Required fields are marked *