NVIDIA 发布 BigVGAN v2:开创零样本波形音频生成

realtime news  Sep 06, 2024 19:41  UTC 11:41

1 Min Read

根据 NVIDIA 技术博客,NVIDIA 宣布发布 BigVGAN v2,一款创新的零样本波形音频生成 AI 模型。新模型在速度和质量上实现了显著提升,定位为音频生成 AI 领域的最先进解决方案。

BigVGAN:通用神经声码器

BigVGAN 是一款通用神经声码器,设计用于从 Mel 频谱图合成音频波形。该模型采用完全卷积架构,包含多个上采样块和残差扩张卷积层。一个关键功能是反混叠多周期组成 (AMP) 模块,优化生成高频和周期性声波,从而减少伪影。

BigVGAN v2 的改进

BigVGAN v2 引入了相对于其前身的几项改进:

  • 最先进的音频质量,在各种指标和音频类型上表现优异。
  • 高达3倍的合成速度,通过优化的 CUDA 内核实现。
  • 预训练检查点,适用于多种音频配置。
  • 支持最高采样率达 44 kHz,覆盖人耳可听到的最高频率。

生成世界上的每一种声音

波形音频生成对虚拟世界至关重要,并且一直是研究的重要焦点。BigVGAN v2 通过提供高质量、细节丰富的音频解决了以前的限制。该模型使用 NVIDIA A100 Tensor Core GPUs 进行训练,训练数据集比其前身大100多倍。BigVGAN v2 能够从各种领域生成高质量的声波,包括语音、环境声音和音乐。

达到人耳可以检测到的最高频率声波

以前的模型限制在 22 kHz 到 24 kHz 之间的采样率。BigVGAN v2 将这一范围扩展到 44 kHz,捕捉人类听觉范围内的全部频谱。这使得该模型能够再现全面的音景,从音乐中的强劲鼓声到清脆的镲音。

通过定制 CUDA 内核实现更快的合成

BigVGAN v2 还具有加速的合成速度,通过使用定制的 CUDA 内核实现高达3倍的推理速度。这些内核使得在单个 NVIDIA A100 GPU 上生成音频波形的速度高达实时的240倍。

音频质量的结果

BigVGAN v2 对语音和一般音频的音频质量表现优于其前身,并且在 44 kHz 采样率下与 Descript 音频编解码器相当。 这表明该模型能够在各种音频类型中生成高质量的波形。

结论

NVIDIA 的 BigVGAN v2 在音频合成方面树立了新基准,在所有音频类型上实现了最先进的质量,并覆盖了人类听觉的全频范围。该模型的合成速度现已提高到3倍,使其在各种音频配置中更为高效。

更多信息,用户可查看 GitHub 上的 BigVGAN v2 模型卡。



Read More