使用 GAN 架构恢复高度压缩的音乐文件

🎶 2022-08-31 16:40:02 – 巴黎/法国。

(a) 原始音频提取的频谱图,(b) 对应的 3kbit/s MP32 版本,以及 (c)、(d)、(e) 具有来自 N(0,I) 的不同随机采样 z 噪声的恢复。 信用:拉特纳和尼斯塔尔。

在过去的几十年中,计算机科学家开发了越来越先进的技术和工具,用于在电子设备中存储大量音乐和音频文件。 音乐存储的一个里程碑是 MP3(即 MPEG-1 第 3 层)技术的发展,该技术将声音片段或歌曲压缩成非常小的文件,可以轻松地在设备之间存储和传输。

媒体文件(包括 PKZIP、JPEG、GIF、PNG、MP3、AAC、Cinepak 和 MPEG-2 文件)的编码、编辑和压缩是使用一组称为编解码器名称的技术完成的。 编解码器是具有两个关键组件的压缩技术:压缩文件的编码器和解压缩文件的解码器。

有两种类型的编解码器,即所谓的无损和有损编解码器。 解压缩时,无损编解码器(如 PKZIP 和 PNG 编解码器)会再现与原始文件完全相同的文件。 另一方面,有损压缩方法会生成听起来(或看起来)像原始文件但在电子设备中占用较少存储空间的原始文件的传真。

有损音频编解码器基本上通过压缩数字音频流、删除一些数据,然后解压缩来工作。 通常,原始文件和解压缩文件之间的差异对于人类来说很难或不可能感知。

但是,当有损编解码器使用高压缩率时,它们可能会导致性能下降并明显改变音频信号。 最近,计算机科学家试图克服有损编解码器的这一限制,并使用深度学习技术提高压缩文件的质量。

索尼计算机科学实验室 (CSL) 的研究人员最近开发了一种新的深度学习方法,以改善和恢复歌曲和高度压缩的音频记录的质量(即,由编解码器压缩的音频文件以高压缩率有损)。 这种方法在 arXiv 上的一篇预发表文章中进行了介绍,它基于生成对抗网络 (GAN),这是一种机器学习模型,其中两个神经网络“竞争”以做出越来越准确或可靠的预测。

Stefan Lattner 和 Javier Nistal 在他们的文章中写道:“许多作品都使用深度学习技术解决了音频增强和压缩伪影去除的问题。” “然而,只有少数作品涉及在音乐领域恢复高度压缩的音频信号。 在这项研究中,我们测试了一个用于该任务的生成对抗网络 (GAN) 架构的随机生成器。 »

与其他 GAN 一样,Lattner 和 Nistal 创建的模型由两个不同的模型组成,称为“生成器 (G)”和“临界 (D)”。 发生器接收在 MP3 中压缩的音乐音频信号的提取,由频谱图表示(即音频信号频谱频率的视觉表示)。

生成器不断学习生成该原始信号的恢复版本,该版本的大小更小。 在此期间,GAN 架构的关键组件学会区分高质量的原始文件和恢复的版本,从而发现它们之间的差异。 最终,审阅者收集的信息用于提高恢复文件的质量,确保恢复文件中的音乐或音频数据尽可能忠实于原始文件。

Lattner 和 Nistal 在一系列测试中评估了他们基于 GAN 的架构,旨在确定他们的模型是否可以提高 MP3 输入的质量并生成比其他基本音频压缩模型创建的更接近原始文件的压缩样本. 他们的结果非常有希望,因为他们发现高度压缩(3 kbps 和 16 kbps)MP32 文件的模型恢复通常比原始压缩文件更好,因为它们对于专业的人类听众来说听起来更好。 另一方面,当使用较低的压缩率(64 kbps 单声道)时,团队发现他们的模型的性能比基本的 MP3 压缩工具稍差。

“我们使用客观测量和听力测试对不同的体验进行了全面评估,”拉特纳和尼斯塔尔说。 “我们发现,与 3 和 16 kbit/s 的 MP32 版本相比,这些模型可以提高音频信号的质量,并且随机发生器能够产生比确定性发生器更接近原始信号的输出。.. »

作为研究的一部分,研究人员还表明,他们的架构可以成功生成和添加逼真的高频内容,从而提高压缩歌曲的音频质量。 生成的内容包括打击乐元素、产生咝咝声或爆破音(即“s”和“t”声音)和吉他声音的歌声。

将来,他们创建的模型可以帮助显着减小 MP3 音乐文件的大小,而不会改变其内容或产生容易察觉的错误。 这可能对移动应用程序上音乐的存储和传输产生重大影响。 (例如 Spotify、Apple Music 等)和现代电子设备,包括智能手机、平板电脑和电脑。


Google Lyra 将为另外 XNUMX 亿用户启用语音通话


更多信息:
Stefan Lattner,Javier Nistal,使用生成对抗网络随机恢复高度压缩的音乐音频。 arXiv:2207.01667v1 [cs.SD]arxiv.org/abs/2207.01667

© 2022 科学 X 网络

:使用 GAN 架构恢复高度压缩的音乐文件(2022 年 31 月 1 日)于 2022 年 2022 月 08 日检索自 https://techxplore.com/news/XNUMX-XNUMX-gan-architecture-heavily-compressed-music.html

本文件受版权保护。 除出于私人学习或研究目的合理使用外,未经书面许可,不得复制任何部分。 内容仅供参考。

来源: 评论 新闻

不要犹豫,在社交网络上分享我们的文章,给我们一个坚实的推动力。 🎵

退出手机版