WaveNet:原始音频的生成模型

时间:2019-03-10 14:19:43 阅读:10次

  这篇文章介绍了WaveNet,一种原始音频波形的深度生成模型。我们展示了WaveNets能够生成模仿任何人类语音的语音,并且听起来比现有的最佳文本语音系统更自然,与人类表现的差距缩小了50%以上。

  我们还展示了同一个网络可以用来合成音乐等其他音频信号,并展示一些自动生成的钢琴曲的惊人样本。

会说话的机器

  允许人们与机器交谈是人机交互的长期梦想。在过去几年中,通过应用深度神经网络(例如,谷歌语音搜索),计算机理解自然语音的能力已经发生了革命性的变化。然而,用计算机产生语音 - 这个过程通常被称为语音合成或文本到语音(TTS) - 仍然主要基于所谓的连接TTS,其中从单个记录了一个非常大的短语音片段数据库。说话者然后重新组合以形成完整的话语。这使得在不录制全新数据库的情况下难以修改语音(例如,切换到不同的发言者,或改变他们的讲话的重点或情感)。

  这导致对参数TTS的巨大需求,其中生成数据所需的所有信息都存储在模型的参数中,并且可以通过模型的输入来控制语音的内容和特征。然而,到目前为止,参数化TTS倾向于听起来不如连接。现有的参数模型通常通过将其输出通过称为声码器的信号处理算法来生成音频信号。

   WaveNet通过直接建模音频信号的原始波形(一次一个样本)来改变这种范例。除了产生更自然的声音之外,使用原始波形意味着WaveNet可以模拟任何类型的音频,包括音乐。

WaveNets

全屏 fullscreen_mobile

  研究人员通常会避免对原始音频进行建模,因为它的速度非常快:通常为每秒16,000个样本或更多,在许多情况下具有重要结构时间尺度。构建一个完全自回归模型,其中每个样本的预测都受到所有先前模型的影响(统计学上讲,每个预测分布都取决于之前的所有观察结果),这显然是一项具有挑战性的任务。

  然而,我们今年早些时候发布的PixelRNN和PixelCNN模型显示,不仅可以一次生成一个像素,而且一次生成一个颜色通道,每个图像需要数千个预测,因此可以生成复杂的自然图像。这激发了我们将二维PixelNets改编为一维WaveNet。

全屏 fullscreen_mobile

  上面的动画展示了WaveNet的结构。它是一个完全卷积的神经网络,其中卷积层具有各种扩张因子,允许其感知场随深度呈指数增长并覆盖数千次。

  在训练时,输入序列是从人类扬声器记录的真实波形。在训练之后,我们可以对网络进行抽样以生成合成话语。在采样期间的每个步骤中,从网络计算的概率分布中抽取值。然后将该值反馈到输入中,并进行下一步骤的新预测。像这样一步一步地建立样本计算成本很高,但我们发现它对于生成复杂,逼真的音频非常重要。

  改善现状

  我们使用Google的一些TTS数据集培训了WaveNet,以便我们评估其性能。下图显示了WaveNets的质量,从1到5,与Google目前最好的TTS系统(参数和连接)相比,以及使用Mean Opinion Scores(MOS)的人类语音。 MOS是主观声音质量测试的标准测量,并且是在人类受试者的盲测中获得的(来自100个测试句子的500多个评级)。正如我们所看到的,WaveNets将美国英语和普通话的艺术水平与人类表现之间的差距缩小了50%以上。

  对于中文和英文,Google目前的TTS系统被认为是全球最好的系统之一,因此使用单一模型进行改进是一项重大成就。

全屏 fullscreen_mobile

  以下是来自所有三个系统的一些示例,您可以自己倾听和比较:

  美国英语:

  普通话:

  知道说什么

  为了使用WaveNet将文本转换为语音,我们必须告诉它文本是什么。我们通过将文本转换为一系列语言和语音特征(包含有关当前音素,音节,单词等的信息)并将其输入WaveNet来实现。这意味着网络的预测不仅取决于之前的音频样本,还取决于我们希望它的文字。

  如果我们在没有文本序列的情况下训练网络,它仍会产生语音,但现在它必须弥补说话。正如您可以从下面的示例中听到的那样,这会产生一种唠叨,其中真实的单词中间散布着类似于单词的声音:

  请注意,WaveNet有时也会产生非语音,如呼吸和嘴巴动作;这反映了原始音频模型的更大灵活性。

  正如您可以从这些样本中听到的那样,单个WaveNet能够学习许多不同声音(男性和女性)的特征。为了确保它知道哪个语音用于任何给定的话语,我们根据说话者的身份调整网络。有趣的是,我们发现许多发言者的培训使得单个演讲者的建模比单独对该演讲者进行培训更好,这表明了一种转学方式。

  通过更改说话者身份,我们可以使用WaveNet在不同的声音中说同样的事情:

  同样,我们可以为模型提供额外的输入,例如情感或口音,以使演讲更加多样化和有趣。

  制作音乐

  由于WaveNets可以用来模拟任何音频信号,我们认为尝试生成音乐也很有趣。与TTS实验不同,我们没有对输入序列上的网络进行调节,告诉它要播放什么(例如乐谱);相反,我们只是让它生成它想要的任何东西。当我们在古典钢琴音乐的数据集上进行训练时,它产生了如下所示的迷人样本:

   WaveNets为TTS,音乐生成和音频建模提供了很多可能性。使用深度神经网络直接生成每时间步长的时间步长对16kHz音频起作用的事实确实令人惊讶,更不用说它优于最先进的TTS系统。我们很高兴看到我们接下来可以做些什么。

  有关详细信息,请查看我们的论文。

WaveNet:原始音频的生成模型所属专题:生成专题 模型专题 《WaveNet:原始音频的生成模型》链接:http://www.zhouchuanxiong.net/1154

WaveNet:原始音频的生成模型相关文章