同步操作将从 PaddlePaddle/Parakeet 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
Parakeet 自在为开源社区提供一个灵活,高效,先进的语音合成工具箱。Parakeet 基于 PaddlePaddle 2.0 构建,并且包含了 百度研究院 以及其他研究机构的许多有影响力的 TTS 模型。
其中包含了百度研究院最近提出的 WaveFlow 模型。
为了方便使用已有的 TTS 模型以及开发新的模型,Parakeet 选取了经典的模型,并且提供了基于 PaddlePaddle 的参考实现。Parakeet 进一步抽象了 TTS 任务的流程,并且将数据预处理,模块共享,模型配置以及训练和合成的流程标准化。目前已经支持的模型包括音码器 (vocoder) 和声学模型。
音码器
声学模型
未来将会添加更多的模型。
如若需要基于 Parakeet 实现自己的模型和实验,可以参考 如何准备自己的实验.
请参考 安装.
Parakeet 提供了多个实验样例。这些样例使用 parakeet 中提供的模型,提供在公共数据集上进行实验的完整流程,包含数据处理,模型训练以及预测的功能,是进行实验以及二次开发的示例。
Parakeet 同时提供了示例模型的训练好的参数,可从下表中获取。每一列列出了一个模型的资源,包含预训练模型的 checkpoint 下载 url, 训练该模型用的数据集,以及使用改 checkpoint 合成的语音样例。点击模型名,可以下载到一个压缩包,其中包含了训练该模型时使用的配置文件。
我们提供了 residual channel 为 64, 96, 128 的 WaveFlow 模型 checkpoint. 另外还提供了 ClariNet 和 WaveNet 的 checkpoint.
WaveFlow (res. channels 64) | WaveFlow (res. channels 96) | WaveFlow (res. channels 128) |
---|---|---|
LJSpeech | LJSpeech | LJSpeech |
|
|
|
ClariNet | WaveNet | |
LJSpeech | LJSpeech | |
|
|
注意: 输入的 mel 频谱是从验证集中选取的,它们不被用于训练。
我们也提供了几个端到端的 TTS 模型的 checkpoint, 并展示用随机选取的著名引言合成的语音。对应的转录文本展示如下。
Text | From | |
---|---|---|
0 | Life was like a box of chocolates, you never know what you're gonna get. | Forrest Gump |
1 | With great power there must come great responsibility. | Spider-Man |
2 | To be or not to be, that’s a question. | Hamlet |
3 | Death is just a part of life, something we're all destined to do. | Forrest Gump |
4 | Don’t argue with the people of strong determination, because they may change the fact! | William Shakespeare |
用于可以使用不同的音码器将声学模型产生的频谱转化为原始音频。我们将展示声学模型配合 Griffin-Lim 音码器以及基于神经网络的音码器的合成样例。
Transformer TTS | FastSpeech |
---|---|
LJSpeech | LJSpeech |
|
|
正在开发中。
Parakeet 以 Apache-2.0 license 提供。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。