同步操作将从 PaddlePaddle/DeepSpeech 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
(简体中文|English)
PaddleSpeech 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型,一些典型的应用示例如下:
输入文本 | 合成音频 |
---|---|
Life was like a box of chocolates, you never know what you're gonna get. |
|
早上好,今天是2020/10/29,最低温度是-3°C。 |
|
更多合成音频,可以参考 PaddleSpeech 语音合成音频示例。
本项目采用了易用、高效、灵活以及可扩展的实现,旨在为工业应用、学术研究提供更好的支持,实现的功能包含训练、推断以及测试模块,以及部署过程,主要包括
微信扫描二维码加入官方交流群,获得更高效的问题答疑,与各行各业开发者充分交流,期待您的加入。
我们强烈建议用户在 Linux 环境下,3.7 以上版本的 python 上安装 PaddleSpeech。这种情况下安装 paddlespeech
只需要一条 pip
命令:
pip install paddlepaddle paddlespeech
目前为止,Linux 支持声音分类、语音识别、语音合成和语音翻译四种功能,Mac OSX、 Windows 下暂不支持语音翻译功能。 想了解更多安装细节,可以参考安装文档。
安装完成后,开发者可以通过命令行快速开始,改变 --input
可以尝试用自己的音频或文本测试。
声音分类
paddlespeech cls --input input.wav
语音识别
paddlespeech asr --lang zh --input input_16k.wav
语音翻译 (English to Chinese)
paddlespeech st --input input_16k.wav
语音合成
paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav
PaddleSpeech 支持很多主流的模型,并提供了预训练模型,详情请见模型列表。
PaddleSpeech 的 语音识别 包含语音识别声学模型、语音识别语言模型和语音翻译, 详情如下:
语音识别模块种类 | 数据集 | 模型种类 | 链接 |
---|---|---|---|
语音识别 | Aishell | DeepSpeech2 RNN + Conv based Models | deepspeech2-aishell |
Transformer based Attention Models | u2.transformer.conformer-aishell | ||
Librispeech | Transformer based Attention Models | deepspeech2-librispeech / transformer.conformer.u2-librispeech / transformer.conformer.u2-kaldi-librispeech | |
对齐 | THCHS30 | MFA | mfa-thchs30 |
语言模型 | Ngram 语言模型 | kenlm | |
TIMIT | Unified Streaming & Non-streaming Two-pass | u2-timit | |
语音翻译(英译中) | TED En-Zh | Transformer + ASR MTL | transformer-ted |
FAT + Transformer + ASR MTL | fat-st-ted |
PaddleSpeech 的 语音合成 主要包含三个模块:文本前端、声学模型和声码器。声学模型和声码器模型如下:
语音合成模块类型 | 模型种类 | 数据集 | 链接 |
---|---|---|---|
文本前端 | tn / g2p | ||
声学模型 | Tacotron2 | LJSpeech | tacotron2-ljspeech |
Transformer TTS | transformer-ljspeech | ||
SpeedySpeech | CSMSC | speedyspeech-csmsc | |
FastSpeech2 | AISHELL-3 / VCTK / LJSpeech / CSMSC | fastspeech2-aishell3 / fastspeech2-vctk / fastspeech2-ljspeech / fastspeech2-csmsc | |
声码器 | WaveFlow | LJSpeech | waveflow-ljspeech |
Parallel WaveGAN | LJSpeech / VCTK / CSMSC | PWGAN-ljspeech / PWGAN-vctk / PWGAN-csmsc | |
Multi Band MelGAN | CSMSC | Multi Band MelGAN-csmsc | |
声音克隆 | GE2E | Librispeech, etc. | ge2e |
GE2E + Tactron2 | AISHELL-3 | ge2e-tactron2-aishell3 | |
GE2E + FastSpeech2 | AISHELL-3 | ge2e-fastspeech2-aishell3 |
任务 | 数据集 | 模型种类 | 链接 |
---|---|---|---|
声音分类 | ESC-50 | PANN | pann-esc50 |
对于 PaddleSpeech 的所关注的任务,以下指南有助于帮助开发者快速入门,了解语音相关核心思想。
语音合成模块最初被称为 Parakeet,现在与此仓库合并。如果您对该任务的学术研究感兴趣,请参阅 TTS 研究概述。此外,模型介绍 是了解语音合成流程的一个很好的指南。
要引用 PaddleSpeech 进行研究,请使用以下格式进行引用。
@misc{ppspeech2021,
title={PaddleSpeech, a toolkit for audio processing based on PaddlePaddle.},
author={PaddlePaddle Authors},
howpublished = {\url{https://github.com/PaddlePaddle/PaddleSpeech}},
year={2021}
}
热烈欢迎您在Discussions 中提交问题,并在Issues 中指出发现的 bug。此外,我们非常希望您参与到 PaddleSpeech 的开发中!
此外,PaddleSpeech 依赖于许多开源存储库。有关更多信息,请参阅 references。
PaddleSpeech 在 Apache-2.0 许可 下提供。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。