1 Star 0 Fork 105

liao529zhu / PaddleSpeech

forked from PaddlePaddle / PaddleSpeech 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
README_cn.md 2.42 KB
一键复制 编辑 原始数据 按行查看 历史
KP 提交于 2022-05-26 13:32 . Update usage and doc of cli executor.

(简体中文|English)

语音翻译

介绍

语音翻译是将会话口语短语翻译成另一语言的过程。

该 Demo 是从特定音频文件中识别文本并将其翻译为目标语言的实现。它可以通过使用 PaddleSpeech 的单个命令或 python 中的几行代码来实现。

使用方法

1. 安装

请看安装文档

你可以从 easy,medium,hard 三中方式中选择一种方式安装。

2. 准备输入

这个 Demo 的输入是 WAV(.wav) 语音文件

这里给出一些样例文件供 Demo 使用:

wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

3. 使用方法 (暂不支持Windows)

  • 命令行(推荐使用)

    paddlespeech st --input ./en.wav

    使用方法:

    paddlespeech st --help

    参数:

    • input(必须输入):用于翻译的音频。
    • model: 语音翻译的模型类型. 默认:fat_st_ted
    • src_lang: 源语言. 默认:en
    • tgt_lang: 目标语言. 默认:zh
    • sample_rate:输入音频的采样率. 默认:16000
    • config:语音翻译任务的配置文件. 如果没有默认使用预训练模型的配置文件. 默认:None
    • ckpt_path:模型文件. 如果没有默认使用预训练模型. 默认:None
    • device:选择执行的设备. 默认: 当前环境 paddlepaddle 的默认设备。

    输出:

    [2021-12-09 11:13:03,178] [    INFO] [utils.py] [L225] - ST Result: ['我 在 这栋 建筑 的 古老 门上 敲门 。']
  • Python API

    import paddle
    from paddlespeech.cli.st import STExecutor
    
    st_executor = STExecutor()
    text = st_executor(
        model='fat_st_ted',
        src_lang='en',
        tgt_lang='zh',
        sample_rate=16000,
        config=None,  # Set `config` and `ckpt_path` to None to use pretrained model.
        ckpt_path=None,
        audio_file='./en.wav',
        device=paddle.get_device())
    print('ST Result: \n{}'.format(text))

    输出:

    ST Result:
    ['我 在 这栋 建筑 的 古老 门上 敲门 。'] 

4. 预训练模型

以下是 PaddleSpeech 提供的可以被命令行和 python API 使用的预训练模型列表:

模型 源语言 目标语言
fat_st_ted en zh
1
https://gitee.com/liao529zhu/PaddleSpeech.git
git@gitee.com:liao529zhu/PaddleSpeech.git
liao529zhu
PaddleSpeech
PaddleSpeech
develop

搜索帮助