语音合成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：28041855 阅读：25 留言：0更新日期：2021-04-09 23:25

本申请涉及一种语音合成方法、装置、计算机设备和存储介质。所述方法包括：获取待处理的中英混合文本；对待处理的中英混合文本进行分段处理，得到中文分段和英文分段；通过向量生成模型得到中文分段的中文语音特征向量，以及英文分段的英文语音特征向量；将中文语音特征向量和英文语音特征向量转换成各自对应的中文语音数据和英文语音数据；融合中文语音数据和英文语音数据，生成中英混合文本的语音数据。本方法通过采用端到端的向量生成模型，可以简化语音合成系统的结构，加快语音合成的效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、计算机设备和存储介质
本申请涉及计算机
，特别是涉及一种语音合成方法、装置、计算机设备和存储介质。
技术介绍
语音合成是通过机械的、电子的方法产生人造语音的技术。它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音音频的技术。语音合成技术可以针对单一语种；也可以针对混合语种，例如，中英文。传统技术中，针对中英文混合的语音合成可以基于由独立的中文模型和英文模型集成的语音合成系统实现。语音合成系统首先通过首先GBK(ChineseInternalCodeSpecification，汉字内码扩展规范)编码将输入的中英混合语句划分成中文、英文语句。然后，对中文、英文语句进行语句分析得到各自对应的语句labels(标注信息)。将中文labels按韵律词进行分段，得到中文分段；英文labels按单词进行分段，得到英文分段。通过中文模型对中文分段进行语音合成；通过英文模型对英文分段进行语音合成。最后，将合成的中英文语音数据存入音频缓冲单元中等待播放。但是，随着计算机技术的发展...

【技术保护点】
1.一种语音合成方法，其特征在于，所述方法包括：/n获取待处理的中英混合文本；/n对所述中英混合文本进行分段处理，得到中文分段和英文分段；/n通过向量生成模型得到所述中文分段的中文语音特征向量，以及所述英文分段的英文语音特征向量；/n将所述中文语音特征向量和所述英文语音特征向量转换成各自对应的中文语音数据和英文语音数据；/n融合所述中文语音数据和所述英文语音数据，生成所述中英混合文本的语音数据。/n

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：
获取待处理的中英混合文本；
对所述中英混合文本进行分段处理，得到中文分段和英文分段；
通过向量生成模型得到所述中文分段的中文语音特征向量，以及所述英文分段的英文语音特征向量；
将所述中文语音特征向量和所述英文语音特征向量转换成各自对应的中文语音数据和英文语音数据；
融合所述中文语音数据和所述英文语音数据，生成所述中英混合文本的语音数据。

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理的中英混合文本进行分段处理，得到中文分段和英文分段，包括：
依次对所述中英混合文本中的每个字符进行检测，得到每个字符的字符类别；
根据所述字符类别对所述中英混合文本进行分段处理，得到所述中文分段和所述英文分段。

3.根据权利要求2所述的方法，其特征在于，所述根据所述字符类别对所述中英混合文本进行分段处理，得到所述中文分段和所述英文分段，包括：
若检测到当前字符的字符类别为中文，则将所述当前字符输出至当前中文分段，并继续对下一个字符进行检测，直至检测到字符类别发生变更，得到所述当前中文分段；
若检测到当前字符的字符类别为英文或空格，则将所述当前字符输出至当前英文分段，并继续对下一个字符进行检测，直至检测到字符类别发生变更，得到所述当前英文分段；
直至所述中英混合文本全部检测完毕，得到所述中文分段和所述英文分段。

4.根据权利要求1所述的方法，其特征在于，所述融合所述中文语音数据和所述英文语音数据，生成所述中英混合文本的语音数据，包括：
获取对所述中英文混合文本进行分段得到的分段数量和每个分段对应的分段标识中的任一个；
根据所述分段标识或所述分段数量对所述中文语音数据和英文语音数据进行拼接，得到所述语音数据。

5.根据权利要求1所述的方法，其特征在于，所述向量生成模型包括编码器、注意力块和解码器；
所述通过向量生成模型得到所述中文分段的中文语音特征向量，以及所述英文分段的英文语音特征向量，包括：
通过所述编码器将...

【专利技术属性】
技术研发人员：张坚，张坤雷，
申请(专利权)人：爱驰汽车有限公司，
类型：发明
国别省市：江西;36

全部详细技术资料下载我是这个专利的主人