语音合成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:28041855 阅读:16 留言:0更新日期:2021-04-09 23:25
本申请涉及一种语音合成方法、装置、计算机设备和存储介质。所述方法包括:获取待处理的中英混合文本;对待处理的中英混合文本进行分段处理,得到中文分段和英文分段;通过向量生成模型得到中文分段的中文语音特征向量,以及英文分段的英文语音特征向量;将中文语音特征向量和英文语音特征向量转换成各自对应的中文语音数据和英文语音数据;融合中文语音数据和英文语音数据,生成中英混合文本的语音数据。本方法通过采用端到端的向量生成模型,可以简化语音合成系统的结构,加快语音合成的效率。

【技术实现步骤摘要】
语音合成方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种语音合成方法、装置、计算机设备和存储介质。
技术介绍
语音合成是通过机械的、电子的方法产生人造语音的技术。它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音音频的技术。语音合成技术可以针对单一语种;也可以针对混合语种,例如,中英文。传统技术中,针对中英文混合的语音合成可以基于由独立的中文模型和英文模型集成的语音合成系统实现。语音合成系统首先通过首先GBK(ChineseInternalCodeSpecification,汉字内码扩展规范)编码将输入的中英混合语句划分成中文、英文语句。然后,对中文、英文语句进行语句分析得到各自对应的语句labels(标注信息)。将中文labels按韵律词进行分段,得到中文分段;英文labels按单词进行分段,得到英文分段。通过中文模型对中文分段进行语音合成;通过英文模型对英文分段进行语音合成。最后,将合成的中英文语音数据存入音频缓冲单元中等待播放。但是,随着计算机技术的发展,对系统的高效性要求越来越高,因此亟需一种更加高效的语音合成方法。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高对中英混合文本进行语音合成效率的语音合成方法、装置、计算机设备和存储介质。第一方面,本申请实施例提供一种语音合成方法,所述方法包括:获取待处理的中英混合文本;对所述中英混合文本进行分段处理,得到中文分段和英文分段;通过向量生成模型得到所述中文分段的中文语音特征向量,以及所述英文分段的英文语音特征向量;将所述中文语音特征向量和所述英文语音特征向量转换成各自对应的中文语音数据和英文语音数据;融合所述中文语音数据和所述英文语音数据,生成所述中英混合文本的语音数据。在其中一个实施例中,所述对所述待处理的中英混合文本进行分段处理,得到中文分段和英文分段,包括:依次对所述中英混合文本中的每个字符进行检测,得到每个字符的字符类别;根据所述字符类别对所述中英混合文本进行分段处理,得到所述中文分段和所述英文分段。在其中一个实施例中,所述根据所述字符类别对所述中英混合文本进行分段处理,得到所述中文分段和所述英文分段,包括:若检测到当前字符的字符类别为中文,则将所述当前字符输出至当前中文分段,并继续对下一个字符进行检测,直至检测到字符类别发生变更,得到所述当前中文分段;若检测到当前字符的字符类别为英文或空格,则将所述当前字符输出至当前英文分段,并继续对下一个字符进行检测,直至检测到字符类别发生变更,得到所述当前英文分段;直至所述中英混合文本全部检测完毕,得到所述中文分段和所述英文分段。在其中一个实施例中,所述融合所述中文语音数据和所述英文语音数据,生成所述中英混合文本的语音数据,包括:获取对所述中英文混合文本进行分段得到的分段数量和每个分段对应的分段标识中的任一个;根据所述分段标识或所述分段数量对所述中文语音数据和英文语音数据进行拼接,得到所述语音数据。在其中一个实施例中,所述向量生成模型包括编码器、注意力块和解码器;所述通过向量生成模型得到所述中文分段的中文语音特征向量,以及所述英文分段的英文语音特征向量,包括:通过所述编码器将所述中文分段转换为对应的拼音分段,并对所述拼音分段和所述英文分段进行编码处理,得到各自对应的中文特征序列和英文特征序列;通过所述注意力块基于注意力机制将所述拼音特征序列转换成固定长度的中文语境向量,将所述英文特征序列转换成所述固定长度的英文语境向量;通过所述解码器对所述中文语境向量和所述英文语境向量进行解码处理,得到所述中文语音特征向量和所述英文语音特征向量。在其中一个实施例中,所述将所述中文语音特征向量和所述英文语音特征向量转换成各自对应的中文语音数据和英文语音数据,包括:将所述中文语音特征向量和所述英文语音特征向量进行转换得到各自对应的线性频谱特征向量;根据所述线性频谱特征向量生成所述中文语音数据和所述英文语音数据。第二方面,本申请实施例提供一种语音合成装置,所述装置包括:获取模块,用于获取待处理的中英混合文本;分段模块,用于对所述中英混合文本进行分段处理,得到中文分段和英文分段;向量生成模块,用于通过向量生成模型得到所述中文分段的中文语音特征向量,以及所述英文分段的英文语音特征向量;声码器模块,用于将所述中文语音特征向量和所述英文语音特征向量转换成各自对应的中文语音数据和英文语音数据;语音融合模块,用于拼接所述中文语音数据和所述英文语音数据,生成所述中英混合文本的语音数据。在其中一个实施例中,所述分段模块,包括:字符检测单元,用于依次对所述中英混合文本中的每个字符进行检测,得到每个字符的字符类别;分段单元,用于根据所述字符类别对所述中英混合文本进行分段处理,得到所述中文分段和所述英文分段。第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项实施例所述的语音合成方法。第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一项实施例所述的语音合成方法。上述语音合成方法、装置、计算机设备和存储介质,通过对待处理的中英混合文本进行分段处理,得到中文分段和英文分段;基于向量生成模型得到中文分段的中文语音特征向量,以及英文分段的英文语音特征向量;将中文语音特征向量和英文语音特征向量转换成各自对应的中文语音数据和英文语音数据,进而生成中英混合文本的语音数据。通过采用端到端的向量生成模型,可以简化语音合成系统的结构,加快语音合成的效率;通过采用端到端的模型,还可以简化模型的训练生成过程。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,并不构成对本申请的不当限定。图1为一个实施例中语音合成方法的应用环境图;图2为一个实施例中语音合成方法的流程示意图;图3为一个实施例中对中英文混合文本进行分段步骤的流程示意图;图4为一个实施例中得到语音特征向量步骤的示意图;图5为一个实施例中向量生成模型的结构示意图;图6为另一个实施例中语音合成方法的流程示意图;图7为一个实施例中语音合成系统的结构示意图;图8为一个实施例中语音合成装置的结构框图;图9为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的语音本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:/n获取待处理的中英混合文本;/n对所述中英混合文本进行分段处理,得到中文分段和英文分段;/n通过向量生成模型得到所述中文分段的中文语音特征向量,以及所述英文分段的英文语音特征向量;/n将所述中文语音特征向量和所述英文语音特征向量转换成各自对应的中文语音数据和英文语音数据;/n融合所述中文语音数据和所述英文语音数据,生成所述中英混合文本的语音数据。/n

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:
获取待处理的中英混合文本;
对所述中英混合文本进行分段处理,得到中文分段和英文分段;
通过向量生成模型得到所述中文分段的中文语音特征向量,以及所述英文分段的英文语音特征向量;
将所述中文语音特征向量和所述英文语音特征向量转换成各自对应的中文语音数据和英文语音数据;
融合所述中文语音数据和所述英文语音数据,生成所述中英混合文本的语音数据。


2.根据权利要求1所述的方法,其特征在于,所述对所述待处理的中英混合文本进行分段处理,得到中文分段和英文分段,包括:
依次对所述中英混合文本中的每个字符进行检测,得到每个字符的字符类别;
根据所述字符类别对所述中英混合文本进行分段处理,得到所述中文分段和所述英文分段。


3.根据权利要求2所述的方法,其特征在于,所述根据所述字符类别对所述中英混合文本进行分段处理,得到所述中文分段和所述英文分段,包括:
若检测到当前字符的字符类别为中文,则将所述当前字符输出至当前中文分段,并继续对下一个字符进行检测,直至检测到字符类别发生变更,得到所述当前中文分段;
若检测到当前字符的字符类别为英文或空格,则将所述当前字符输出至当前英文分段,并继续对下一个字符进行检测,直至检测到字符类别发生变更,得到所述当前英文分段;
直至所述中英混合文本全部检测完毕,得到所述中文分段和所述英文分段。


4.根据权利要求1所述的方法,其特征在于,所述融合所述中文语音数据和所述英文语音数据,生成所述中英混合文本的语音数据,包括:
获取对所述中英文混合文本进行分段得到的分段数量和每个分段对应的分段标识中的任一个;
根据所述分段标识或所述分段数量对所述中文语音数据和英文语音数据进行拼接,得到所述语音数据。


5.根据权利要求1所述的方法,其特征在于,所述向量生成模型包括编码器、注意力块和解码器;
所述通过向量生成模型得到所述中文分段的中文语音特征向量,以及所述英文分段的英文语音特征向量,包括:
通过所述编码器将...

【专利技术属性】
技术研发人员:张坚张坤雷
申请(专利权)人:爱驰汽车有限公司
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1