语音合成方法及装置制造方法及图纸

技术编号:30413329 阅读:21 留言:0更新日期:2021-10-24 16:14
本申请提出一种语音合成方法及装置,其中方法包括:获取待进行语音合成的文本;针对文本中的每个句子,将句子输入预设的属性识别模型,获取句子的属性特征;属性特征包括:说话方标识,和/或,情感类型;根据句子以及句子的属性特征,生成具有属性特征的语音;对文本中各个句子对应的语音进行合成处理,得到合成语音,该方法可自动识别出文本中句子的属性特征,并根据句子的属性特征生成具有属性特征的语音,进而进行语音合成,提高了语音合成的准确度和效率,同时,降低了语音合成的成本。降低了语音合成的成本。降低了语音合成的成本。

【技术实现步骤摘要】
语音合成方法及装置


[0001]本申请涉及语音合成
,尤其涉及一种语音合成方法及装置。

技术介绍

[0002]语音合成,是一种能根据文字生成语音的技术。目前的语音合成技术主要是基于情感和说话方的语音合成技术。基于情感和说话方的语音合成模型的构建,需要大量经过情感标注和说话方标注的文本以及文本对应的语音。其中,对文本的情感标注和说话方标注,由人工来完成,标注成本高,标注效率差,导致语音合成模型的准确度差。

技术实现思路

[0003]本申请的目的旨在至少在一定程度上解决上述技术问题之一。
[0004]为此,本申请的第一个目的在于提出一种语音合成方法,该方法可自动识别出文本中句子的属性特征,并根据句子的属性特征生成具有属性特征的语音,进而进行语音合成,提高了语音合成的准确度和效率,同时,降低了语音合成的成本。
[0005]本申请的第二个目的在于提出一种语音合成装置。
[0006]本申请的第三个目的在于提出另一种语音合成装置。
[0007]本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
[0008]为达上述目的,本申请第一方面实施例提出了一种语音合成方法,包括:获取待进行语音合成的文本;针对所述文本中的每个句子,将所述句子输入预设的属性识别模型,获取所述句子的属性特征;所述属性特征包括:说话方标识,和/或,情感类型;根据所述句子以及所述句子的属性特征,生成具有所述属性特征的语音;对所述文本中各个句子对应的语音进行合成处理,得到合成语音。
[0009]本申请实施例的语音合成方法,通过获取待进行语音合成的文本;针对所述文本中的每个句子,将所述句子输入预设的属性识别模型,获取所述句子的属性特征;所述属性特征包括:说话方标识,和/或,情感类型;根据所述句子以及所述句子的属性特征,生成具有所述属性特征的语音;对所述文本中各个句子对应的语音进行合成处理,得到合成语音。该方法可自动识别出文本中句子的属性特征,并根据句子的属性特征生成具有属性特征的语音,进而进行语音合成,提高了语音合成的准确度和效率,同时,降低了语音合成的成本。
[0010]为达上述目的,本申请第二方面实施例提出了一种语音合成装置,该装置包括:获取模块,用于获取待进行语音合成的文本;输入模块,用于针对所述文本中的每个句子,将所述句子输入预设的属性识别模型,获取所述句子的属性特征;所述属性特征包括:说话方标识,和/或,情感类型;生成模块,用于根据所述句子以及所述句子的属性特征,生成具有所述属性特征的语音;处理模块,用于对所述文本中各个句子对应的语音进行合成处理,得到合成语音。
[0011]本申请实施例的语音合成装置,通过获取待进行语音合成的文本;针对所述文本中的每个句子,将所述句子输入预设的属性识别模型,获取所述句子的属性特征;所述属性
特征包括:说话方标识,和/或,情感类型;根据所述句子以及所述句子的属性特征,生成具有所述属性特征的语音;对所述文本中各个句子对应的语音进行合成处理,得到合成语音。该装置可实现自动识别出文本中句子的属性特征,并根据句子的属性特征生成具有属性特征的语音,进而进行语音合成,提高了语音合成的准确度和效率,同时,降低了语音合成的成本。
[0012]为达上述目的,本申请第三方面实施例提出了另一种语音合成装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的语音合成方法。
[0013]为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的语音合成方法。
[0014]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0015]本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0016]图1为根据本申请一个实施例的语音合成方法的流程示意图;
[0017]图2为根据本申请另一个实施例的语音合成方法的流程示意图;
[0018]图3为根据本申请一个实施例的语音合成装置的结构示意图;
[0019]图4为根据本申请另一个实施例的语音合成装置的结构示意图;
[0020]图5为根据本申请一个实施例的另一种语音合成装置的结构示意图。
具体实施方式
[0021]下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
[0022]下面参考附图描述本申请实施例的语音合成方法及装置。
[0023]图1为本申请实施例提供的一种语音合成方法的流程示意图。如图1所示,该语音合成方法包括以下步骤:
[0024]步骤101,获取待进行语音合成的文本。
[0025]在本申请实施例中,待进行语音合成的文本可为需要进行语音合成的文本,需要进行语音合成的文本可从小说或者剧本中进行截取,或者从网络中下载以获取。
[0026]步骤102,针对文本中的每个句子,将句子输入预设的属性识别模型,获取句子的属性特征;属性特征包括:说话方标识,和/或,情感类型。
[0027]在本申请实施例中,针对文本中的每个句子,将句子输入预设的属性识别模型,可获取句子的属性特征,其中,属性特征可包括:说话方标识,和/或,情感类型;比如,说话方标识可为文本的不同角色的说话人的标识,可用数字表示,如:speaker_id=1,情感类型可为文本中包含的情感,如:喜悦、悲伤、惊叹、愤怒等。属性识别模型可包括但不限于说话方识别子模型和情感识别子模型。
[0028]作为一种示例,针对文本中的每个句子,将句子输入说话方识别子模型,可获取句子的说话方标识;针对文本中的每个句子,将句子输入情感识别子模型,可获取句子的情感类型。其中,需要说明的是,说话方识别模型的数量可为多个,其中,每个说话方识别子模型可对应一个说话方标识,用于识别句子的说话方标识是否为说话方识别子模型对应的说话方标识;情感识别子模型的数量可为多个,每个情感识别子模型可对应一种情感类型,用于识别句子的情感类型是否为情感识别子模型对应的情感类型。
[0029]举例而言,例如,将“太好了,黄木偶高兴地说”分别输入到说话方识别子模型和情感识别子模型中,可获取该句子的说话方标识为“黄木偶”,情感类型为“喜悦”。
[0030]需要理解的是,在针对文本中的每个句子,将句子输入预设的属性识别模型,获取句子的属性特征之前,可先获取预设的属性识别模型。可选地,获取第一训练数据,第一训练数据中的每个训练样本包括:训练文本以及对应的属性特征;采用第一训练数据对初始的属性识别模型进行训练,得到预设的属性识别模型。
[0031]作为一种示例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取待进行语音合成的文本;针对所述文本中的每个句子,将所述句子输入预设的属性识别模型,获取所述句子的属性特征;所述属性特征包括:说话方标识,和/或,情感类型;根据所述句子以及所述句子的属性特征,生成具有所述属性特征的语音;对所述文本中各个句子对应的语音进行合成处理,得到合成语音。2.根据权利要求1所述的方法,其特征在于,所述针对所述文本中的每个句子,将所述句子输入预设的属性识别模型,获取所述句子的属性特征之前,还包括:获取第一训练数据,所述第一训练数据中的每个训练样本包括:训练文本以及对应的属性特征;采用所述第一训练数据对初始的属性识别模型进行训练,得到所述预设的属性识别模型。3.根据权利要求1所述的方法,其特征在于,所述属性识别模型包括:说话方识别子模型和情感识别子模型;所述针对所述文本中的每个句子,将所述句子输入预设的属性识别模型,获取所述句子的属性特征,包括:针对所述文本中的每个句子,将所述句子输入所述说话方识别子模型,获取所述句子的说话方标识;和/或,针对所述文本中的每个句子,将所述句子输入所述情感识别子模型,获取所述句子的情感类型。4.根据权利要求3所述的方法,其特征在于,所述说话方识别子模型的数量为多个,每个说话方识别子模型对应一个说话方标识,用于识别句子的说话方标识是否为说话方识别子模型对应的说话方标识;所述情感识别子模型的数量为多个,每个情感识别子模型对应一种情感类型,用于识别句子的情感类型是否为情感识别子模型对应的情感类型。5.根据权利要求1所述的方法,其特征在于,所述根据所述句子以及所述句子的属性特征,生成具有所述属性特征的语音,包括:获取与所述句子的属性特征对应的语音合成模型;将所述句子输入与所述句子的属性特征对应的语音合成模型,获取具有所述属性特征的语音。6.根据权利要求5所述的方法,其特征在于,所述将所述句子输入与所述句子的属性特征对应的语音合成模型,获取具有所述属性特征的语音之前,还包括:针对所述属性特征,获取与所述属性特征对应的第二训练数据,所述第二训练数据中的每个训练样本包括:训练文本的属性特征,以及所述训练文本对应的语音;采用所述第二训练数据对初始的语音合成模型进行训练,得到与所述属性特征对应的语音合成模型。7.一种语音合成装置,其特征在于,包括:获取模块,用于获取待进行语音合成的文本;

【专利技术属性】
技术研发人员:刘崴张海雷胡一川汪冠春褚瑞李玮
申请(专利权)人:北京奔影网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1