一种信息预测模块的构建方法、信息预测方法及相关设备技术

技术编号:33043645 阅读:13 留言:0更新日期:2022-04-15 09:25
本申请提供了一种信息预测模块的构建方法、信息预测方法及相关设备,构建方法包括:以能获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;基于文本处理模块和预设的多种语音合成前端信息预测任务构建多任务处理模块;对多任务处理模块进行处理,以使处理后的多任务处理模块具备处理多种语音合成前端信息的预测任务的能力,处理后的模块作为构建的信息预测模块。经由本申请提供的构建方法可构建出同时对多种语音合成前端信息进行预测的模块。在构建方法的基础上,本申请还提供了可同时预测多种语音合成前端信息的信息预测方法,在此基础上,本申请还提供了可同时预测出较为准确的韵律词边界和调核位置的信息预测方法。信息预测方法。信息预测方法。

【技术实现步骤摘要】
一种信息预测模块的构建方法、信息预测方法及相关设备


[0001]本申请涉及语音合成
,尤其涉及一种信息预测模块的构建方法、信息预测方法及相关设备。

技术介绍

[0002]语音合成前端信息的预测是自然语言处理领域的分支之一。语音合成前端的信息预测任务往往不止一个,比如,韵律预测、多音字预测、符号读法预测等。
[0003]目前的语音合成前端预测方案一般需要针对不同的预测任务分别设计和构建不同的预测模型,比如,针对韵律预测任务设计和构建韵律预测模型、针对多音字预测任务设计和构建多音字预测模型、针对符号读法预测设计和构建符号读法预测模型。
[0004]由于目前的语音合成前端预测方案涉及较多的模型,因此,实现起来较为复杂,此外,基于较多的模型进行语音合成前端信息预测存在效率不高等问题。

技术实现思路

[0005]有鉴于此,本申请提供了一种信息预测模块的构建方法、信息预测方法及相关设备,用以解决现有的语音合成前端预测方案实现起来较为复杂且效率不高的问题,其技术方案如下:
[0006]一种信息预测模块的构建方法,包括:
[0007]以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;
[0008]基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块;
[0009]对所述多任务处理模块进行处理,以使处理后的多任务处理模块具备处理所述多种语音合成前端信息的预测任务的能力,处理后的多任务处理模块作为构建的信息预测模块。
[0010]可选的,所述以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块,包括:
[0011]以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,作为构建的文本处理模块。
[0012]可选的,所述多种语音合成前端信息包括多音字信息;
[0013]所述以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,包括:
[0014]以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型。
[0015]可选的,所述以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,包括:
[0016]以预测训练语料中隐藏的文本单元为任务,对初始的语言模型进行训练,得到一
次训练后的语言模型;
[0017]结合训练语料的分词及词性信息,以预测训练语料中隐藏的文本单元为任务,对一次训练后的语言模型进行训练,得到二次训练后的语言模型;
[0018]结合多音字训练语料的分词及词性信息,以偏向预测多音字训练语料中隐藏的多音字文本单元为任务,对二次训练后的语言模型进行训练,得三次训练后的语言模型,作为预训练语言模型。
[0019]可选的,所述多音字训练语料为预先构建的多音字训练语料集中的训练语料,所述多音字训练语料集的构建过程包括:
[0020]从训练语料库中筛选包含多音字的训练语料作为候选多音字训练语料,以得到若干候选多音字训练语料;
[0021]根据每个候选多音字训练语料包含的各多音字分别对应的权重,确定每个候选多音字训练语料对应的多音字权重,其中,一多音字对应的权重根据该多音字的易错率设定;
[0022]根据所述若干候选多音字训练语料分别对应的多音字权重,从所述若干候选多音字训练语料中筛选多音字训练语料,由筛选出的多音字训练语料构建多音字训练语料集。
[0023]可选的,所述基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块,包括:
[0024]基于所述预训练语言模型构建用于处理预设的多种语音合成前端信息的预测任务的多任务联合模型,作为多任务处理模块;
[0025]其中,所述多任务联合模型包括编码模块和共享所述编码模块的多个任务处理模块,所述编码模块采用所述预训练语言模型,每个任务处理模块用于预测一种语音合成前端信息;
[0026]所述对所述多任务处理模块进行处理,包括:
[0027]对所述多任务联合模型进行训练,训练后的多任务联合模型作为构建的信息预测模块。
[0028]可选的,所述多个任务处理模块包括:多音字预测模块、韵律预测模块和符号读法预测模块;
[0029]所述对所述多任务联合模型进行训练,包括:
[0030]对所述多音字预测模块和所述韵律预测模块进行交替训练,以得到训练后的多音字预测模块和训练后的韵律预测模块;
[0031]固定所述编码模块、所述训练后的多音字预测模块以及所述训练后的韵律预测模块,对所述符号读法预测模块进行训练。
[0032]可选的,对所述多音字预测模块进行训练,包括:
[0033]利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;
[0034]利用所述多音字预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中多音字的读音为对应的候选读音集中各候选读音的概率,作为多音字预测结果,其中,所述候选读音集中包括对应多音字的所有读音;
[0035]根据所述多音字预测结果和训练语料中多音字标注的读音,对所述多音字预测模块进行参数更新。
[0036]可选的,对所述韵律预测模块进行训练,包括:
[0037]利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;
[0038]利用所述韵律预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中各候选短停顿位置为短停顿位置的概率以及训练语料中各候选长停顿位置为长停顿位置的概率,作为韵律预测结果;
[0039]根据所述韵律预测结果以及训练语料标注的短停顿位置和长停顿位置对所述韵律预测模块进行参数更新。
[0040]可选的,对所述符号读法预测模块进行训练,包括:
[0041]利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;
[0042]利用所述符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中符号的读法为对应的候选读法集中各候选读法的概率,作为符号读法预测结果,其中,所述候选读法集包括对应符号的所有读法;
[0043]根据所述符号读法预测结果和训练语料中符号标注的读法,对所述符号读法预测模块进行参数更新。
[0044]可选的,所述利用所述符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中符号的读法为对应的候选读法集中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息预测模块的构建方法,其特征在于,包括:以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块;基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块;对所述多任务处理模块进行处理,以使处理后的多任务处理模块具备处理所述多种语音合成前端信息的预测任务的能力,处理后的多任务处理模块作为构建的信息预测模块。2.根据权利要求1所述的信息预测模块的构建方法,其特征在于,所述以能够获得文本单元在不同语境下的语义信息为目标,构建文本处理模块,包括:以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,作为构建的文本处理模块。3.根据权利要求2所述的信息预测模块的构建方法,其特征在于,所述多种语音合成前端信息包括多音字信息;所述以学习文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,包括:以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型。4.根据权利要求3所述的信息预测模块的构建方法,其特征在于,所述以学习文本单元在不同语境下的语义信息以及多音字文本单元在不同语境下的语义信息为目标,对初始的语言模型进行预训练,得到预训练语言模型,包括:以预测训练语料中隐藏的文本单元为任务,对初始的语言模型进行训练,得到一次训练后的语言模型;结合训练语料的分词及词性信息,以预测训练语料中隐藏的文本单元为任务,对一次训练后的语言模型进行训练,得到二次训练后的语言模型;结合多音字训练语料的分词及词性信息,以偏向预测多音字训练语料中隐藏的多音字文本单元为任务,对二次训练后的语言模型进行训练,得三次训练后的语言模型,作为预训练语言模型。5.根据权利要求4所述的信息预测模块的构建方法,其特征在于,所述多音字训练语料为预先构建的多音字训练语料集中的训练语料,所述多音字训练语料集的构建过程包括:从训练语料库中筛选包含多音字的训练语料作为候选多音字训练语料,以得到若干候选多音字训练语料;根据每个候选多音字训练语料包含的各多音字分别对应的权重,确定每个候选多音字训练语料对应的多音字权重,其中,一多音字对应的权重根据该多音字的易错率设定;根据所述若干候选多音字训练语料分别对应的多音字权重,从所述若干候选多音字训练语料中筛选多音字训练语料,由筛选出的多音字训练语料构建多音字训练语料集。6.根据权利要求2所述的信息预测模块的构建方法,其特征在于,所述基于所述文本处理模块和预设的多种语音合成前端信息的预测任务,构建多任务处理模块,包括:基于所述预训练语言模型构建用于处理预设的多种语音合成前端信息的预测任务的多任务联合模型,作为多任务处理模块;其中,所述多任务联合模型包括编码模块和共享所述编码模块的多个任务处理模块,
所述编码模块采用所述预训练语言模型,每个任务处理模块用于预测一种语音合成前端信息;所述对所述多任务处理模块进行处理,包括:对所述多任务联合模型进行训练,训练后的多任务联合模型作为构建的信息预测模块。7.根据权利要求6所述的信息预测模块的构建方法,其特征在于,所述多个任务处理模块包括:多音字预测模块、韵律预测模块和符号读法预测模块;所述对所述多任务联合模型进行训练,包括:对所述多音字预测模块和所述韵律预测模块进行交替训练,以得到训练后的多音字预测模块和训练后的韵律预测模块;固定所述编码模块、所述训练后的多音字预测模块以及所述训练后的韵律预测模块,对所述符号读法预测模块进行训练。8.根据权利要求7所述的信息预测模块的构建方法,其特征在于,对所述多音字预测模块进行训练,包括:利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;利用所述多音字预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中多音字的读音为对应的候选读音集中各候选读音的概率,作为多音字预测结果,其中,所述候选读音集中包括对应多音字的所有读音;根据所述多音字预测结果和训练语料中多音字标注的读音,对所述多音字预测模块进行参数更新。9.根据权利要求7所述的信息预测模块的构建方法,其特征在于,对所述韵律预测模块进行训练,包括:利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;利用所述韵律预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中各候选短停顿位置为短停顿位置的概率以及训练语料中各候选长停顿位置为长停顿位置的概率,作为韵律预测结果;根据所述韵律预测结果以及训练语料标注的短停顿位置和长停顿位置对所述韵律预测模块进行参数更新。10.根据权利要求7所述的信息预测模块的构建方法,其特征在于,对所述符号读法预测模块进行训练,包括:利用所述编码模块对训练语料进行编码,并将训练语料的分词和词性信息融入编码结果中,得到训练语料对应的融合有分词和词性信息的编码结果;利用所述符号读法预测模块,以训练语料对应的融合有分词和词性信息的编码结果为依据,预测训练语料中符号的读法为对应的候选读法集中各候选读法的概率,作为符号读法预测结果,其中,所述候选读法集包括对应符号的所有读法;根据所述符号读法预测结果和训练语料中符号标注的读法,对所述符号读法预测模块进行参数更新...

【专利技术属性】
技术研发人员:高丽王瑾薇胡亚军江源祖漪清
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1