一种录音文稿生成方法、装置、设备及介质制造方法及图纸

技术编号:33705160 阅读:61 留言:0更新日期:2022-06-06 08:25
本发明专利技术提供了一种录音文稿生成方法、装置、设备及介质,所述方法包括:获取自定义的拼音组合序列;基于拼音序列与汉字序列之间的预设映射关系,将所述拼音组合序列中的每一所述拼音转换为对应的汉字,得到汉字组合序列;将所述汉字组合序列输入到训练完成的文本生成模型中,得到初始录音文稿;对所述初始录音文稿进行纠错,得到目标录音文稿。采用本发明专利技术实施例,能够根据实际需求定制输入的拼音序列,以生成文字数量少且包含全部拼音类型的录音文稿,从而进一步减少构建语音合成模型所需的录音语料,降低音库定制的门槛。降低音库定制的门槛。降低音库定制的门槛。

【技术实现步骤摘要】
一种录音文稿生成方法、装置、设备及介质


[0001]本专利技术涉及录音
,尤其涉及一种录音文稿生成方法、装置、设备及介质。

技术介绍

[0002]构建语音合成模型需要文本语音的对齐语料,而文本语音的对齐语料一般是通过配音人员根据录音文稿进行录音获取,因此,录音文稿的内容质量直接决定了文本语音的对齐语料的内容质量。录音文稿是用于指导配音人员进行录音的文本文件,包含需要录音的文字内容,但是,本专利技术人在对现有技术的研究中发现,现有技术中构建录音文稿的方法,或是构建录音文稿的文稿数量较多,或是需要专业写手来撰写录音文稿,成本较高,均不满足通过少量语料进行音库定制的需求。

技术实现思路

[0003]本专利技术提供一种录音文稿生成方法、装置、设备及介质,能够减少构建语音合成模型所需的录音语料,降低音库定制的门槛。
[0004]为实现上述目的,本专利技术实施例提供了一种录音文稿生成方法,包括以下步骤:
[0005]获取自定义的拼音组合序列;其中,所述拼音组合序列包括多个拼音和每一所述拼音出现的次数;
[0006]基于拼音序列与汉字序列之间的预设映射关系,将所述拼音组合序列中的每一所述拼音转换为对应的汉字,得到汉字组合序列;其中,所述汉字组合序列包括多个汉字和每一所述汉字出现的次数;
[0007]将所述汉字组合序列输入到训练完成的文本生成模型中,得到初始录音文稿;
[0008]对所述初始录音文稿进行纠错,得到目标录音文稿。
[0009]作为其中一种可选的实施例,所述基于拼音序列与汉字序列之间的预设映射关系,将所述拼音组合序列中的每一所述拼音转换为对应的汉字,得到汉字组合序列,包括:
[0010]基于预设映射表中的拼音排列顺序,将所述拼音组合序列中的各拼音按照预设的顺序排序,得到排序后的拼音序列;
[0011]基于所述预设映射表,将排序后的拼音序列转换为对应的汉字序列,并在所述汉字序列中的每一汉字后增加该汉字对应拼音的出现次数,得到汉字组合序列。
[0012]作为其中一种可选的实施例,通过以下方式训练所述文本生成模型:
[0013]获取问答对语料;其中,所述问答对语料包括原始句子和问题句子;
[0014]将所述问答对语料输入到预设的文本生成模型中,对所述文本生成模型进行训练,得到训练完成的文本生成模型。
[0015]作为其中一种可选的实施例,通过以下方式获取问答对语料:
[0016]获取文本语料,并将所述文本语料按照预设的分句方法分成多个原始句子;
[0017]基于预设映射表,将所述文本语料中的每一所述原始句子转换为对应的拼音序列;
[0018]统计每一所述拼音序列中各拼音的出现次数,并根据所述出现次数将每一所述拼音序列中的各拼音按照预设的排列顺序进行排列,得到排序后的拼音序列;
[0019]基于预设映射表,将所述排列后的拼音序列转换为对应的汉字序列,并在所述汉字序列中的每一汉字后增加该汉字对应拼音的出现次数,得到每一所述原始句子对应的问题句子。
[0020]将每一原始句子和其对应的问题句子构成一组问答对,得到多组问答对语料。
[0021]作为其中一种可选的实施例,所述拼音组合序列还包括每一所述拼音的音调;
[0022]则,所述基于拼音序列与汉字序列之间的预设映射关系,将所述拼音组合序列中的每一所述拼音转换为对应的汉字,得到汉字组合序列,包括:
[0023]基于预设映射表中的拼音排列顺序,将所述拼音组合序列中的各拼音按照预设的顺序排序,得到排序后的拼音序列;
[0024]基于所述预设映射表,根据每一所述拼音的音调,将排序后的拼音序列转换为对应的汉字序列,并在所述汉字序列中的每一汉字后增加该汉字对应拼音的出现次数,得到汉字组合序列。
[0025]作为其中一种可选的实施例,所述预设映射表包括通用规范汉字表。
[0026]作为其中一种可选的实施例,所述文本生成模型包括GPT、GPT2、GPT3、Laser Tagger、LSTM。
[0027]本专利技术实施例提供了一种录音文稿生成装置,包括:
[0028]拼音组合序列获取模块,用于获取自定义的拼音组合序列;其中,所述拼音组合序列包括多个拼音和每一所述拼音出现的次数;
[0029]汉字组合序列获取模块,用于基于拼音序列与汉字序列之间的预设映射关系,将所述拼音组合序列中的每一所述拼音转换为对应的汉字,得到汉字组合序列;其中,所述汉字组合序列包括多个汉字和每一所述汉字出现的次数;
[0030]初始录音文稿获取模块,用于将所述汉字组合序列输入到训练完成的文本生成模型中,得到初始录音文稿;
[0031]目标录音文稿获取模块,用于对所述初始录音文稿进行纠错,得到目标录音文稿。
[0032]本专利技术实施例提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例所述的录音文稿生成方法。
[0033]本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述实施例所述的车辆定位方法。
[0034]与现有技术相比,本专利技术实施例提供的一种录音文稿生成方法、装置、设备及介质,能够根据实际需求定制输入的拼音序列,生成文字数量少且包含全部拼音类型的录音文稿,从而进一步减少构建语音合成模型所需的录音语料,降低音库定制的门槛。
附图说明
[0035]图1是本专利技术实施例提供的一种录音文稿生成方法的流程示意图;
[0036]图2是本专利技术实施例提供的一种录音文稿生成装置的结构示意图;
[0037]图3是本专利技术实施例提供的一种终端设备的结构示意图。
具体实施方式
[0038]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0039]本专利技术实施例提供了一种录音文稿生成方法,参见图1,是本专利技术实施例提供的一种录音文稿生成方法的流程示意图,所述方法包括步骤S11至步骤S14:
[0040]S11、获取自定义的拼音组合序列;其中,所述拼音组合序列包括多个拼音和每一所述拼音出现的次数。
[0041]需要说明的是,自定义的拼音组合序列是以句子为单位。
[0042]S12、基于拼音序列与汉字序列之间的预设映射关系,将所述拼音组合序列中的每一所述拼音转换为对应的汉字,得到汉字组合序列;其中,所述汉字组合序列包括多个汉字和每一所述汉字出现的次数。
[0043]S13、将所述汉字组合序列输入到训练完成的文本生成模型中,得到初始录音文稿。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种录音文稿生成方法,其特征在于,包括:获取自定义的拼音组合序列;其中,所述拼音组合序列包括多个拼音和每一所述拼音出现的次数;基于拼音序列与汉字序列之间的预设映射关系,将所述拼音组合序列中的每一所述拼音转换为对应的汉字,得到汉字组合序列;其中,所述汉字组合序列包括多个汉字和每一所述汉字出现的次数;将所述汉字组合序列输入到训练完成的文本生成模型中,得到初始录音文稿;对所述初始录音文稿进行纠错,得到目标录音文稿。2.根据权利要求1所述的录音文稿生成方法,其特征在于,所述基于拼音序列与汉字序列之间的预设映射关系,将所述拼音组合序列中的每一所述拼音转换为对应的汉字,得到汉字组合序列,包括:基于预设映射表中的拼音排列顺序,将所述拼音组合序列中的各拼音按照预设的顺序排序,得到排序后的拼音序列;基于所述预设映射表,将排序后的拼音序列转换为对应的汉字序列,并在所述汉字序列中的每一汉字后增加该汉字对应拼音的出现次数,得到汉字组合序列。3.根据权利要求1所述的录音文稿生成方法,其特征在于,通过以下方式训练所述文本生成模型:获取问答对语料;其中,所述问答对语料包括原始句子和问题句子;将所述问答对语料输入到预设的文本生成模型中,对所述文本生成模型进行训练,得到训练完成的文本生成模型。4.根据权利要求3所述的录音文稿生成方法,其特征在于,通过以下方式获取问答对语料:获取文本语料,并将所述文本语料按照预设的分句方法分成多个原始句子;基于预设映射表,将所述文本语料中的每一所述原始句子转换为对应的拼音序列;统计每一所述拼音序列中各拼音的出现次数,并根据所述出现次数将每一所述拼音序列中的各拼音按照预设的排列顺序进行排列,得到排序后的拼音序列;基于预设映射表,将所述排列后的拼音序列转换为对应的汉字序列,并在所述汉字序列中的每一汉字后增加该汉字对应拼音的出现次数,得到每一所述原始句子对应的问题句子。将每一原始句子和其对应的问题句子构成一组问答对,得到多组问答对语...

【专利技术属性】
技术研发人员:徐波
申请(专利权)人:广东利为网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1