一种文本训练集确定方法及装置、电子设备和存储介质制造方法及图纸

技术编号:39420725 阅读:9 留言:0更新日期:2023-11-19 16:09
本公开涉及一种文本训练集确定方法及装置、电子设备和存储介质,所述方法包括:从语料库中获取第一数量的第一语料,并利用所述第一语料对第一模型进行训练;从所述语料库中随机获取第二数量的第二语料,对所述第一模型的准确性进行打分,得到各第二语料的分值;基于分值符合低分条件的第二语料构建训练样本,对所述第一模型进行再次训练;迭代地执行随机获取第二语料至所述再次训练的过程,直至所述第一模型符合预设精度要求;在所述第一模型符合预设精度要求后,将训练所述第一模型所使用过的语料,作为训练第二模型时所使用的样本的录音文稿。本公开实施例降低了录音文稿的数据量,减少录音文稿中的信息冗余,提高了训练第二模型时的效率。型时的效率。型时的效率。

【技术实现步骤摘要】
一种文本训练集确定方法及装置、电子设备和存储介质


[0001]本公开涉及计算机
,尤其涉及一种文本训练集确定方法及装置、电子设备和存储介质。

技术介绍

[0002]语音合成音色模型能够根据文本生成某种特定音色的语音,其训练数据的具体形式为“语音

文本”数据,该模型的输入为文本,期望输出(标签)为语音。这种模型的生成过程(训练过程)非常依赖高质量的训练文本。
[0003]在相关技术中,收集该模型的训练文本的方式包括3个阶段的流程:1)构造录音文稿集合;2)利用录音文稿进行录音棚录音;3)对录音文本进行筛选和标注。其中,关键步骤是得到合适的录音文本,如何选择合适的录音文本是一个非常具有技术挑战的问题,合适的录音文本才能得到与模型的应用场景高度相关的训练数据,最终才能利用训练数据得到高泛化能力的语音合成音色模型,并能够在具体应用场景得到高可靠性的语音合成音色模型。
[0004]在相关技术中,为了得到高泛化能力的语音合成音色模型,往往通过大量的训练数据来进行训练,这会耗费较高的资源和时间,导致语音合成音色模型的训练效率较低。

技术实现思路

[0005]本公开提出了一种文本训练集确定技术方案。
[0006]根据本公开的一方面,提供了一种文本训练集确定方法,包括:
[0007]从语料库中获取第一数量的第一语料,并利用所述第一语料对第一模型进行训练;
[0008]从所述语料库中随机获取第二数量的第二语料,对所述第一模型的准确性进行打分,得到各第二语料的分值;
[0009]基于分值符合低分条件的第二语料构建训练样本,对所述第一模型进行再次训练;
[0010]迭代地执行随机获取第二语料至所述再次训练的过程,直至所述第一模型符合预设精度要求;
[0011]在所述第一模型符合预设精度要求后,将训练所述第一模型所使用过的语料,作为训练第二模型时所使用的样本的录音文稿,其中,所述第一模型与所述第二模型用于根据文本输出语音,所述第一模型与所述第二模型输出的语音的音色不同。
[0012]在一种可能的实现方式中,利用所述第一语料对第一模型进行训练,包括:
[0013]通过通用的语音合成服务将第一语料中的文稿转换为第一语音;
[0014]将第一语料中的文稿作为第一模型的输入,将转换得到的第一语音作为期望输出,对所述第一模型进行训练。
[0015]在一种可能的实现方式中,所述从语料库中获取第一数量的第一语料,包括:
[0016]按照汉语拼音语法对汉语拼音中的音素进行遍历组合,得到由组合成的拼音序列构成的集合;
[0017]基于所述集合,从语料库中筛选出第一数量的第一语料,所述第一语料中的拼音序列对所述集合中拼音序列的覆盖度高于覆盖度阈值。
[0018]在一种可能的实现方式中,所述第二模型应用于目标场景,在按照汉语拼音语法对汉语拼音中的音素进行遍历组合,得到由组合成的拼音序列构成的集合后,所述方法还包括:
[0019]获取目标场景下的文稿中出现频率高于设定频率阈值的目标场景词汇;
[0020]提高所述集合中目标场景词汇的拼音序列的优先级权重,或删除所述集合中目标场景词汇的拼音序列以外的词汇。
[0021]在一种可能的实现方式中,所述对所述第一模型的准确性进行打分,包括:
[0022]利用所述第一模型将第二语料的文字进行语音转换,得到第二语音;
[0023]通过语音识别模型对所述第二语音进行文字识别,得到文字识别结果;
[0024]确定文字识别结果相对于第二语料的文字的准确率,作为第二语料的分值。
[0025]在一种可能的实现方式中,基于分值符合低分条件的第二语料构建训练样本,包括:
[0026]按照第二语料分值从低到高的顺序,选择第三数量的第二语料,构建训练样本。
[0027]在一种可能的实现方式中,所述第一模型与所述第二模型的结构相同。
[0028]根据本公开的一方面,提供了一种文本训练集确定装置,包括:
[0029]第一训练模块,用于从语料库中获取第一数量的第一语料,并利用所述第一语料对第一模型进行训练;
[0030]打分模块,用于从所述语料库中随机获取第二数量的第二语料,对所述第一模型的准确性进行打分,得到各第二语料的分值;
[0031]第二训练模块,用于基于分值符合低分条件的第二语料构建训练样本,对所述第一模型进行再次训练;
[0032]迭代控制模块,用于迭代地执行随机获取第二语料至所述再次训练的过程,直至所述第一模型符合预设精度要求;
[0033]语料确定模块,用于在所述第一模型符合预设精度要求后,将训练所述第一模型所使用过的语料,作为训练第二模型时所使用的样本的录音文稿,其中,所述第一模型与所述第二模型用于根据文本输出语音,所述第一模型与所述第二模型输出的语音的音色不同。
[0034]在一种可能的实现方式中,第一训练模块,包括:
[0035]第一语音转换模块,用于通过通用的语音合成服务将第一语料中的文稿转换为第一语音;
[0036]第一训练子模块,用于将第一语料中的文稿作为第一模型的输入,将转换得到的第一语音作为期望输出,对所述第一模型进行训练。
[0037]在一种可能的实现方式中,所述第一训练模块,包括:
[0038]拼音构建模块,用于按照汉语拼音语法对汉语拼音中的音素进行遍历组合,得到由组合成的拼音序列构成的集合;
[0039]筛选模块,用于基于所述集合,从语料库中筛选出第一数量的第一语料,所述第一语料中的拼音序列对所述集合中拼音序列的覆盖度高于覆盖度阈值。
[0040]在一种可能的实现方式中,所述第二模型应用于目标场景,所述装置还包括:
[0041]词汇获取模块,用于获取目标场景下的文稿中出现频率高于设定频率阈值的目标场景词汇;
[0042]词汇调整模块,用于提高所述集合中目标场景词汇的拼音序列的优先级权重,或删除所述集合中目标场景词汇的拼音序列以外的词汇。
[0043]在一种可能的实现方式中,所述打分模块,包括:
[0044]第二语音转换模块,用于利用所述第一模型将第二语料的文字进行语音转换,得到第二语音;
[0045]文字识别模块,用于通过语音识别模型对所述第二语音进行文字识别,得到文字识别结果;
[0046]打分子模块,用于确定文字识别结果相对于第二语料的文字的准确率,作为第二语料的分值。
[0047]在一种可能的实现方式中,第二训练模块,包括:
[0048]训练样本构建模块,用于按照第二语料分值从低到高的顺序,选择第三数量的第二语料,构建训练样本。
[0049]在一种可能的实现方式中,所述第一模型与所述第二模型的结构相同。
[0050]根据本公开的一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本训练集确定方法,其特征在于,包括:从语料库中获取第一数量的第一语料,并利用所述第一语料对第一模型进行训练;从所述语料库中随机获取第二数量的第二语料,对所述第一模型的准确性进行打分,得到各第二语料的分值;基于分值符合低分条件的第二语料构建训练样本,对所述第一模型进行再次训练;迭代地执行随机获取第二语料至所述再次训练的过程,直至所述第一模型符合预设精度要求;在所述第一模型符合预设精度要求后,将训练所述第一模型所使用过的语料,作为训练第二模型时所使用的样本的录音文稿,其中,所述第一模型与所述第二模型用于根据文本输出语音,所述第一模型与所述第二模型输出的语音的音色不同。2.根据权利要求1所述的方法,其特征在于,利用所述第一语料对第一模型进行训练,包括:通过通用的语音合成服务将第一语料中的文稿转换为第一语音;将第一语料中的文稿作为第一模型的输入,将转换得到的第一语音作为期望输出,对所述第一模型进行训练。3.根据权利要求1所述的方法,其特征在于,所述从语料库中获取第一数量的第一语料,包括:按照汉语拼音语法对汉语拼音中的音素进行遍历组合,得到由组合成的拼音序列构成的集合;基于所述集合,从语料库中筛选出第一数量的第一语料,所述第一语料中的拼音序列对所述集合中拼音序列的覆盖度高于覆盖度阈值。4.根据权利要求3所述的方法,其特征在于,所述第二模型应用于目标场景,在按照汉语拼音语法对汉语拼音中的音素进行遍历组合,得到由组合成的拼音序列构成的集合后,所述方法还包括:获取目标场景下的文稿中出现频率高于设定频率阈值的目标场景词汇;提高所述集合中目标场景词汇的拼音序列的优先级权重,或删除所述集合中目标场景词汇的拼音序列以外的词汇。5.根据权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:摩尔线程智能科技北京有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1