用于生成模型的方法和装置制造方法及图纸

技术编号:20727828 阅读:16 留言:0更新日期:2019-03-30 18:29
本申请实施例公开了用于生成模型的方法和装置,以及用于生成信息的方法和装置。该用于生成模型的方法的一具体实施方式包括:获取针对目标音频集合的训练样本集合,其中,目标音频集合包括对初始音频执行截断处理得到的音频,训练样本与目标音频一一对应,训练样本集合中的训练样本包括目标音频集合中的目标音频的特征数据和标识信息,标识信息用于指示目标音频包括的音频帧中是否包括语音音频,初始音频包括语音音频;利用机器学习算法,将训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型。该实施方式丰富了模型的训练方式,有助于提高语音端点检测的准确度。

【技术实现步骤摘要】
用于生成模型的方法和装置
本申请实施例涉及计算机
,具体涉及用于生成模型的方法和装置。
技术介绍
语音交互中很重要的一点是能够在音频中,判断语音的起点和终点在音频中的位置。现有技术中,通常采用语音活动检测(VoiceActivityDetection,VAD)来进行语音的端点检测。语音活动检测,又称语音端点检测、语音边界检测,是指在噪声环境中检测语音的存在与否。通常,语音活动检测可以用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。现有的语音活动检测模型的训练样本通常是基于质量较高的音频得到的。
技术实现思路
本申请实施例提出了用于生成模型的方法和装置,以及用于生成信息的方法和装置。第一方面,本申请实施例提供了一种用于生成模型的方法,该方法包括:获取针对目标音频集合的训练样本集合,其中,目标音频集合包括对初始音频执行截断处理得到的音频,训练样本集合中的训练样本与目标音频集合中的目标音频一一对应,训练样本集合中的训练样本包括目标音频集合中的目标音频的特征数据和标识信息,标识信息用于指示目标音频包括的音频帧中是否包括语音音频,初始音频包括语音音频;利用机器学习算法,将训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型。在一些实施例中,目标音频集合包括对初始音频执行如下处理得到的目标音频:对初始音频进行截断处理,得到子音频序列;删除子音频序列中的至少一个子音频;将删除后保留的子音频的组合,确定为目标音频。在一些实施例中,删除子音频序列中的至少一个子音频,包括:删除子音频序列中的前第一数量个子音频,其中,第一数量小于子音频序列包括的子音频的数量。在一些实施例中,删除子音频序列中的至少一个子音频,包括:删除子音频序列中的后第二数量个子音频,其中,第二数量小于子音频序列包括的子音频的数量。在一些实施例中,目标音频集合是通过针对初始音频集合中的初始音频,执行如下步骤得到的:随机生成第一随机数和第二随机数,其中,第一随机数和第二随机数均为0到1之间的数;响应于确定第一随机数小于预先确定的第一预定数值,对该初始音频包括的前第三数量个子音频执行截断及删除处理,将删除后保留的至少一个子音频的组合,确定为目标音频,其中,第三数量小于初始音频包括的子音频的数量的一半,第一预定数值用于表征预先确定的音频集合中的、第一帧音频帧包括语音音频的音频的数量与预先确定的音频集合中音频的数量的比值;响应于确定第二随机数小于预先确定的第二预定数值,对该初始音频包括的后第四数量个子音频执行截断及删除处理,将删除后保留的至少一个子音频的组合,确定为目标音频,其中,第四数量小于初始音频包括的子音频的数量的一半,第二预定数值用于表征预先确定的音频集合中的、最后一帧音频帧包括语音音频的音频的数量与预先确定的音频集合中音频的数量的比值。在一些实施例中,利用机器学习算法,将训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型,包括:从训练样本集合中选取训练样本,以及执行如下训练步骤:将选取的训练样本包括的特征数据输入至初始语音识别模型,得到实际输出,其中,实际输出是初始语音识别模型的输出;基于实际输出,确定初始语音识别模型是否满足预先确定的结束条件;响应于确定满足结束条件,将满足结束条件的初始语音识别模型,确定为训练得到的语音识别模型。在一些实施例中,该方法还包括:响应于确定不满足结束条件,基于所得到的实际输出和与所得到的实际输出对应的期望输出,调整初始语音识别模型的模型参数的参数值,以及从训练样本集合中选取未被选取过的训练样本,基于参数值调整后的初始语音识别模型,继续执行训练步骤。在一些实施例中,初始语音识别模型包括的输出层的激活函数为归一化指数函数,初始语音识别模型包括的输出层的代价函数为交叉熵代价函数。在一些实施例中,语音识别模型为具有门控循环单元的循环神经网络模型。第二方面,本申请实施例提供了一种用于生成模型的装置,该装置包括:第一获取单元,被配置成获取针对目标音频集合的训练样本集合,其中,目标音频集合包括对初始音频执行截断处理得到的音频,训练样本集合中的训练样本与目标音频集合中的目标音频一一对应,训练样本集合中的训练样本包括目标音频集合中的目标音频的特征数据和标识信息,标识信息用于指示目标音频包括的音频帧中是否包括语音音频,初始音频包括语音音频;训练单元,被配置成利用机器学习算法,将训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型。在一些实施例中,目标音频集合包括对初始音频执行如下处理得到的目标音频:对初始音频进行截断处理,得到子音频序列;删除子音频序列中的至少一个子音频;将删除后保留的子音频的组合,确定为目标音频。在一些实施例中,删除子音频序列中的至少一个子音频,包括:删除子音频序列中的前第一数量个子音频,其中,第一数量小于子音频序列包括的子音频的数量。在一些实施例中,删除子音频序列中的至少一个子音频,包括:删除子音频序列中的后第二数量个子音频,其中,第二数量小于子音频序列包括的子音频的数量。在一些实施例中,目标音频集合是通过针对初始音频集合中的初始音频,执行如下步骤得到的:随机生成第一随机数和第二随机数,其中,第一随机数和第二随机数均为0到1之间的数;响应于确定第一随机数小于预先确定的第一预定数值,对该初始音频包括的前第三数量个子音频执行截断及删除处理,将删除后保留的至少一个子音频的组合,确定为目标音频,其中,第三数量小于初始音频包括的子音频的数量的一半,第一预定数值用于表征预先确定的音频集合中的、第一帧音频帧包括语音音频的音频的数量与预先确定的音频集合中音频的数量的比值;响应于确定第二随机数小于预先确定的第二预定数值,对该初始音频包括的后第四数量个子音频执行截断及删除处理,将删除后保留的至少一个子音频的组合,确定为目标音频,其中,第四数量小于初始音频包括的子音频的数量的一半,第二预定数值用于表征预先确定的音频集合中的、最后一帧音频帧包括语音音频的音频的数量与预先确定的音频集合中音频的数量的比值。在一些实施例中,训练单元包括:训练模块,被配置成从训练样本集合中选取训练样本,以及执行如下训练步骤:将选取的训练样本包括的特征数据输入至初始语音识别模型,得到实际输出,其中,实际输出是初始语音识别模型的输出;基于实际输出,确定初始语音识别模型是否满足预先确定的结束条件;响应于确定满足结束条件,将满足结束条件的初始语音识别模型,确定为训练得到的语音识别模型。在一些实施例中,该装置还包括:调整单元,被配置成响应于确定不满足结束条件,基于所得到的实际输出和与所得到的实际输出对应的期望输出,调整初始语音识别模型的模型参数的参数值,以及从训练样本集合中选取未被选取过的训练样本,基于参数值调整后的初始语音识别模型,继续执行训练步骤。在一些实施例中,初始语音识别模型包括的输出层的激活函数为归一化指数函数,初始语音识别模型包括的输出层的代价函数为交叉熵代价函数。在一些实施例中,语音识别模型为具有门控循本文档来自技高网...

【技术保护点】
1.一种用于生成模型的方法,包括:获取针对目标音频集合的训练样本集合,其中,所述目标音频集合包括对初始音频执行截断处理得到的音频,所述训练样本集合中的训练样本与所述目标音频集合中的目标音频一一对应,所述训练样本集合中的训练样本包括所述目标音频集合中的目标音频的特征数据和标识信息,标识信息用于指示目标音频包括的音频帧中是否包括语音音频,初始音频包括语音音频;利用机器学习算法,将所述训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型。

【技术特征摘要】
1.一种用于生成模型的方法,包括:获取针对目标音频集合的训练样本集合,其中,所述目标音频集合包括对初始音频执行截断处理得到的音频,所述训练样本集合中的训练样本与所述目标音频集合中的目标音频一一对应,所述训练样本集合中的训练样本包括所述目标音频集合中的目标音频的特征数据和标识信息,标识信息用于指示目标音频包括的音频帧中是否包括语音音频,初始音频包括语音音频;利用机器学习算法,将所述训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型。2.根据权利要求1所述的方法,其中,所述目标音频集合包括对初始音频执行如下处理得到的目标音频:对初始音频进行截断处理,得到子音频序列;删除所述子音频序列中的至少一个子音频;将删除后保留的子音频的组合,确定为目标音频。3.根据权利要求2所述的方法,其中,所述删除所述子音频序列中的至少一个子音频,包括:删除所述子音频序列中的前第一数量个子音频,其中,所述第一数量小于所述子音频序列包括的子音频的数量。4.根据权利要求2所述的方法,其中,所述删除所述子音频序列中的至少一个子音频,包括:删除所述子音频序列中的后第二数量个子音频,其中,所述第二数量小于所述子音频序列包括的子音频的数量。5.根据权利要求1所述的方法,其中,所述目标音频集合是通过针对初始音频集合中的初始音频,执行如下步骤得到的:随机生成第一随机数和第二随机数,其中,所述第一随机数和所述第二随机数均为0到1之间的数;响应于确定所述第一随机数小于预先确定的第一预定数值,对该初始音频包括的前第三数量个子音频执行截断及删除处理,将删除后保留的至少一个子音频的组合,确定为目标音频,其中,所述第三数量小于初始音频包括的子音频的数量的一半,所述第一预定数值用于表征预先确定的音频集合中的、第一帧音频帧包括语音音频的音频的数量与所述预先确定的音频集合中音频的数量的比值;响应于确定所述第二随机数小于预先确定的第二预定数值,对该初始音频包括的后第四数量个子音频执行截断及删除处理,将删除后保留的至少一个子音频的组合,确定为目标音频,其中,所述第四数量小于初始音频包括的子音频的数量的一半,所述第二预定数值用于表征预先确定的音频集合中的、最后一帧音频帧包括语音音频的音频的数量与所述预先确定的音频集合中音频的数量的比值。6.根据权利要求1所述的方法,其中,所述利用机器学习算法,将所述训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型,包括:从所述训练样本集合中选取训练样本,以及执行如下训练步骤:将选取的训练样本包括的特征数据输入至初始语音识别模型,得到实际输出,其中,实际输出是初始语音识别模型的输出;基于实际输出,确定初始语音识别模型是否满足预先确定的结束条件;响应于确定满足所述结束条件,将满足所述结束条件的初始语音识别模型,确定为训练得到的语音识别模型。7.根据权利要求6所述的方法,其中,所述方法还包括:响应于确定不满足所述结束条件,基于所得到的实际输出和与所得到的实际输出对应的期望输出,调整初始语音识别模型的模型参数的参数值,以及从所述训练样本集合中选取未被选取过的训练样本,基于参数值调整后的初始语音识别模型,继续执行所述训练步骤。8.根据权利要求6或7所述的方法,其中,初始语音识别模型包括的输出层的激活函数为归一化指数函数,初始语音识别模型包括的输出层的代价函数为交叉熵代价函数。9.根据权利要求1-8之一所述的方法,其中,所述语音识别模型为具有门控循环单元的循环神经网络模型。10.一种用于生成信息的方法,包括:获取目标音频,其中,所述目标音频包括语音音频;针对所述目标音频包括的音频帧,将该音频帧输入至预先训练的语音识别模型,得到该音频帧包括语音音频的概率,其中,所述语音识别模型是按照如权利要求1-9之一所述的方法训练得到的;基于所得到的概率和预先确定的概率阈值的大小关系,生成所述目标音频的语音端点检测结果。11.根据权利要求10所述的方法,其中,所述预先确定的阈值包括预先确定的第一阈值和预先确定的第二阈值,所述第一阈值大于所述第二阈值,所述语音端点检测结果包括所述目标音频包括的语音音频在所述目标音频中的起点的位置信息和终点的位置信息;以及所述基于所得到的概率和预先确定的阈值的大小关系,生成所述目标音频的语音端点检测结果,包括:基于所得到的概率和预先确定的第一阈值的大小关系,生成所述目标音频包括的语音音频在所述目标音频中的起点的位置信息;基于所得到的概率和预先确定的第二阈值的大小关系,生成所述目标音频包括的语音音频在所述目标音频中的终点的位置信息。12.一种用于生成模型的装置,包括:第一获取单元,被配置成获取针对目标音频集合的训练样本集合,其中,所述目标音频集合包括对初始音频执行截断处理得到的音频,所述训练...

【专利技术属性】
技术研发人员:李超
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1