用于生成模型的方法和装置制造方法及图纸

技术编号:20921872 阅读:39 留言:0更新日期:2019-04-20 10:49
本申请实施例公开了用于生成模型的方法和装置,以及用于检测语音的方法和装置。该用于生成模型的方法的一具体实施方式包括:获取针对处理后音频集合的训练样本集合,其中,处理后音频集合包括对处理前音频执行音质劣化处理得到的音频,训练样本与处理后音频一一对应,训练样本包括处理后音频的特征数据和标识信息,标识信息用于指示处理后音频中是否包括语音音频;利用机器学习算法,将训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型。该实施方式丰富了模型的训练方式,有助于提高语音端点识别的准确度。

Methods and devices for generating models

The embodiment of this application discloses a method and device for generating a model, and a method and device for detecting voice. One specific embodiment of the method for generating the model includes acquiring a set of training samples for the processed audio set, in which the processed audio set includes the audio obtained by performing a sound quality degradation process on the pre-processed audio. The training samples correspond to the processed audio one by one. The training samples include the characteristic data and identification information of the processed audio, and the identification information is used to refer to the processed audio. It shows whether the audio after processing includes voice audio. Using machine learning algorithm, the feature data included in the training sample set is used as input, and the identification information corresponding to the input feature data is used as expected output to train the speech recognition model. The implementation enriches the training mode of the model and helps to improve the accuracy of speech endpoint recognition.

【技术实现步骤摘要】
用于生成模型的方法和装置
本申请实施例涉及计算机
,具体涉及用于生成模型的方法和装置。
技术介绍
语音交互中很重要的一点是能够在音频中,判断语音的起点和终点在音频中的位置。现有技术中,通常采用语音活动检测(VoiceActivityDetection,VAD)来进行语音的端点检测。语音活动检测,又称语音端点检测、语音边界检测,是指在噪声环境中检测语音的存在与否。通常,语音活动检测可以用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。
技术实现思路
本申请实施例提出了用于生成模型的方法和装置,以及用于检测语音的方法和装置。第一方面,本申请实施例提供了一种用于生成模型的方法,该方法包括:获取针对处理后音频集合的训练样本集合,其中,处理后音频集合包括对处理前音频执行音质劣化处理得到的音频,训练样本与处理后音频一一对应,训练样本包括处理后音频的特征数据和标识信息,标识信息用于指示处理后音频中是否包括语音音频;利用机器学习算法,将训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型。在一些实施例中,音质劣化处理包括丢帧处理,处理后音频集合包括丢帧音频,丢帧音频是通过针对处理前音频集合中的处理前音频,执行如下处理得到的:对处理前音频进行丢帧处理,得到丢帧音频作为处理后音频。在一些实施例中,音质劣化处理包括置零处理,处理后音频集合包括置零音频,置零处理为将处理前音频的属性的属性值设置为零的处理,置零音频是通过针对处理前音频集合中的处理前音频执行如下处理得到的:对处理前音频进行置零处理,得到置零音频作为处理后音频。在一些实施例中,处理后音频集合包括丢帧音频和置零音频,处理后音频集合包括的丢帧音频的数量与处理后音频集合中的处理后音频的数量之比为预先确定的第一数值,处理后音频集合包括的置零音频的数量与处理后音频集合中的处理后音频的数量之比为预先确定的第二数值,其中,第一数值是音频集合中丢帧音频的数量与音频集合中音频的数量的比值,第二数值是音频集合中置零音频的数量与音频集合中音频的数量的比值。在一些实施例中,处理后音频集合包括丢帧音频和置零音频,处理后音频集合是通过针对处理前音频集合中的处理前音频,执行如下处理步骤得到的:随机生成第一随机数和第二随机数,其中,第一随机数和第二随机数均为0到1之间的数;响应于确定第一随机数大于等于预先确定的第一数值,并且,第二随机数小于预先确定的第二数值,将该处理前音频的属性的属性值设置为零,其中,第一数值用于表征音频中出现丢帧音频的概率,第二数值用于表征音频中出现置零音频的概率;响应于确定第一随机数小于第一数值,并且,第二随机数大于等于第二数值,对该处理前音频进行丢帧处理。在一些实施例中,上述属性为幅值。在一些实施例中,语音识别模型为具有门控循环单元的循环神经网络模型。第二方面,本申请实施例提供了一种用于生成模型的装置,该装置包括:第一获取单元,被配置成获取针对处理后音频集合的训练样本集合,其中,处理后音频集合包括对处理前音频执行音质劣化处理得到的音频,训练样本与处理后音频一一对应,训练样本包括处理后音频的特征数据和标识信息,标识信息用于指示处理后音频中是否包括语音音频;训练单元,被配置成利用机器学习算法,将训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型。在一些实施例中,音质劣化处理包括丢帧处理,处理后音频集合包括丢帧音频,丢帧音频是通过针对处理前音频集合中的处理前音频,执行如下处理得到的:对处理前音频进行丢帧处理,得到丢帧音频作为处理后音频。在一些实施例中,音质劣化处理包括置零处理,处理后音频集合包括置零音频,置零处理为将处理前音频的属性的属性值设置为零的处理,置零音频是通过针对处理前音频集合中的处理前音频执行如下处理得到的:对处理前音频进行置零处理,得到置零音频作为处理后音频。在一些实施例中,处理后音频集合包括丢帧音频和置零音频,处理后音频集合包括的丢帧音频的数量与处理后音频集合中的处理后音频的数量之比为预先确定的第一数值,处理后音频集合包括的置零音频的数量与处理后音频集合中的处理后音频的数量之比为预先确定的第二数值,其中,第一数值是音频集合中丢帧音频的数量与音频集合中音频的数量的比值,第二数值是音频集合中置零音频的数量与音频集合中音频的数量的比值。在一些实施例中,处理后音频集合包括丢帧音频和置零音频,处理后音频集合是通过针对处理前音频集合中的处理前音频,执行如下处理步骤得到的:随机生成第一随机数和第二随机数,其中,第一随机数和第二随机数均为0到1之间的数;响应于确定第一随机数大于等于预先确定的第一数值,并且,第二随机数小于预先确定的第二数值,将该处理前音频的属性的属性值设置为零,其中,第一数值用于表征音频中出现丢帧音频的概率,第二数值用于表征音频中出现置零音频的概率;响应于确定第一随机数小于第一数值,并且,第二随机数大于等于第二数值,对该处理前音频进行丢帧处理。在一些实施例中,上述属性为幅值。在一些实施例中,语音识别模型为具有门控循环单元的循环神经网络模型。第三方面,本申请实施例提供了一种用于检测语音的方法,该方法包括:获取目标音频,其中,目标音频包括语音音频;针对目标音频包括的至少一个音频帧中的音频帧,将该音频帧的特征数据输入至预先训练的语音识别模型,得到标识信息,其中,语音识别模型是如上述用于生成模型的方法中任一实施例的方法训练得到的;基于所得到的标识信息集合,生成目标音频的语音端点检测结果。第四方面,本申请实施例提供了一种用于生成模型的装置,该装置包括:第二获取单元,被配置成获取目标音频,其中,目标音频包括语音音频;输入单元,被配置成针对目标音频包括的至少一个音频帧中的音频帧,将该音频帧的特征数据输入至预先训练的语音识别模型,得到标识信息,其中,语音识别模型是如上述用于生成模型的方法中任一实施例的方法训练得到的;生成单元,被配置成基于所得到的标识信息集合,生成目标音频的语音端点检测结果。第五方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得该一个或多个处理器实现如上述用于生成模型的方法中任一实施例的方法,或者,使得该一个或多个处理器实现如上述用于生成信息的方法中任一实施例的方法。第六方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述用于生成模型的方法中任一实施例的方法,或者,该程序被处理器执行时实现如上述用于生成信息的方法中任一实施例的方法。本申请实施例提供的用于生成模型的方法和装置,通过获取针对处理后音频集合的训练样本集合,其中,处理后音频集合包括对处理前音频执行音质劣化处理得到的音频,训练样本与处理后音频一一对应,训练样本包括处理后音频的特征数据和标识信息,标识信息用于指示处理后音频中是否包括语音音频,然后,利用机器学习算法,将训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得本文档来自技高网...

【技术保护点】
1.一种用于生成模型的方法,包括:获取针对处理后音频集合的训练样本集合,其中,所述处理后音频集合包括对处理前音频执行音质劣化处理得到的音频,训练样本与处理后音频一一对应,训练样本包括处理后音频的特征数据和标识信息,标识信息用于指示处理后音频中是否包括语音音频;利用机器学习算法,将所述训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型。

【技术特征摘要】
1.一种用于生成模型的方法,包括:获取针对处理后音频集合的训练样本集合,其中,所述处理后音频集合包括对处理前音频执行音质劣化处理得到的音频,训练样本与处理后音频一一对应,训练样本包括处理后音频的特征数据和标识信息,标识信息用于指示处理后音频中是否包括语音音频;利用机器学习算法,将所述训练样本集合中的训练样本包括的特征数据作为输入,将与输入的特征数据对应的标识信息作为期望输出,训练得到语音识别模型。2.根据权利要求1所述的方法,其中,所述音质劣化处理包括丢帧处理,所述处理后音频集合包括丢帧音频,丢帧音频是通过针对处理前音频集合中的处理前音频,执行如下处理得到的:对处理前音频进行丢帧处理,得到丢帧音频作为处理后音频。3.根据权利要求1所述的方法,其中,所述音质劣化处理包括置零处理,所述处理后音频集合包括置零音频,置零处理为将处理前音频的属性的属性值设置为零的处理,置零音频是通过针对处理前音频集合中的处理前音频执行如下处理得到的:对处理前音频进行置零处理,得到置零音频作为处理后音频。4.根据权利要求1所述的方法,其中,所述处理后音频集合包括丢帧音频和置零音频,所述处理后音频集合包括的丢帧音频的数量与所述处理后音频集合中的处理后音频的数量之比为预先确定的第一数值,所述处理后音频集合包括的置零音频的数量与所述处理后音频集合中的处理后音频的数量之比为预先确定的第二数值,其中,所述第一数值是音频集合中丢帧音频的数量与音频集合中音频的数量的比值,所述第二数值是音频集合中置零音频的数量与音频集合中音频的数量的比值。5.根据权利要求1所述的方法,其中,所述处理后音频集合包括丢帧音频和置零音频,所述处理后音频集合是通过针对处理前音频集合中的处理前音频,执行如下处理步骤得到的:随机生成第一随机数和第二随机数,其中,所述第一随机数和所述第二随机数均为0到1之间的数;响应于确定第一随机数大于等于预先确定的第一数值,并且,第二随机数小于预先确定的第二数值,将该处理前音频的所述属性的属性值设置为零,其中,所述第一数值用于表征音频中出现丢帧音频的概率,所述第二数值用于表征音频中出现置零音频的概率;响应于确定第一随机数小于所述第一数值,并且,第二随机数大于等于所述第二数值,对该处理前音频进行丢帧处理。6.根据权利要求2所述的方法,其中,所述属性为幅值。7.根据权利要求1-6之一所述的方法,其中,所述语音识别模型为具有门控循环单元的循环神经网络模型。8.一种用于检测语音的方法,包括:获取目标音频,其中,所述目标音频包括语音音频;针对所述目标音频包括的至少一个音频帧中的音频帧,将该音频帧的特征数据输入至预先训练的语音识别模型,得到标识信息,其中,所述语音识别模型是按照如权利要求1-7之一所述的方法训练得到的;基于所得到的标识信息集合,生成所述目标音频的语音端点检测结果。9.一种用于生成模型的装置,包括:第一获取单元,被配置成获取针对处理后音频集合的训练样本集合,其中,所述处理后音频集合包括对处理前音频执行音质劣化处理得到的音频,训练样本与处理后音频一一对应,训练样本包括处理后...

【专利技术属性】
技术研发人员:李超
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1