用于生成模型的方法和装置制造方法及图纸

技术编号:21005444 阅读:19 留言:0更新日期:2019-04-30 21:52
本申请实施例公开了用于生成模型的方法和装置。该方法的一具体实施方式包括:获取训练样本集合,其中,训练样本包括音频的音频特征、音频的掩蔽阈值和音频指示的音节的类别,掩蔽阈值用于从音频中提取待提取音频;利用机器学习算法,将训练样本集合中的训练样本包括的音频特征作为输入,将与输入的音频特征对应的掩蔽阈值作为第一期望输出,将与输入的音频特征对应的类别作为第二期望输出,训练得到音频提取模型。该实施方式丰富了模型的训练方式,有助于提高语音端点识别的准确度。

【技术实现步骤摘要】
用于生成模型的方法和装置
本申请实施例涉及计算机
,具体涉及用于生成模型的方法和装置。
技术介绍
盲源分离(BlindSourceSeparation,BSS),又称为盲信号分离,是指在信号的理论模型和源信号无法精确获知的情况下,如何从混迭信号(观测信号)中分离出各源信号的过程。盲源分离和盲辨识是盲信号处理的两大类型。现有技术中,通常是提取每一帧的声学特征,利用神经网络来解决盲源分离问题。盲源分离可以将目标说话人的语音从一段多说话人同时说话的音频中提取出来;还可以将语音从背景噪声中分离出来。此外,用于解决盲源分离的技术方案可以广泛应用于智能音箱、智能电视、智能冰箱等人机会话场景中。
技术实现思路
本申请实施例提出了用于生成模型的方法和装置,以及用于提取音频的方法和装置,用于生成信息的方法和装置。第一方面,本申请实施例提供了一种用于生成模型的方法,该方法包括:获取训练样本集合,其中,训练样本包括音频的音频特征、音频的掩蔽阈值和音频指示的音节的类别,掩蔽阈值用于从音频中提取待提取音频;利用机器学习算法,将训练样本集合中的训练样本包括的音频特征作为输入,将与输入的音频特征对应的掩蔽阈值作为第一期望输出,将与输入的音频特征对应的类别作为第二期望输出,训练得到音频提取模型。在一些实施例中,音频的掩蔽阈值是通过如下步骤确定的:针对音频包括的至少一个子音频中的子音频,基于该子音频包括的待提取音频的功率和该子音频的功率,确定该子音频对应的掩蔽阈值;将所确定的掩蔽阈值的集合,确定为音频的掩蔽阈值。在一些实施例中,音频与音节一一对应;以及音频指示的音节是通过如下步骤确定的:确定音频对应的至少一个音素;将音频对应的至少一个音素中相邻的声母音素和韵母音素进行组合,得到音频指示的音节。在一些实施例中,利用机器学习算法,将训练样本集合中的训练样本包括的音频特征作为输入,将与输入的音频特征对应的掩蔽阈值作为第一期望输出,将与输入的音频特征对应的类别作为第二期望输出,训练得到音频提取模型,包括:获取预先确定的初始音频提取模型的模型结构信息和模型参数集合,其中,模型结构信息用于指示初始音频提取模型的模型结构,初始音频提取模型包括第一模型和第二模型,第一模型和第二模型包括共用的模型结构和模型参数,第一模型和第二模型具有相同的输入;利用机器学习算法,将训练样本集合中的训练样本包括的音频特征作为第一模型和第二模型的相同的输入,将与输入的音频特征对应的掩蔽阈值和类别分别作为第一模型和第二模型的期望输出,训练得到音频提取模型,其中,第一模型的期望输出为第一期望输出,第二模型的期望输出为第二期望输出。在一些实施例中,利用机器学习算法,将训练样本集合中的训练样本包括的音频特征作为第一模型和第二模型的相同的输入,将与输入的音频特征对应的掩蔽阈值和类别分别作为第一模型和第二模型的期望输出,训练得到音频提取模型,包括:从训练样本集合中选取训练样本,以及执行如下训练步骤:将选取的训练样本包括的音频特征输入至初始音频提取模型,得到实际输出,其中,实际输出是第二模型的输出,实际输出表征音频指示的音节的类别;基于实际输出,确定初始音频提取模型是否满足预先确定的结束条件;响应于确定满足结束条件,将满足结束条件的初始音频提取模型,确定为训练得到的音频提取模型。在一些实施例中,该方法还包括:响应于确定不满足结束条件,基于所得到的实际输出和与所得到的实际输出对应的第二期望输出,调整第一模型和第二模型共用的模型参数的参数值,以及从训练样本集合中选取未被选取过的训练样本,基于参数值调整后的初始音频提取模型,继续执行训练步骤。第二方面,本申请实施例提供了一种用于生成模型的装置,该装置包括:第一获取单元,被配置成获取训练样本集合,其中,训练样本包括音频的音频特征、音频的掩蔽阈值和音频指示的音节的类别,掩蔽阈值用于从音频中提取待提取音频;训练单元,被配置成利用机器学习算法,将训练样本集合中的训练样本包括的音频特征作为输入,将与输入的音频特征对应的掩蔽阈值作为第一期望输出,将与输入的音频特征对应的类别作为第二期望输出,训练得到音频提取模型。在一些实施例中,音频的掩蔽阈值是通过如下步骤确定的:针对音频包括的至少一个子音频中的子音频,基于该子音频包括的待提取音频的功率和该子音频的功率,确定该子音频对应的掩蔽阈值;将所确定的掩蔽阈值的集合,确定为音频的掩蔽阈值。在一些实施例中,音频与音节一一对应;以及音频指示的音节是通过如下步骤确定的:确定音频对应的至少一个音素;将音频对应的至少一个音素中相邻的声母音素和韵母音素进行组合,得到音频指示的音节。在一些实施例中,训练单元包括:获取模块,被配置成获取预先确定的初始音频提取模型的模型结构信息和模型参数集合,其中,模型结构信息用于指示初始音频提取模型的模型结构,初始音频提取模型包括第一模型和第二模型,第一模型和第二模型包括共用的模型结构和模型参数,第一模型和第二模型具有相同的输入;训练模块,被配置成利用机器学习算法,将训练样本集合中的训练样本包括的音频特征作为第一模型和第二模型的相同的输入,将与输入的音频特征对应的掩蔽阈值和类别分别作为第一模型和第二模型的期望输出,训练得到音频提取模型,其中,第一模型的期望输出为第一期望输出,第二模型的期望输出为第二期望输出。在一些实施例中,训练模块包括:训练子模块,被配置成从训练样本集合中选取训练样本,以及执行如下训练步骤:将选取的训练样本包括的音频特征输入至初始音频提取模型,得到实际输出,其中,实际输出是第二模型的输出,实际输出表征音频指示的音节的类别;基于实际输出,确定初始音频提取模型是否满足预先确定的结束条件;响应于确定满足结束条件,将满足结束条件的初始音频提取模型,确定为训练得到的音频提取模型。在一些实施例中,该装置还包括:调整单元,被配置成响应于确定不满足结束条件,基于所得到的实际输出和与所得到的实际输出对应的第二期望输出,调整第一模型和第二模型共用的模型参数的参数值,以及从训练样本集合中选取未被选取过的训练样本,基于参数值调整后的初始音频提取模型,继续执行训练步骤。第三方面,本申请实施例提供了一种用于提取音频的方法,该方法包括:获取目标音频的音频特征,其中,目标音频包括待提取音频;将音频特征输入至预先训练的音频提取模型,得到目标音频的掩蔽阈值,其中,音频提取模型是按照如上述用于生成模型的方法中任一实施例的方法训练得到的;基于掩蔽阈值,从目标音频中提取待提取音频。在一些实施例中,掩蔽阈值和目标音频的音频特征分别通过向量表征,或者,掩蔽阈值和目标音频的音频特征分别通过矩阵表征;以及基于掩蔽阈值,从目标音频中提取待提取音频,包括:确定掩蔽阈值与目标音频的音频特征的点积,将点积结果确定为从目标音频中提取的待提取音频。第四方面,本申请实施例提供了一种用于提取音频的装置,该装置包括:第二获取单元,被配置成获取目标音频的音频特征,其中,目标音频包括待提取音频;输入单元,被配置成将音频特征输入至预先训练的音频提取模型,得到目标音频的掩蔽阈值,其中,音频提取模型是按照如上述用于生成模型的方法中任一实施例的方法训练得到的;提取单元,被配置成基于掩蔽阈值,从目标音频中提取待提取音频。在一些实施例中,掩蔽阈值本文档来自技高网...

【技术保护点】
1.一种用于生成模型的方法,包括:获取训练样本集合,其中,训练样本包括音频的音频特征、音频的掩蔽阈值和音频指示的音节的类别,掩蔽阈值用于从音频中提取待提取音频;利用机器学习算法,将所述训练样本集合中的训练样本包括的音频特征作为输入,将与输入的音频特征对应的掩蔽阈值作为第一期望输出,将与输入的音频特征对应的类别作为第二期望输出,训练得到音频提取模型。

【技术特征摘要】
1.一种用于生成模型的方法,包括:获取训练样本集合,其中,训练样本包括音频的音频特征、音频的掩蔽阈值和音频指示的音节的类别,掩蔽阈值用于从音频中提取待提取音频;利用机器学习算法,将所述训练样本集合中的训练样本包括的音频特征作为输入,将与输入的音频特征对应的掩蔽阈值作为第一期望输出,将与输入的音频特征对应的类别作为第二期望输出,训练得到音频提取模型。2.根据权利要求1所述的方法,其中,音频的掩蔽阈值是通过如下步骤确定的:针对音频包括的至少一个子音频中的子音频,基于该子音频包括的待提取音频的功率和该子音频的功率,确定该子音频对应的掩蔽阈值;将所确定的掩蔽阈值的集合,确定为音频的掩蔽阈值。3.根据权利要求1所述的方法,其中,音频与音节一一对应;以及音频指示的音节是通过如下步骤确定的:确定音频对应的至少一个音素;将音频对应的至少一个音素中相邻的声母音素和韵母音素进行组合,得到音频指示的音节。4.根据权利要求1-3之一所述的方法,其中,所述利用机器学习算法,将所述训练样本集合中的训练样本包括的音频特征作为输入,将与输入的音频特征对应的掩蔽阈值作为第一期望输出,将与输入的音频特征对应的类别作为第二期望输出,训练得到音频提取模型,包括:获取预先确定的初始音频提取模型的模型结构信息和模型参数集合,其中,模型结构信息用于指示初始音频提取模型的模型结构,初始音频提取模型包括第一模型和第二模型,第一模型和第二模型包括共用的模型结构和模型参数,第一模型和第二模型具有相同的输入;利用机器学习算法,将所述训练样本集合中的训练样本包括的音频特征作为第一模型和第二模型的相同的输入,将与输入的音频特征对应的掩蔽阈值和类别分别作为第一模型和第二模型的期望输出,训练得到音频提取模型,其中,第一模型的期望输出为第一期望输出,第二模型的期望输出为第二期望输出。5.根据权利要求4所述的方法,其中,所述利用机器学习算法,将所述训练样本集合中的训练样本包括的音频特征作为第一模型和第二模型的相同的输入,将与输入的音频特征对应的掩蔽阈值和类别分别作为第一模型和第二模型的期望输出,训练得到音频提取模型,包括:从所述训练样本集合中选取训练样本,以及执行如下训练步骤:将选取的训练样本包括的音频特征输入至初始音频提取模型,得到实际输出,其中,实际输出是第二模型的输出,实际输出表征音频指示的音节的类别;基于实际输出,确定初始音频提取模型是否满足预先确定的结束条件;响应于确定满足所述结束条件,将满足所述结束条件的初始音频提取模型,确定为训练得到的音频提取模型。6.根据权利要求5所述的方法,其中,所述方法还包括:响应于确定不满足所述结束条件,基于所得到的实际输出和与所得到的实际输出对应的第二期望输出,调整第一模型和第二模型共用的模型参数的参数值,以及从所述训练样本集合中选取未被选取过的训练样本,基于参数值调整后的初始音频提取模型,继续执行所述训练步骤。7.一种用于提取音频的方法,包括:获取目标音频的音频特征,其中,所述目标音频包括待提取音频;将所述音频特征输入至预先训练的音频提取模型,得到所述目标音频的掩蔽阈值,其中,所述音频提取模型是按照如权利要求1-6之一所述的方法训练得到的;基于所述掩蔽阈值,从所述目标音频中提取待提取音频。8.根据权利要求7所述的方法,其中,所述掩蔽阈值和所述目标音频的音频特征分别通过向量表征,或者,所述掩蔽阈值和所述目标音频的音频特征分别通过矩阵表征;以及所述基于所述掩蔽阈值,从所述目标音频中提取待提取音频,包括:确定所述掩蔽阈值与所述目标音频的音频特征的点积,将点积结果确定为从所述目标音频中提取的待提取音频。9.一种用于生成信息的方法,包括:获取测试样本集合,其中,测试样本包括音频的音频特征和音频包括的待提取音频;针对所述测试样本集合中的测试样本,执行如下步骤:将该测试样本包括的音频特征输入至预先训练的音频提取模型,得到该测试样本包括的音频特征指示的音频的掩蔽阈值;基于所得到的掩蔽阈值,从该测试样本包括的音频特征指示的音频中提取待提取音频,其中,所述音频提取模型是按照如权利要求1-6之一所述的方法训练得到的;基于所提取的待提取音频和所述测试样本集合包括的待提取音频,生成用于表征所述音频提取模型的准确程度的信息。10.根据权利要求9所述的方法,其中,所述掩蔽阈值和所述目标音频的音频特征分别通过向量表征,或者,所述掩蔽阈值和所述目标音频的音频特征分别通过矩阵表征;以及所述基于所得到的掩蔽阈值,从该测试样本包括的音频特征指示的音频中提取待提取音频,包括:确定所得到的掩蔽阈值与所述目标音频的音频特征的点积,将点积结果确定为从该测试样本包括的音频特征指示的音频中提取的待提取音频。11.一种用于生成模型的装置,包括:第一获取单元,被配置成获取训练...

【专利技术属性】
技术研发人员:李超
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1