一种录音控制方法及装置制造方法及图纸

技术编号:19861396 阅读:25 留言:0更新日期:2018-12-22 12:35
本申请提供一种录音控制方法及装置,该方法包括:当检测到目标说话人的特定语音数据时,控制拾音设备开始录音;按照预设的采样规则对拾音设备录制的语音数据进行采样,得到采样数据;对采样数据进行特征提取,得到特征值;将特征值输入已训练的目标说话人模型,得到目标说话人模型的输出结果;若根据输出结果确定采样数据与目标说话人不匹配,则控制拾音设备停止录音。应用该方法,可以实现准确确定出目标说话人的语音结束点,从而有效保障拾音设备录制的语音仅包括目标说话人的讲话语音,继而提高后续基于拾音设备录制的语音进行语音识别的准确性,提升用户体验。

【技术实现步骤摘要】
一种录音控制方法及装置
本申请涉及数据处理
,尤其涉及一种录音控制方法及装置。
技术介绍
VAD(VoiceActivityDetection,语音活动检测)检测算法是一种语音端点检测技术,应用该技术可从带有噪声的语音中准确地定位出语音的起始点和结束点。基于此,在涉及到录音的应用场景中,可应用该技术实现自动控制拾音设备,例如麦克风、可穿戴设备、智能电视、智能音箱等在目标说话人讲话时进行录音。然而,在实际应用中,不可避免地会出现目标说话人已停止讲话,但周围突然有其他人开始讲话的情形,在此类情形下,应用语音端点检测技术将无法检测到语音的结束点,这也就导致拾音设备在目标说话人已停止讲话后仍在继续录音,从而导致拾音设备录入了非期望的语音,进一步影响后续基于录制的语音进行语音识别结果的准确性,影响用户体验。
技术实现思路
有鉴于此,本申请提供一种录音控制方法及装置,以实现准确确定出目标说话人的语音结束点,从而有效保障拾音设备录制的语音仅包括目标说话人的讲话语音,继而提高后续基于拾音设备录制的语音进行语音识别的准确性,提升用户体验。具体地,本申请是通过如下技术方案实现的:根据本说明书实施例的第一方面,提供一种录音控制方法,所述方法包括:基于目标说话人的特定语音数据控制拾音设备开始录音;按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据;对所述采样数据进行特征提取,得到所述采样数据的特征值;将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,其中,所述已训练的目标说话人模型以语音数据的特征值为输入值,以所述语音数据与所述目标说话人的匹配程度为输出值;若根据所述输出结果确定所述采样数据与所述目标说话人不匹配,则控制所述拾音设备停止录音。可选的,所述方法还包括:获取至少一条历史语音数据;对获取到的历史语音数据进行聚类,得到至少一个类,其中,任一所述类中包括至少一条历史语音数据;针对任一所述类执行以下步骤:分别对所述类中的每一条历史语音数据进行特征提取,获得所述类对应的训练样本,其中,所述训练样本以提取到的特征值为输入值;利用所述训练样本进行训练,得到所述类对应的说话人模型,其中,所述说话人模型以语音数据的特征值为输入值,以所述语音数据与所述类对应的说话人的匹配程度为输出值。可选的,所述将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,包括:确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型;若存在,则将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果。可选的,所述确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型,包括:对所述特定语音数据进行特征提取,得到所述特定语音数据的特征值;针对已训练的至少一个说话人模型中的任一说话人模型,按照预设的运算规则对所述说话人模型与所述特定语音数据的特征值进行运算;若存在运算结果大于预设的匹配阈值的说话人模型,则在所述运算结果大于预设的匹配阈值的说话人模型中,将运算结果最高的说话人模型确定为目标说话人模型;若不存在运算结果大于预设的匹配阈值的说话人模型,则确定不存在所述目标说话人对应的目标说话人模型。可选的,所述方法还包括:若已训练的至少一个说话人模型中,不存在所述目标说话人对应的目标说话人模型,则将所述采样数据的特征值与前一个采样数据的特征值进行相关性计算,得到所述采样数据与所述前一个采样数据的相关性系数;若所述相关性系数小于预设的相关性阈值,则控制所述拾音设备停止录音。可选的,所述方法还包括:若根据所述输出结果确定所述采样数据与所述目标说话人匹配,则返回执行所述按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据的步骤。根据本说明书实施例的第二方面,提供一种录音控制装置,所述装置包括:第一控制模块,用于基于目标说话人的特定语音数据控制拾音设备开始录音;采样模块,用于按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据;第一提取模块,用于对所述采样数据进行特征提取,得到所述采样数据的特征值;模型输入模块,用于将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,其中,所述已训练的目标说话人模型以语音数据的特征值为输入值,以所述语音数据与所述目标说话人的匹配程度为输出值;第二控制模块,用于若根据所述输出结果确定所述采样数据与所述目标说话人不匹配,则控制所述拾音设备停止录音。可选的,所述装置还包括:样本获取模块,用于获取至少一条历史语音数据;聚类模块,用于对获取到的历史语音数据进行聚类,得到至少一个类,其中,任一所述类中包括至少一条历史语音数据;第二提取模块,用于针对任一所述类执行以下步骤:分别对所述类中的每一条历史语音数据进行特征提取,获得所述类对应的训练样本,其中,所述训练样本以提取到的特征值为输入值;训练模块,用于利用所述训练样本进行训练,得到所述类对应的说话人模型,其中,所述说话人模型以语音数据的特征值为输入值,以所述语音数据与所述类对应的说话人的匹配程度为输出值。可选的,所述模型输入模块包括:第一确定子模块,用于确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型;输入子模块,用于若存在所述目标说话人对应的目标说话人模型,则将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果。可选的,所述第一确定子模块包括:特征提取子模块,用于对所述特定语音数据进行特征提取,得到所述特定语音数据的特征值;运算子模块,用于针对已训练的至少一个说话人模型中的任一说话人模型,按照预设的运算规则对所述说话人模型与所述特定语音数据的特征值进行运算;第二确定子模块,用于若存在运算结果大于预设的匹配阈值的说话人模型,则在所述运算结果大于预设的匹配阈值的说话人模型中,将运算结果最高的说话人模型确定为目标说话人模型;第三确定子模块,用于若不存在运算结果大于预设的匹配阈值的说话人模型,则确定不存在所述目标说话人对应的目标说话人模型。可选的,所述装置还包括:相关性计算模块,用于若已训练的至少一个说话人模型中,不存在所述目标说话人对应的目标说话人模型,则将所述采样数据的特征值与前一个采样数据的特征值进行相关性计算,得到所述采样数据与所述前一个采样数据的相关性系数;第三控制模块,用于若所述相关性系数小于预设的相关性阈值,则控制所述拾音设备停止录音。可选的,所述装置还包括:第四控制模块,用于若根据所述输出结果确定所述采样数据与所述目标说话人匹配,则返回执行所述按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据的步骤。由上述实施例可见,基于标说话人的特定语音数据控制拾音设备开始录音;按照预设的采样规则对拾音设备录制的语音数据进行采样,得到采样数据;对采样数据进行特征提取,得到采样数据的特征值;将采样数据的特征值输入已训练的目标说话人模型,得到目标说话人模型的输出结果;若根据输出结果确定采样数据与目标说话人不匹配,则控制拾音设备停止录音,可以实现准确确定出目标说话人的语音结束点,从而有效保障拾音设备录制的语音仅包本文档来自技高网...

【技术保护点】
1.一种录音控制方法,其特征在于,所述方法包括:基于目标说话人的特定语音数据控制拾音设备开始录音;按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据;对所述采样数据进行特征提取,得到所述采样数据的特征值;将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,其中,所述已训练的目标说话人模型以语音数据的特征值为输入值,以所述语音数据与所述目标说话人的匹配程度为输出值;若根据所述输出结果确定所述采样数据与所述目标说话人不匹配,则控制所述拾音设备停止录音。

【技术特征摘要】
1.一种录音控制方法,其特征在于,所述方法包括:基于目标说话人的特定语音数据控制拾音设备开始录音;按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据;对所述采样数据进行特征提取,得到所述采样数据的特征值;将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,其中,所述已训练的目标说话人模型以语音数据的特征值为输入值,以所述语音数据与所述目标说话人的匹配程度为输出值;若根据所述输出结果确定所述采样数据与所述目标说话人不匹配,则控制所述拾音设备停止录音。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取至少一条历史语音数据;对获取到的历史语音数据进行聚类,得到至少一个类,其中,任一所述类中包括至少一条历史语音数据;针对任一所述类执行以下步骤:分别对所述类中的每一条历史语音数据进行特征提取,获得所述类对应的训练样本,其中,所述训练样本以提取到的特征值为输入值;利用所述训练样本进行训练,得到所述类对应的说话人模型,其中,所述说话人模型以语音数据的特征值为输入值,以所述语音数据与所述类对应的说话人的匹配程度为输出值。3.根据权利要求2所述的方法,其特征在于,所述将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果,包括:确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型;若存在,则将所述采样数据的特征值输入已训练的目标说话人模型,得到所述目标说话人模型的输出结果。4.根据权利要求3所述的方法,其特征在于,所述确定已训练的至少一个说话人模型中,是否存在所述目标说话人对应的目标说话人模型,包括:对所述特定语音数据进行特征提取,得到所述特定语音数据的特征值;针对已训练的至少一个说话人模型中的任一说话人模型,按照预设的运算规则对所述说话人模型与所述特定语音数据的特征值进行运算;若存在运算结果大于预设的匹配阈值的说话人模型,则在所述运算结果大于预设的匹配阈值的说话人模型中,将运算结果最高的说话人模型确定为目标说话人模型;若不存在运算结果大于预设的匹配阈值的说话人模型,则确定不存在所述目标说话人对应的目标说话人模型。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:若已训练的至少一个说话人模型中,不存在所述目标说话人对应的目标说话人模型,则将所述采样数据的特征值与前一个采样数据的特征值进行相关性计算,得到所述采样数据与所述前一个采样数据的相关性系数;若所述相关性系数小于预设的相关性阈值,则控制所述拾音设备停止录音。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:若根据所述输出结果确定所述采样数据与所述目标说话人匹配,则返回执行所述按照预设的采样规则对所述拾音设备录制的语音数据进行采样,得到采样数据的步骤。7.一种录音控制装置,其特征在于,所述装置包括:第一控制模块,用于基于目标说话人的特定语音数据控制拾音设备开始录...

【专利技术属性】
技术研发人员:任晓楠崔保磊陈中帅
申请(专利权)人:海信集团有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1