一种目标账户音频的识别方法、装置、设备及介质制造方法及图纸

技术编号:26532827 阅读:27 留言:0更新日期:2020-12-01 14:17
本公开关于一种目标账户音频的识别方法、装置、设备及介质,用以识别目标账户的音频,提高语音内容识别的准确性,同时保护账户隐私。本公开的目标账户音频的识别方法,包括:获取待识别音频;利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数,其中,所述语音检测模型是基于预先采集的非目标账户的语音音频、非人类语音音频、目标账户的语音音频、以及预先配置的加权损失函数训练生成的,所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度;在确定所述待识别音频的评价参数大于或等于第一预设阈值时,确定所述待识别音频为所述目标账户的音频。

【技术实现步骤摘要】
一种目标账户音频的识别方法、装置、设备及介质
本公开涉及人工智能
,尤其涉及一种目标账户音频的识别方法、装置、设备及介质。
技术介绍
目前人工智能(ArtificialIntelligence,AI)领域的语音识别技术通常都是基于用户的对话应用,并没有对用户的角色进行区分。举例来说,在线上多人娱乐互动场景或者直播互动场景中,对于用户语音的识别没有办法区分实际参与者与其它用户(不参与互动的用户)的音色或音调,如此,在需要唤醒和语音识别时,一方面,实际参与者与其它用户均可唤醒,无法保护实际参与者的隐私,另一方面,语音识别时不区分实际参与者与其它用户,会因其它用户语音的干扰,导致识别内容和意图紊乱。综上,现有的语音识别方案,没有对用户的角色进行区分,不利于用户的隐私保护和语音内容的准确识别。
技术实现思路
本公开提供一种目标账户音频的识别方法、装置、设备及介质,用以识别目标账户的音频,提高语音内容识别的准确性,同时保护账户隐私。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种目标账户本文档来自技高网...

【技术保护点】
1.一种目标账户音频的识别方法,其特征在于,包括:/n获取待识别音频;/n利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数,其中,所述语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的,所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度;/n在确定所述待识别音频的评价参数大于或等于第一预设阈值时,确定所述待识别音频为所述目标账户的音频。/n

【技术特征摘要】
1.一种目标账户音频的识别方法,其特征在于,包括:
获取待识别音频;
利用预先训练的语音检测模型确定所述待识别音频的声纹特征以及所述待识别音频的评价参数,其中,所述语音检测模型是基于预先采集的音频和预先配置的加权损失函数训练生成的,所述评价参数用于表征所述待识别音频的声纹特征与预先确定的目标账户音频的声纹特征的相似度;
在确定所述待识别音频的评价参数大于或等于第一预设阈值时,确定所述待识别音频为所述目标账户的音频。


2.根据权利要求1所述的方法,其特征在于,所述预先训练的语音检测模型采用如下步骤训练生成:
基于所述预先配置的加权损失函数,训练所述语音检测模型中的音频确认模型;
将预先采集的包含标注结果的多个音频样本作为训练数据输入第一神经网络模型,所述多个音频样本包括非目标账户的语音音频、无人类语音音频、目标账户的语音音频,其中,所述非目标账户的语音音频包含至少一个语种的语音音频;
针对每一音频样本,确定所述音频样本的音频特征,将所述音频特征输入所述音频确认模型,确定所述音频样本的声纹特征以及所述音频样本的评价参数;
根据每一音频样本的所述音频特征、所述声纹特征、所述评价参数,在所述多个音频样本中检测目标账户的语音音频,以标注结果为目标账户的语音音频的音频样本为输出,对所述第一神经网络模型的参数进行调整,基于调整参数后的所述第一神经网络模型和所述音频确认模型,得到所述语音检测模型。


3.根据权利要求2所述的方法,其特征在于,所述基于所述预先配置的加权损失函数训练所述语音检测模型中的音频确认模型,包括:
将所述多个音频样本的音频特征作为训练数据输入第二神经网络模型;
针对每一音频样本,根据所述音频样本的音频特征,确定所述音频样本的声纹特征;
确定所述声纹特征对应的目标账户语音音频映射、非目标账户语音音频映射、以及非人类语音音频映射,其中,所述声纹特征对应的目标账户语音音频映射表征所述音频样本为目标账户语音音频的概率,所述声纹特征对应的非目标账户语音音频映射表征所述音频样本为非目标账户语音音频的概率,所述声纹特征对应的非人类语音音频映射表征所述音频样本为非人类语音音频的概率;
基于所述声纹特征对应的目标账户语音音频映射、非目标账户语音音频映射、以及非人类语音音频映射,确定所述第二神经网络模型内加权损失函数中第一损失函数的计算结果和第二损失函数的计算结果;
根据所述第二神经网络模型输出的检测结果、所述音频样本携带的标注结果、所述第一损失函数的计算结果和所述第二损失函数的计算结果,对所述加权损失函数中所述第一损失函数的权重参数和所述第二损失函数的权重参数分别进行调整,得到所述音频确认模型。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在确定所...

【专利技术属性】
技术研发人员:李美卓赵媛媛梁先华
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1