开集识别方法、装置、电子设备、介质及程序产品制造方法及图纸

技术编号:35294842 阅读:16 留言:0更新日期:2022-10-22 12:41
本说明书实施例公开了一种开集识别方法、装置、电子设备、介质及程序产品。其中,该方法包括:获取待识别数据;将待识别数据输入开集识别模型中,基于指定目标的基准数据输出待识别数据对应的分数,分数用于表征待识别数据与基准数据之间的相似度;开集识别模型对应的损失函数用于使开集识别模型的神经网络输出的目标得分集合中多个目标得分的最小值大于神经网络输出的非目标得分集合中多个非目标得分的最大值,目标得分用于表征目标相同的数据之间的相似度,非目标得分用于表征目标不同的数据之间的相似度;在待识别数据对应的分数大于预设阈值的情况下,确定待识别数据对应的目标为指定目标。标为指定目标。标为指定目标。

【技术实现步骤摘要】
开集识别方法、装置、电子设备、介质及程序产品


[0001]本说明书涉及计算机
,尤其涉及一种开集识别方法、装置、电子设备、介质及程序产品。

技术介绍

[0002]在一些识别过程中,往往会存在待识别数据的目标与模型已知的目标集合(闭集)中的目标不相同的现象,例如在声纹识别的运用过程中往往会出现已存储对应基准语音数据的目标说话人集中并没有出现过的新的说话人,这时就需要能够识别出该新的说话人并不是目标说话人集中的说话人,而这一过程称之为开集识别。目前,对于开集识别任务,一般都是通过设定合理的阈值来判断待识别数据的目标是否为基准数据对应的指定目标。

技术实现思路

[0003]本说明书实施例提供了一种开集识别方法、装置、电子设备、介质及程序产品,避免了在开集识别过程中存在的待识别数据的目标与模型中基准数据或训练数据的已知目标不同时的失配问题对开集识别的影响,提高了开集识别的准确率。上述技术方案如下:
[0004]第一方面,本说明书实施例提供了一种开集识别方法,包括:
[0005]获取待识别数据;
[0006]将上述待识别数据输入开集识别模型中,基于指定目标的基准数据输出上述待识别数据对应的分数;上述分数用于表征上述待识别数据与上述基准数据之间的相似度;上述开集识别模型对应的损失函数用于使上述开集识别模型的神经网络输出的目标得分集合中多个目标得分的最小值大于上述神经网络输出的非目标得分集合中多个非目标得分的最大值;上述目标得分用于表征目标相同的数据之间的相似度;上述非目标得分用于表征目标不同的数据之间的相似度;
[0007]在上述待识别数据对应的分数大于预设阈值的情况下,确定上述待识别数据对应的目标为上述指定目标。
[0008]在一种可能的实现方式中,上述将上述待识别数据输入开集识别模型中,基于指定目标的基准数据输出上述待识别数据对应的分数之后,上述方法还包括:
[0009]在上述待识别数据对应的分数小于或等于预设阈值的情况下,确定上述待识别数据对应的目标不为上述指定目标。
[0010]在一种可能的实现方式中,上述将上述待识别数据输入开集识别模型中,基于指定目标的基准数据输出上述待识别数据对应的分数之前,上述方法还包括:
[0011]获取样本训练集;上述样本训练集包括已知目标的N个样本训练数据;上述样本训练集对应的目标组成的目标集合为闭集;上述目标集合包括M个不同的目标;上述N和M均为大于1的整数;
[0012]基于上述样本训练集对原始的开集识别模型进行训练,得到训练后的开集识别模型;
[0013]上述将上述待识别数据输入开集识别模型中,基于指定目标的基准数据输出上述待识别数据对应的分数,包括:
[0014]将上述待识别数据输入上述训练后的开集识别模型中,基于指定目标的基准数据输出上述待识别数据对应的分数。
[0015]在一种可能的实现方式中,上述基于上述样本训练集对原始的开集识别模型进行训练,得到训练后的开集识别模型,包括:
[0016]将上述样本训练集输入原始的开集识别模型中,上述原始的开集识别模型的神经网络输出上述N个样本训练数据各自对应的目标得分和非目标得分;
[0017]按照上述损失函数基于上述N个样本训练数据各自对应的目标得分和非目标得分确定上述原始的开集识别模型的目标损失;
[0018]在上述目标损失不满足预设条件的情况下,基于上述目标损失更新上述原始的开集识别模型的神经网络,直至上述目标损失满足上述预设条件,得到训练后的开集识别模型。
[0019]在一种可能的实现方式中,上述损失函数为:
[0020][0021]其中,loss为上述损失函数;N表示上述开集识别模型对应的样本训练数据的数量;i表示上述样本训练集中的第i个样本训练数据;M表示上述样本训练集对应的不同的目标组成的目标集合;y
j
表示上述样本训练集中第j个样本训练数据对应的目标;表示上述第j个样本训练数据,和上述样本训练集中与上述目标y
j
不同的目标k对应的样本训练数据之间的相似度;表示上述第i个样本训练数据,和上述样本训练集中与上述第i个样本训练数据的目标相同的样本训练数据之间的相似度;α为常数;m为上述开集识别模型的参数。
[0022]在一种可能的实现方式中,上述损失函数对应的决策边界为:
[0023]其中,i和j可以为任意值,k≠y
j

[0024]在一种可能的实现方式中,上述损失函数对应的收敛空间为:
[0025]min(s
p
)≥max(s
n
)+m;其中,s
p
表示上述开集识别模型的神经网络输出的目标得分集合;min(s
p
)表示上述目标得分集合中多个目标得分的最小值;s
n
表示上述开集识别模型的神经网络输出的非目标得分集合;max(s
n
)表示上述非目标得分集合中多个非目标得分的最大值。
[0026]在一种可能的实现方式中,上述目标待识别数据包括待识别语音数据,上述开集识别模型包括声纹识别模型;和/或上述目标待识别数据包括待识别指纹数据,上述开集识别模型包括指纹识别模型;和/或上述目标待识别数据包括待识别脸部图像,上述开集识别模型包括脸部识别;和/或上述目标待识别数据包括待识别虹膜图像,上述开集识别模型包括虹膜识别模型。
[0027]第二方面,本说明书实施例提供了一种开集识别装置,上述装置包括:
[0028]第一获取模块,用于获取待识别数据;
[0029]开集识别模块,用于将上述待识别数据输入开集识别模型中,基于指定目标的基准数据输出上述待识别数据对应的分数;上述分数用于表征上述待识别数据与上述基准数据之间的相似度;上述开集识别模型对应的损失函数用于使上述开集识别模型的神经网络输出的目标得分集合中多个目标得分的最小值大于上述神经网络输出的非目标得分集合中多个非目标得分的最大值;上述目标得分用于表征目标相同的数据之间的相似度;上述非目标得分用于表征目标不同的数据之间的相似度;
[0030]第一确定模块,用于在上述待识别数据对应的分数大于预设阈值的情况下,确定上述待识别数据对应的目标为上述指定目标。
[0031]在一种可能的实现方式中,上述开集识别装置还包括:
[0032]第二确定模块,用于在上述待识别数据对应的分数小于或等于预设阈值的情况下,确定上述待识别数据对应的目标不为上述指定目标。
[0033]在一种可能的实现方式中,上述开集识别装置还包括:
[0034]第二获取模块,用于获取样本训练集;上述样本训练集包括已知目标的N个样本训练数据;上述样本训练集对应的目标组成的目标集合为闭集;上述目标集合包括M个不同的目标;上述N和M均为大于1的整数;
[0035]训练模块,用于基于上述样本训练集对原始的开集识别模型进行训练,得到训练后的开集识别模型;...

【技术保护点】

【技术特征摘要】
1.一种开集识别方法,所述方法包括:获取待识别数据;将所述待识别数据输入开集识别模型中,基于指定目标的基准数据输出所述待识别数据对应的分数;所述分数用于表征所述待识别数据与所述基准数据之间的相似度;所述开集识别模型对应的损失函数用于使所述开集识别模型的神经网络输出的目标得分集合中多个目标得分的最小值大于所述神经网络输出的非目标得分集合中多个非目标得分的最大值;所述目标得分用于表征目标相同的数据之间的相似度;所述非目标得分用于表征目标不同的数据之间的相似度;在所述待识别数据对应的分数大于预设阈值的情况下,确定所述待识别数据对应的目标为所述指定目标。2.如权利要求1所述的方法,所述将所述待识别数据输入开集识别模型中,基于指定目标的基准数据输出所述待识别数据对应的分数之后,所述方法还包括:在所述待识别数据对应的分数小于或等于预设阈值的情况下,确定所述待识别数据对应的目标不为所述指定目标。3.如权利要求1所述的方法,所述将所述待识别数据输入开集识别模型中,基于指定目标的基准数据输出所述待识别数据对应的分数之前,所述方法还包括:获取样本训练集;所述样本训练集包括已知目标的N个样本训练数据;所述样本训练集对应的目标组成的目标集合为闭集;所述目标集合包括M个不同的目标;所述N和M均为大于1的整数;基于所述样本训练集对原始的开集识别模型进行训练,得到训练后的开集识别模型;所述将所述待识别数据输入开集识别模型中,基于指定目标的基准数据输出所述待识别数据对应的分数,包括:将所述待识别数据输入所述训练后的开集识别模型中,基于指定目标的基准数据输出所述待识别数据对应的分数。4.如权利要求3所述的方法,所述基于所述样本训练集对原始的开集识别模型进行训练,得到训练后的开集识别模型,包括:将所述样本训练集输入原始的开集识别模型中,所述原始的开集识别模型的神经网络输出所述N个样本训练数据各自对应的目标得分和非目标得分;按照所述损失函数基于所述N个样本训练数据各自对应的目标得分和非目标得分确定所述原始的开集识别模型的目标损失;在所述目标损失不满足预设条件的情况下,基于所述目标损失更新所述原始的开集识别模型的神经网络,直至所述目标损失满足所述预设条件,得到训练后的开集识别模型。5.如权利要求1

4任一项所述的方法,所述损失函数为:其中,loss为所述损失函数;N表示所述开集识别模型对应的样本训练数据的数量;i表示所述样本训练集中的第i个样本训练数据;M表示所述样本训练集对应的不同的目标组成
的目标集合;y
j
表示所述样本训练集中第j个样本训练数据对应的目标;表示所述第j个样本训练数据,和所述样本训练集中与所述目标y
j
不同的目标k对应的样本...

【专利技术属性】
技术研发人员:李瑞达方硕马晨光
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1