分布外数据的识别方法、装置、设备及介质制造方法及图纸

技术编号:37546905 阅读:11 留言:0更新日期:2023-05-12 16:21
本公开提供一种分布外数据的识别方法、装置、设备及介质,方法包括:获取待识别数据;将待识别数据输入数据识别模型,提取待识别数据对应的目标数据内容;基于目标数据内容,得到并输出用于指示待识别数据为分布外数据的识别结果;其中,数据识别模型通过待识别数据样本和待识别数据样本携带的预设标签训练得到;其中,待识别数据样本通过对原始数据样本进行数据解耦和数据增广得到。本公开用以解决现有技术中模型预测精准度低的缺陷,实现提高模型的预测精准度。的预测精准度。的预测精准度。

【技术实现步骤摘要】
分布外数据的识别方法、装置、设备及介质


[0001]本公开涉及计算机
,尤其涉及一种分布外数据的识别方法、装置、设备及介质。

技术介绍

[0002]在机器学习领域,用于训练模型的数据通常被定义为分布内数据(In

distribution,ID),与分布内数据的分布内数据分布不匹配的数据通常被定义为分布外数据(Out

of

distribution,OOD)。
[0003]在现有技术中,为了提高模型的稳健性,直接利用分布内数据样本和分布外数据样本同时对模型进行训练。未很好的利用分布外数据的特点,使得最终训练完成的模型的预测精准度较低,从而导致模型在应用阶段,出现预测结果不准确的问题。

技术实现思路

[0004]本公开提供一种分布外数据的识别方法、装置、设备及介质,用以解决现有技术中模型预测精准度低的缺陷,实现提高模型的预测精准度。
[0005]本公开提供一种分布外数据的识别方法,包括:
[0006]获取待识别数据;
[0007]将所述待识别数据输入数据识别模型,提取所述待识别数据对应的目标数据内容;基于所述目标数据内容,得到并输出用于指示所述待识别数据为分布外数据的识别结果;
[0008]其中,所述数据识别模型通过待识别数据样本和所述待识别数据样本携带的预设标签训练得到;
[0009]其中,所述待识别数据样本通过对原始数据样本进行数据解耦和数据增广得到。
[0010]根据本公开提供的一种分布外数据的识别方法,所述待识别数据样本包括:第一分布外数据样本和第二分布外数据样本;
[0011]其中,所述第一分布外数据样本为:与分布内数据样本相比数据内容一致,数据样式不一致的样本数据,所述第二分布外数据样本为:与所述分布内数据样本相比数据内容不一致的样本数据;
[0012]所述将所述待识别数据输入数据识别模型之后,还包括:
[0013]提取所述待识别数据对应的目标数据样式;
[0014]所述提取所述待识别数据对应的目标数据内容之后,还包括:
[0015]确定所述目标数据内容对应的第一类别预测结果和第一领域预测结果;
[0016]确定所述目标数据样式对应的第二类别预测结果和第二领域预测结果;
[0017]基于所述第一类别预测结果、所述第一领域预测结果、所述第二类别预测结果和所述第二领域预测结果,去除所述目标数据内容和所述目标数据样式之间的相关性。
[0018]根据本公开提供的一种分布外数据的识别方法,所述基于所述目标数据内容,得
到并输出用于指示所述待识别数据为分布外数据的识别结果,包括:
[0019]确定所述目标数据内容对应的预测分类结果;
[0020]比对所述预测分类结果和预设分类结果;
[0021]在确定所述预测分类结果不属于所述预设分类结果的情况下,输出用于指示所述待识别数据为分布外数据的识别结果。
[0022]根据本公开提供的一种分布外数据的识别方法,所述数据识别模型的训练过程包括:
[0023]将所述待识别数据样本输入数据识别模型,提取所述待识别数据样本对应的样本数据内容,输出与所述样本数据内容对应的预测分类标签;
[0024]比对所述预测分类标签和预设标签的一致性,得到第一比对结果;
[0025]基于所述第一比对结果,调整所述数据识别模型的模型参数,直至迭代次数达到预设值的情况下,确定所述数据识别模型训练完成。
[0026]根据本公开提供的一种分布外数据的识别方法,所述提取所述待识别数据样本对应的样本数据内容,包括:
[0027]提取所述第一分布外数据样本对应的第一样本数据内容;
[0028]所述基于所述第一比对结果,调整所述数据识别模型的模型参数之前,还包括:
[0029]提取所述第一分布外数据样本对应的样本数据样式;
[0030]重构所述样本数据样式和所述第一样本数据内容,得到第三分布外数据样本;
[0031]比对所述第一分布外数据样本和所述第三分布外数据样本的一致性,得到第二比对结果;
[0032]所述基于第一比对结果,调整所述数据识别模型的模型参数之后,还包括:
[0033]基于所述第二比对结果,调整所述数据识别模型的所述模型参数。
[0034]根据本公开提供的一种分布外数据的识别方法,所述提取所述第一分布外数据样本对应的样本数据样式之后,还包括:
[0035]确定与所述第一样本数据内容对应的第一类别预测结果样本和第一领域预测结果样本;
[0036]确定与所述样本数据样式对应的第二类别预测结果样本和第二领域预测结果样本;
[0037]基于所述第一类别预测结果样本、所述第一领域预测结果样本、所述第二类别预测结果样本和所述第二领域预测结果样本,去除所述第一样本数据内容和所述样本数据样式之间的相关性。
[0038]根据本公开提供的一种分布外数据的识别方法,所述获取待识别数据之前,还包括:
[0039]获取所述原始数据样本,所述原始数据样本为与所述分布内数据样本相比数据内容一致,数据样式不一致的数据;
[0040]提取所述原始数据样本对应的待处理数据内容和待处理数据样式;
[0041]分别对所述待处理数据内容和所述待处理数据样式进行数据增广操作,得到所述第一分布外数据样本和所述第二分布外数据样本。
[0042]根据本公开提供的一种分布外数据的识别方法,所述提取所述原始数据样本对应
的待处理数据内容和待处理数据样式之后,还包括:
[0043]确定所述待处理数据内容对应的第一类别结果和第一领域结果;
[0044]确定所述待处理数据样式对应的第二类别结果和第二领域结果;
[0045]基于所述第一类别结果、所述第一领域结果、所述第二类别结果和所述第二领域结果,去除所述待处理数据内容和所述待处理数据样式之间的相关性。
[0046]根据本公开提供的一种分布外数据的识别方法,所述分别对所述待处理数据内容和所述待处理数据样式进行数据增广操作,得到所述第一分布外数据样本和所述第二分布外数据样本,包括:
[0047]对所述待处理数据样式进行正面数据增广操作,并确定所述待处理数据内容不变的情况下,得到所述第一分布外数据样本;
[0048]对所述待处理数据内容进行负面数据增广操作,得到所述第二分布外数据样本。
[0049]根据本公开提供的一种分布外数据的识别方法,所述对所述待处理数据样式进行正面数据增广操作,并确定所述待处理数据内容不变的情况下,得到所述第一分布外数据样本,包括:
[0050]基于所述原始数据样本和所述数据识别模型的模型参数,得到扰动数据;
[0051]在确定所述待处理数据内容不变的情况下,基于所述扰动数据和新的数据样式,得到所述第一分布外数据样本。
[0052]根据本公开提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布外数据的识别方法,其特征在于,包括:获取待识别数据;将所述待识别数据输入数据识别模型,提取所述待识别数据对应的目标数据内容;基于所述目标数据内容,得到并输出用于指示所述待识别数据为分布外数据的识别结果;其中,所述数据识别模型通过待识别数据样本和所述待识别数据样本携带的预设标签训练得到;其中,所述待识别数据样本通过对原始数据样本进行数据解耦和数据增广得到。2.根据权利要求1所述的分布外数据的识别方法,其特征在于,所述待识别数据样本包括:第一分布外数据样本和第二分布外数据样本;其中,所述第一分布外数据样本为:与分布内数据样本相比数据内容一致,数据样式不一致的样本数据,所述第二分布外数据样本为:与所述分布内数据样本相比数据内容不一致的样本数据;所述将所述待识别数据输入数据识别模型之后,还包括:提取所述待识别数据对应的目标数据样式;所述提取所述待识别数据对应的目标数据内容之后,还包括:确定所述目标数据内容对应的第一类别预测结果和第一领域预测结果;确定所述目标数据样式对应的第二类别预测结果和第二领域预测结果;基于所述第一类别预测结果、所述第一领域预测结果、所述第二类别预测结果和所述第二领域预测结果,去除所述目标数据内容和所述目标数据样式之间的相关性。3.根据权利要求2所述的分布外数据的识别方法,其特征在于,所述基于所述目标数据内容,得到并输出用于指示所述待识别数据为分布外数据的识别结果,包括:确定所述目标数据内容对应的预测分类结果;比对所述预测分类结果和预设分类结果;在确定所述预测分类结果不属于所述预设分类结果的情况下,输出用于指示所述待识别数据为分布外数据的识别结果。4.根据权利要求2

3任一项所述的分布外数据的识别方法,其特征在于,所述数据识别模型的训练过程包括:将所述待识别数据样本输入数据识别模型,提取所述待识别数据样本对应的样本数据内容,输出与所述样本数据内容对应的预测分类标签;比对所述预测分类标签和预设标签的一致性,得到第一比对结果;基于所述第一比对结果,调整所述数据识别模型的模型参数,直至迭代次数达到预设值的情况下,确定所述数据识别模型训练完成。5.根据权利要求4所述的分布外数据的识别方法,其特征在于,所述提取所述待识别数据样本对应的样本数据内容,包括:提取所述第一分布外数据样本对应的第一样本数据内容;所述基于所述第一比对结果,调整所述数据识别模型的模型参数之前,还包括:提取所述第一分布外数据样本对应的样本数据样式;重构所述样本数据样式和所述第一样本数据内容,得到第三分布外数据样本;比对所述第一分布外数据样本和所述第三分布外数据样本的一致性,得到第二比对结
果;所述基于第一比对结果,调整所述数据识别模型的模型参数之后,还包括:基于所述第二比对结果,调整所述数据识别模型的所述模型参数。6.根据权利要求5所述的分布外数据的识别方法,其特征在于,所述提取所述第一分布外数据样本对应的样本数据样式之后,还包括:确定与所述第一样本数据内容对应的第一类别预测结果样本和第一领域预测结果样本;确定与所述样本数据样式对应的第二类别预测结果样本和第二领域预测结果样本;基于所述第一类别预测结果样本、...

【专利技术属性】
技术研发人员:沈力宫辰
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1