当前位置: 首页 > 专利查询>天津大学专利>正文

在发生数据级联的情况下使数据集更接近真实场景的方法技术

技术编号:35702331 阅读:15 留言:0更新日期:2022-11-23 14:56
数据集是深度学习的基础,构建接近真实场景的数据集对深度学习模型具有重要影响,但是存在数据级联的情况,使训练完成的模型不能很好地应用于真实场景。本发明专利技术要解决的是如何提供一种在发生数据级联的情况下使数据集更接近真实场景的方法。将用于训练模型的数据集作为训练集,真实场景样本作为测试集。分别提取训练集和测试集的特征,计算获得训练集与测试集之间的域间相似度,以及训练集内部的域内不确定度,综合计算域间相似度和域内不确定度得到综合相似度。利用综合相似度可以在训练集中选出好样本,用好样本训练出的模型性能更好,减轻数据级联影响。通过实验对该方法进行了验证。证。证。

【技术实现步骤摘要】
在发生数据级联的情况下使数据集更接近真实场景的方法


[0001]本专利技术涉及一种数据集构建方法,具体涉及一种在发生数据级联的情况下使数据集更接近真实场景方法。

技术介绍

[0002]深度学习是人工智能领域的一个重要的研究方向。随着人工智能的发展,如何高效、准确地进行深度学习成为了一个重要的研究课题。而数据集是深度学习的基础,关系到深度学习模型解决问题的能力。构建接近真实场景的数据集对深度学习模型具有重要影响,但是存在数据级联的情况,使训练完成的模型不能很好地应用于真实场景。

技术实现思路

[0003]针对现有技术存在的不足,本专利技术要解决的是如何提供一种在发生数据级联的情况下使数据集更接近真实场景的方法。为解决上述技术问题,本专利技术采用如下的技术方案:
[0004]一种在发生数据级联的情况下使数据集更接近真实场景的方法,包括如下步骤:
[0005](1)建立基于Python的特征提取器模型E;
[0006](2)将用于训练模型的数据集作为训练集,真实场景样本作为测试集,建立训练集与测试集,其中训练集为D
tr
,训练集样本为x
i
;测试集为D
te
,测试集样本为x
j

[0007](3)使用训练集D
tr
训练特征提取器E;
[0008](4)使用训练好的特征提取器E提取训练集样本x
i
的特征e
i
、测试集样本x
j
的特征e
j

[0009]e
i
=E(x
i
)
[0010]e
j
=E(x
j
)
[0011](5)计算训练集不同类别C的样本x
i
的特征e
i
的平均值,得到训练集各类的特征原型计算测试集不同类别C的样本x
j
的特征e
j
的平均值,得到测试集各类的特征原型
[0012][0013][0014](6)计算训练集各样本x
i
与测试集的相似度S:
[0015]边缘距离:
[0016][0017]计算相似度S:
[0018][0019](7)确定训练集各样本x
i
不确定度:
[0020]欧式距离:
[0021][0022](7.1)计算样本x
i
与训练集各类特征原型的欧式距离d1,d2,

,d
C

[0023][0024]d={d1,d2,

,d
C
}
[0025](7.2)计算欧式距离可能性分布:
[0026]P={P1,P2,

,P
C
}=softmax(d)
[0027](7.3)计算不确定度:
[0028][0029](8)设置权重参数α,计算综合相似度D:
[0030]D=αS+(1

α)U
[0031](9)根据综合相似度D的大小对训练集样本进行排序,其中D小的样本属于好样本,根据需要选出需要的样本数;
[0032]本专利技术的优点及积极效果在于:
[0033](1)本专利技术突出了数据集的重要性,充分利用数据使模型性能提升。
[0034](2)本专利技术方法的提出能够解决数据级联的问题,能够使模型更加适应真实场景,提升模型准确度。
[0035](3)本方法可运用于各种模型,不依赖模型的结构。
[0036](4)该方法经过大量的实验并进行了验证,有效地提高了该方法可靠性。
附图说明
[0037]图1是本专利技术中具体实施方式中的获取综合相似度的整体流程;
[0038]图2是本专利技术中具体实施方式中的数据集;
具体实施方式
[0039]本实例以数据集为研究对象,详细描述本专利技术的实施方式。针对数据级联现象,通过计算综合相似度,筛选出合适的样本,以构成新的训练集,使训练的模型更加符合真实场景,以解决数据级联问题。
[0040]为使本专利技术目的、技术方案更加清楚,下面结合附图详细说明本专利技术具体实施步骤。
[0041]参见图1,其示出了本专利技术提出的数据集构建方法的实现流程图,详述如下:
[0042]1、设定数据集为NICO

Animal,参见图2,即从NICO数据集中挑选出属于动物类的样本,其中包括十种类别。这些类别都包含9

10种不同的语境,其中语境包括姿态、动作、背景信息等。每类语境都包含着83~215张图像,将不同语境的图片视作有着不同分布的数
据。选取不同语境的图片分别作为训练集与测试集,代表着训练样本与真实场景,其中语境的差异代表训练样本与真实场景之间的差异,从而模拟出数据级联情况。
[0043]2、选取ResNet

18网络作为特征提取器,设定训练批大小为50,学习率为0.01,训练周期为100轮,模型优化器采用随机梯度下降SGD方法,动量因数设为0.9。经过训练集训练后,用于提取训练集的特征e
i
、测试集的特征e
j

[0044]3、分别计算由训练集、测试集中不同类别的样本所提取的特征的平均值,得到训练集、测试集各类的特征原型
[0045][0046][0047]4、利用边缘距离公式,由训练集样本与测试集特征原型计算域间相似度S。
[0048][0049]5、首先计算训练集样本与训练集各类特征原型之间的欧式距离d
i

[0050][0051]d={d1,d2,

,d
C
}
[0052]然后计算距离的概率分布P:
[0053]P={P1,P2,

,P
C
}=softmax(d)
[0054]最后由熵的定义得出训练集的域内不确定度U
[0055][0056]6、设定权重参数α为0.9,计算综合相似度D:
[0057]D=αS+(1

α)U
[0058]7、根据综合相似度的大小对训练集样本进行排序,相似度小的样本是好样本。根据综合相似度D由大到小进行排序,得到最远、中间、最近三个等级的样本组合,利用这些样本分别对模型进行训练,得到表1。可以看出综合相似度D小的样本是好样本,这样挑选出的样本组成的数据集能够在发生数据级联的情况下使数据集更接近真实场景。
[0059]表1不同综合相似度等级的样本训练模型的准确度
[0060]最远中间最近60.89%64.43%70.41%
[0061]以上所述实施例仅为较佳的具体实施方式,本文应用了个例实施的说明用于帮助理解本专利技术的方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在发生数据级联的情况下使数据集更接近真实场景的方法,其特征在于,所述数据集构建方法包括:(1)建立基于Python的特征提取器模型;(2)获取样本,将用于训练模型的数据集作为训练集,真实场景样本作为测试集,构建训练集与测试集;(3)由训练集训练特征提取器,提取训练集与测试集的特征;(4)由训练集与测试集的特征计算获取训练集与测试集的特征原型;(5)由训练集的特征和测试集的特征原型计算得到域间相似度;(6)由训练集的特征和训练集的特征原型计算得到域内不确定度;(7)设置权重参数,由域间相似度和域内不确定度计算获得综合相似度;(8)根据综合相似度的大小对训练集样本进行排序,综合相似度小的样本属于好样本,由好样本组成的数据集更接近真实场景,减轻数据级联的影响。2.如权利要求1所述的一种在发生数据级联的情况下使数据集更接近真实场景的方法,其特征在于:所述步骤(5)中计算域内间相似度方法:利用边缘距离等度量方法计算训练集样本特征e
i
与测试集各类特...

【专利技术属性】
技术研发人员:杨嘉琛李昊宇温家宝肖帅
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1