在发生数据级联的情况下使数据集更接近真实场景的方法技术

技术编号：35702331 阅读：15 留言：0更新日期：2022-11-23 14:56

数据集是深度学习的基础，构建接近真实场景的数据集对深度学习模型具有重要影响，但是存在数据级联的情况，使训练完成的模型不能很好地应用于真实场景。本发明专利技术要解决的是如何提供一种在发生数据级联的情况下使数据集更接近真实场景的方法。将用于训练模型的数据集作为训练集，真实场景样本作为测试集。分别提取训练集和测试集的特征，计算获得训练集与测试集之间的域间相似度，以及训练集内部的域内不确定度，综合计算域间相似度和域内不确定度得到综合相似度。利用综合相似度可以在训练集中选出好样本，用好样本训练出的模型性能更好，减轻数据级联影响。通过实验对该方法进行了验证。证。证。

全部详细技术资料下载

【技术实现步骤摘要】
在发生数据级联的情况下使数据集更接近真实场景的方法

[0001]本专利技术涉及一种数据集构建方法，具体涉及一种在发生数据级联的情况下使数据集更接近真实场景方法。

技术介绍

[0002]深度学习是人工智能领域的一个重要的研究方向。随着人工智能的发展，如何高效、准确地进行深度学习成为了一个重要的研究课题。而数据集是深度学习的基础，关系到深度学习模型解决问题的能力。构建接近真实场景的数据集对深度学习模型具有重要影响，但是存在数据级联的情况，使训练完成的模型不能很好地应用于真实场景。

技术实现思路

[0003]针对现有技术存在的不足，本专利技术要解决的是如何提供一种在发生数据级联的情况下使数据集更接近真实场景的方法。为解决上述技术问题，本专利技术采用如下的技术方案：
[0004]一种在发生数据级联的情况下使数据集更接近真实场景的方法，包括如下步骤：
[0005](1)建立基于Python的特征提取器模型E；
[0006](2)将用于训练模型的数据集作为训练集，真实场景样本作为测试集，建立训练集与测试集，其中训练集为D
tr
，训练集样本为x
i
；测试集为D
te
，测试集样本为x
j
；
[0007](3)使用训练集D
tr
训练特征提取器E；
[0008](4)使用训练好的特征提取器E提取训练集样本x
i
的特征e
i
、测试集样本x
j
...

【技术保护点】

【技术特征摘要】
1.一种在发生数据级联的情况下使数据集更接近真实场景的方法，其特征在于，所述数据集构建方法包括：(1)建立基于Python的特征提取器模型；(2)获取样本，将用于训练模型的数据集作为训练集，真实场景样本作为测试集，构建训练集与测试集；(3)由训练集训练特征提取器，提取训练集与测试集的特征；(4)由训练集与测试集的特征计算获取训练集与测试集的特征原型；(5)由训练集的特征和测试集的特征原型计算得到域间相似度；(6)由训练集的特征和训练集的特征原型计算得到域内不确定度；(7)设置权重参数，由域间相似度和域内不确定度计算获得综合相似度；(8)根据综合相似度的大小对训练集样本进行排序，综合相似度小的样本属于好样本，由好样本组成的数据集更接近真实场景，减轻数据级联的影响。2.如权利要求1所述的一种在发生数据级联的情况下使数据集更接近真实场景的方法，其特征在于：所述步骤(5)中计算域内间相似度方法：利用边缘距离等度量方法计算训练集样本特征e
i
与测试集各类特...

【专利技术属性】
技术研发人员：杨嘉琛，李昊宇，温家宝，肖帅，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人