System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于强化学习的增广数据质量评价方法和系统技术方案_技高网

一种基于强化学习的增广数据质量评价方法和系统技术方案

技术编号:40835289 阅读:3 留言:0更新日期:2024-04-01 14:59
本发明专利技术属于舰船图像处理技术领域,提供一种基于强化学习的增广数据质量评价方法和系统。该方法包括:将待增广数据集分为训练集和测试集,使用相关增广方法对训练集进行增广处理;将每条舰船图像数据、每条舰船图像数据对应的损失值和准确率一起输入所建立的数据评价模型,得到每条舰船图像数据的评价值;根据指定迭代次数完成数据评价模型的强化学习过程,得到优化后的数据评价模型、评价概率分布图,计算待增广数据集中每条舰船图像数据与待增广数据集中所对应的原舰船图像数据的KL散度,以确定每条舰船图像数据的质量情况。本发明专利技术能有效保留评分结果的同时,提升输出结果的稳定性,保证了数据评价结果对于增广工作的可用性和有效性。

【技术实现步骤摘要】

本专利技术涉及舰船图像处理,尤其涉及一种基于强化学习的增广数据质量评价方法和系统


技术介绍

1、近年来,随着人工智能技术(artificial intelligence, ai)的发展,各领域也在实现智能化应用,数据已然成为人工智能技术中尤为重要的一部分,数据质量直接影响到ai模型的最终推理成功率。然而,在特定专用领域中,由于收集数据难度大、成本高等,数据仍然稀缺。数据集增广是针对专用领域数据集缺乏问题最有效的解决方法之一,当下已有众多数据增广方法可满足正常的模型训练。但是,这些数据增广方法应用的效果,即增广数据的质量通常是通过人工验证或实验验证。采用人工验证的方法大多依赖领域专家对新增数据逐个筛选,无法量化反映增广方法的真实效果,且花费大量时间成本。现有许多利用数据增广解决缺乏样本问题的研究中,大都通过设计实验证明其选用的数据增强或增广方法对训练产生的效果,这些实验更多的是从结果的角度体现数据增广的作用,评价比较滞后,判断周期长。例如,通过autoaug、randaug等方法获得的增广数据的质量大多依靠模型最终推理结果来判断。这意味着评价数据质量的过程在训练以及推理结束之后,例如基于nas的数据增强策略,执行过程往往耗费巨大的算力,使得判断过程周期长,缺乏实时性。而复杂的增广方法是否能比仅通过位置变换、裁剪获取的增广数据有着更高质量,目前并没有相应的量化验证方法,解决这一问题可以提升数据增广方法的选取效率。

2、强化学习是一种交互学习方法,通过设计交互方式提供奖励回馈,最终迭代达到最大化收益。使用强化学习评估数据 (data valuation using reinforcement learning,dvrl) 是谷歌提出的一种强化学习数据集评估分析模型,通过策略变动与价值回馈的动态调整达到数据评分最优解,用于确定每个训练样本适用于预测模型训练的量化价值,借助该模型构建数据集质量评估工具,可对数据集中噪音数据进行有效筛查。

3、对现有技术的研究与分析中发现,已有技术存在以下问题:

4、在现有的增强或增广数据质量评价方法中,研究人员往往需要多次实验评价增广数据集应用效果,在此期间需要经历多轮模型训练,消耗大量算力,试错成本高,周期长,缺乏实时性;评价过程与训练过程没有耦合;现有基于深度特征提取的图像质量评价方法以及针对数据质量通用性指标评价(均衡度、规范度、偏差度、区分度等),都没有涉及评价过程与训练过程相结合,如直接运用在增广后的数据上,并不能体现增广数据在训练任务上的价值。

5、因此,有必要提供一种新的基于强化学习的增广数据质量评价方法,以解决上述问题。


技术实现思路

1、本专利技术意在提供一种基于强化学习的增广数据质量评价方法和系统,以解决现有的图像质量评价方法以及针对数据质量通用性指标评价(均衡度、规范度、偏差度、区分度等),都没有同时涉及评价过程和训练过程,也即评价过程与训练过程没有耦合,缺少评价过程和训练过程配合的部分进而导致评价方法的完整性差,试错成本高,周期长,缺乏实时性,如何提高增广数据质量等的技术问题,本专利技术要解决的技术问题通过以下技术方案来实现。

2、本专利技术第一方面提出一种基于强化学习的增广数据质量评价方法,包括:将待增广数据集分为训练集和测试集,使用相关增广方法对所述训练集进行增广处理,得到增广处理后的增广数据集,从增广数据集中划分出一部分数据作为验证集,所述待增广数据集包括标注有舰船类别标签的舰船图像数据;建立数据评价强化学习模型,所述数据评价强化学习模型包括数据预测模型和数据评价模型,通过执行以下步骤,优化所述数据预测模型和数据评价模型:步骤s201:初始化数据预测模型;使用预设的一批次舰船图像数据输入数据预测模型,记录每条舰船图像数据产生的损失值,使用验证集验证所述数据预测模型得到各条舰船图像数据的准确率,根据优化目标优化所述数据预测模型;步骤s202:将每条舰船图像数据、每条舰船图像数据对应的损失值和准确率一起输入数据评价模型,得到每条舰船图像数据的评价值;步骤s203:再次初始化数据预测模型,根据指定迭代次数完成数据评价模型的强化学习过程,得到优化后的数据评价模型,并得到评价概率分布图;根据所得到的评价概率分布图,计算所述待增广数据集中每条舰船图像数据与所述待增广数据集中所对应的原舰船图像数据的kl散度,以确定所述增广数据集中每条舰船图像数据的质量情况。

3、根据优选实施方式,所述数据预测模型为resnet模型,使用表示优化后的数据预测模型,所述数据预测5 模型的优化目标是使经过加权的损失函数最小化,以得到优化后的数据预测模型;所述数据评价模型为bp神经网络模型,使用表示第 i个训练样本(xi,yi)的评价值;

4、使用以下表达式表征所述数据预测模型的优化目标:

5、;

6、其中,是指优化后的数据预测模型,即优化目标为使损失函数值与样本评价值的乘积最小,xi表示数据预测模型的输入,包括第i条舰船图像数据、第i条舰船图像数据对应的损失值和准确率,yi表示第i条舰船图像数据所对应的舰船类别标签值;α表示数据预测模型的学习率;β表示数据评价模型的学习率;θ, φ分别代表数据预测模型和数据评价模型的各层网络参与前向传播计算的权重参数。

7、根据优选实施方式,使用以下表达式,表示在每一次迭代中权重和参数θ, φ的更新过程:

8、,

9、,

10、其中,α表示数据预测模型的学习率;β表示数据评价模型的学习率;bp是指训练过程中一批次数据包含的数据数量,p为下标标记,p表示该批数据用于预测模型;表示训练集中一批次;表示中的一条数据,其中bs表示验证过程中的一批次数据,s表示正确或错误的验证结果;是指当前求和循环中的第m条数据的验证结果,m为正整数,m为1、2、...、n;l表示模型中参数数量;表示训练集的图像数据;表示训练集的数据标注,k表示求和运算进行到第k轮;v表示该数据用于验证模型;h、即样本评价值, xi表示数据预测模型的输入,包括第i条舰船图像数据、第i条舰船图像数据对应的损失值和准确率,yi表示第 i条舰船图像数据所对应的舰船类别标签值;

11、m表示求和运算进行到第m轮;l表示预测模型一次输入数据的维度数;

12、θ, φ分别代表数据预测模型和数据评价模型的各层网络参与前向传播计算的权重参数。

13、根据优选实施方式,使用以下表达式,计算增广数据集中每条舰船图像数据与待增广数据集中所对应的原舰船图像数据的kl散度:

14、;

15、其中,表示第i条舰船图像数据与待增广数据集中所对应的原舰船图像数据的kl散度,其中i为正整数,具体为1、2、...、n;p(x)为增广数据集的质量概率分布,q(x)为待增广数据集,即原数据集的质量概率分布。

16、根据优选实施方式,使用增广数据集训练数据预测模型的模型精度大于指定值,则确定增广数据集对原舰船图像数据的质量还原有效本文档来自技高网...

【技术保护点】

1.一种舰船图像增广数据质量评价方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于强化学习的增广数据质量评价方法,其特征在于,

3.根据权利要求2所述的基于强化学习的增广数据质量评价方法,其特征在于,

4.根据权利要求1所述的基于强化学习的增广数据质量评价方法,其特征在于,

5.根据权利要求1所述的基于强化学习的增广数据质量评价方法,其特征在于,

6.根据权利要求1所述的基于强化学习的增广数据质量评价方法,其特征在于,

7.根据权利要求1或6所述的基于强化学习的增广数据质量评价方法,其特征在于,所述再次初始化数据预测模型,根据指定迭代次数完成数据评价模型的强化学习过程,得到优化后的数据评价模型,包括:

8.根据权利要求7所述的基于强化学习的增广数据质量评价方法,其特征在于,

9.一种舰船图像增广数据质量评价系统,其特征在于,包括:

10.根据权利要求9所述的船图像增广数据质量评价系统,其特征在于,

【技术特征摘要】

1.一种舰船图像增广数据质量评价方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于强化学习的增广数据质量评价方法,其特征在于,

3.根据权利要求2所述的基于强化学习的增广数据质量评价方法,其特征在于,

4.根据权利要求1所述的基于强化学习的增广数据质量评价方法,其特征在于,

5.根据权利要求1所述的基于强化学习的增广数据质量评价方法,其特征在于,

6.根据权利要求1所述的基于强化学习的增广...

【专利技术属性】
技术研发人员:向语哲王志崔灿王祥根桑金嵩
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1