当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于DDQN的触觉材料不平衡数据的分类方法技术

技术编号:33079486 阅读:18 留言:0更新日期:2022-04-15 10:29
本发明专利技术涉及一种基于DDQN的触觉材料不平衡数据的分类方法,属于触觉材料不平衡数据的分类方法。利用VGG19处理图片,提取图片特征;将提取的图片特征当作DDQN的状态,将它们的标签当作DDQN的动作,构建DDQN的环境;设置奖励函数;并选择Q值最大的动作传递给目标网络;计算评估网络估计Q值的时间差分误差;保存训练好的网络,根据最大Q值所对应的动作来分类图片。优点是:解决了触觉材料不平衡数据的分类问题,并且分类精度要高于常用的不平衡数据的分类方法。时间代价小,训练时间和测试时间都低于其他分类方法,提取图片特征保证图片特征的鲁棒性,避免出现噪声,DDQN的参数更新机制可以有效的减少过拟合现象,保证训练的网络的鲁棒性。鲁棒性。鲁棒性。

【技术实现步骤摘要】
一种基于DDQN的触觉材料不平衡数据的分类方法


[0001]本专利技术涉及触觉材料不平衡数据的分类方法,具体涉及一种基于DDQN的触觉材料不平衡数据的分类方法。

技术介绍

[0002]触觉材料分类成为近年来一个重要且快速发展的研究课题。同时,触觉材料的不平衡数据分类逐渐引起了人们的关注。不同材料样品数量的较大差异降低了许多方法的分类精度。不平衡数据出现在许多实际应用中,如机器人识别和远程操作系统。
[0003]近年来,人们提出了许多触觉材料的分类方法。其中,利用视觉信息进行分类是主要的分类方法之一。在触觉材料分类研究的开始时,人们采用了许多方法从图像中提取手工制作的特征进行分类。他们使用随机投影来压缩图像并获得图像特征,然后使用K阶最近邻方法对这些特征进行分类。此外,计算灰度共生矩阵也是一种很先进的方法。他们使用k阶最近邻来对从灰度共生矩阵中获得的特征进行分类。由于这些方法对图像信息进行了大量压缩,材料之间的差异变得非常小,以至于很难应用到不平衡的数据分类中。随着卷积神经网络(CNN)的发展,已经发展了许多基于CNN的触觉材料分类方法。2015年,Mircea Cimpoi等人使用CNN作为特征提取工具,将从CNN中间层的输出中提取的Fisher

vector描述符定义为特征。但是基于CNN的方法的一个主要缺点是它们在不平衡的数据分类中忽略了具有少量样本的材料。
[0004]处理不平衡数据分类的两种主要方法是过采样技术SMOTE和降采样技术NearMiss。但是这两种方法都不适用于触觉材料的不平衡数据分类。因为SMOTE生成的材料新样本容易导致分类器过拟合。NearMiss由于降采样删除了一些样本,容易造成重要信息的丢失。此外,这两种方法都容易受到噪声的影响。2012年,Mikel Galar等人提出了将集成学习与过采样技术结合的方法SMOTE+Adaboost等,此后一些集成学习的代表方法如随机森林,SMOTE+随机森林等方法也逐渐流行起来。
[0005]DDQN作为一种深度强化学习算法,在机器人决策和游戏领域非常流行。VGG19是牛津大学的视觉几何组(Visual Geometry Group)在2015年提出的,它的提出证明了增加网络的深度在一定程度上影响网络的性能。

技术实现思路

[0006]本专利技术提供了一种基于DDQN的触觉材料不平衡数据的分类方法,以解决现实场景中触觉数据采集时造成的数据不平衡的分类问题。
[0007]本专利技术采取的技术方案是:包括下列步骤:
[0008](1)、利用VGG19处理图片,提取图片特征;
[0009](2)、将VGG19提取的图片特征当作DDQN的状态,将它们的标签当作DDQN的动作,构建DDQN的环境;
[0010](3)、根据不同材料训练集样本数目的不同设置DDQN的奖励函数;
[0011](4)、DDQN的评估网络估计Q值,并选择Q值最大的动作传递给目标网络;
[0012](5)、DDQN的目标网络计算评估网络估计Q值的时间差分误差;
[0013](6)、将评估网络估计Q值的时间差分误差进行随机梯度下降优化参数,直至找到全局最优解,训练结束,保存训练好的网络,根据最大Q值所对应的动作来分类图片。
[0014]本专利技术所述步骤(1)提取图片特征的具体途径是:
[0015]不平衡图片集的标签表示为其中M代表有M种材料,不平衡图片集表示为其中表示第l
i
种材料的图片集,为标准图片集,它的图片数n为所有材料中图片数最少的,然后我们定义不平衡率σ
i
为n除以第l
i
种材料的图片数量,其中i=1,

,M,σ
i
的变化范围是(0,1];
[0016]使用VGG19作为特征提取网络,VGG19由16个卷积层和3个全连接层组成,使用一层全局平均池化层来代替3个全连接层,全局平均池化层输出卷积得到的每个特征图中所有的像素的平均值,然后将这些平均值视为特征向量,将不平衡图片集中的图片输入到VGG19中,得到这些图片的特征{X1,

,X
h
},h是不平衡图片集中所有图片的数量,这些提取的特征将用于下一步构建DDQN的环境。
[0017]本专利技术所述步骤(2)构建DDQN环境的具体途径是,DDQN的环境是由状态和动作组成;
[0018]状态:在每一次迭代开始之前,随机打乱VGG19从不平衡图片集中提取的图片特征{X1,

,X
h
},然后将它们当作状态{S1,

,S
h
},使用这种方式将图片特征转换为状态序列;
[0019]动作:分类的目标是为每张图片找到正确的标签,将其定义为做出正确的动作,将图片的标签{l1,

,l
M
}作为动作空间,DDQN在状态S
t
下做出动作,然后状态S
t
转化为新的状态S
t+1
,t表示DDQN进行的第t步。
[0020]本专利技术所述步骤(3)设置奖励函数的具体途径是:
[0021]为不平衡图片集定义了一个奖励函数R,它随不平衡率σ
i
变化,在状态S
t
,构成状态S
t
的特征的图片属于如果DDQN在第t步的动作a
t
为正确的动作即l
i
,它将得到σ
i
奖励,否则得到

σ
i
奖励,奖励函数如下:
[0022][0023]本专利技术所述步骤(4)中评估网络选择最大Q值的动作的具体途径是:
[0024]在DDQN中,建立基于神经网络的评估网络Q

来估计动作值:Q值;Q值反应了在状态s,DDQN采取了动作a获得的未来奖励的估计;
[0025][0026]其中的w
(t)
表示第t步评估网络Q

的参数,G
t
表示在状态s做出动作a得到的奖励加上未来的奖励,用折扣因子γ来减小未来的奖励对现在动作选取的影响:
[0027]G
t
=R
t
+γR
t+1
+γ2R
t+2
+γ3R
t+3
+


k
R
t+k
[0028]R
t
表示在第t步的状态s
t
做出动作a
t
后根据动作的对错和不平衡奖励函数得到的奖励,R
t+1
表示第t+1步的奖励,k表示在一次迭代中DDQN的所有步数;
[0029]特别地,除了评估网络Q

,DDQN还有另一个目标网络它的构造与评估网络Q

...

【技术保护点】

【技术特征摘要】
1.一种基于DDQN的触觉材料不平衡数据的分类方法,其特征在于,包括下列步骤:(1)、利用VGG19处理图片,提取图片特征;(2)、将VGG19提取的图片特征当作DDQN的状态,将它们的标签当作DDQN的动作,构建DDQN的环境;(3)、根据不同材料训练集样本数目的不同设置DDQN的奖励函数;(4)、DDQN的评估网络估计Q值,并选择Q值最大的动作传递给目标网络;(5)、DDQN的目标网络计算评估网络估计Q值的时间差分误差;(6)、将评估网络估计Q值的时间差分误差进行随机梯度下降优化参数,直至找到全局最优解,训练结束,保存训练好的网络,根据最大Q值所对应的动作来分类图片。2.根据权利要求1所述的一种基于DDQN的触觉材料不平衡数据的分类方法,其特征在于:所述步骤(1)提取图片特征的具体途径是:不平衡图片集的标签表示为其中M代表有M种材料,不平衡图片集表示为其中表示第l
i
种材料的图片集,为标准图片集,它的图片数n为所有材料中图片数最少的,定义不平衡率σ
i
为n除以第l
i
种材料的图片数量,其中i=1,

,M,σ
i
的变化范围是(0,1];使用VGG19作为特征提取网络,VGG19由16个卷积层和3个全连接层组成,使用一层全局平均池化层来代替3个全连接层,全局平均池化层输出卷积得到的每个特征图中所有的像素的平均值,然后将这些平均值视为特征向量,将不平衡图片集中的图片输入到VGG19中,得到这些图片的特征{X1,

,X
h
},h是不平衡图片集中所有图片的数量,这些提取的特征将用于下一步构建DDQN的环境。3.根据权利要求1所述的一种基于DDQN的触觉材料不平衡数据的分类方法,其特征在于:所述步骤(2)构建DDQN环境的具体途径是,DDQN的环境是由状态和动作组成;状态:在每一次迭代开始之前,随机打乱VGG19从不平衡图片集中提取的图片特征{X1,

,X
h
},然后将它们当作状态{S1,

,S
h
},使用这种方式将图片特征转换为状态序列;动作:分类的目标是为每张图片找到正确的标签,将其定义为做出正确的动作,将图片的标签{l1,

,l
M
}作为动作空间,DDQN在状态S
t
下做出动作,然后状态S
t
转化为新的状态S
t+1
,t表示DDQN进行的第t步。4.根据权利要求1所述的一种基于DDQN的触觉材料不平衡数据的分类方法,其特征在于:所述步骤(3)设置奖励函数的具体途径是:为不平衡图片集定义了一个奖励函数R,它随不平衡率σ
i
变化,在状态S
t
,构成状态S
t
的特征的图片属于如果DDQN在第t步的动作a
t
为正确的动作即l
i
,它将得到σ
i
奖励,否则得到

σ
i
奖励,奖励函数如下:5.根据权利要求1所述的一种基于DDQN的触觉材料不平衡数据的分类方法,其特征在于:所述步骤(4)中评估网络选择最大Q值的动作的具体途径是:在DDQN中,建立基于神经网络的评估网络Q

来估计动作值:Q值;
Q值反应了在状态s,DDQN采取了动作a获得的未来奖励的估计;其中的w
(t)

【专利技术属性】
技术研发人员:刘国红吕帅李晓萌王聪孙晓颖
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1