对基于深度学习的检测网络进行自监督学习的方法及装置制造方法及图纸

技术编号:35091914 阅读:10 留言:0更新日期:2022-10-01 16:50
本发明专利技术公开使用深度Q网络对基于深度学习的检测网络进行自监督学习的方法及用其的装置,包括:通过使用学习数据库训练的检测网络对第1未标记图像进行目标检测以生成第1目标检测信息,通过深度Q网络对与第1目标检测信息对应的第1状态集进行学习运算生成Q值,Q值的动作对应于第1未标记图像的接受时,对通过使用将第1未标记图像的标记图像作为学习数据添加的学习数据库来重新训练的检测网络进行测试以生成第1准确度,动作对应于第1未标记图像拒绝时,在无重新训练的情况下测试检测网络以生成第2准确度,生成第1状态集、动作、针对第1准确度或第2准确度的奖励及第2未标记图像的第2状态集作为转换向量,使用转换向量训练深度Q网络。度Q网络。度Q网络。

【技术实现步骤摘要】
对基于深度学习的检测网络进行自监督学习的方法及装置
[0001]相关申请的交叉引用
[0002]本专利技术要求于2021年3月26日提交的美国专利申请第17/213,853号的优先权和权益,其全部内容通过引用合并于此。


[0003]本专利技术涉及一种使用深度Q网络对基于深度学习的检测网络(detection network)进行自监督学习(self

supervised learning)的方法及用其的学习装置,更具体地涉及一种使用检测网络中的目标检测结果,使用由检测网络选择为对训练有用的学习数据对检测网络进行自监督学习的方法及用其的学习装置。

技术介绍

[0004]为了有效地训练检测网络,需要大量的学习数据,所述检测网络执行用于识别多个图像上对象的位置和类别的目标检测。
[0005]在现有技术中,通常使用一种监督学习(supervised learning)技术,其通过使用标记为真实数据的学习数据进行学习来提高针对检测网络的图像分析的准确性,其中所述真实数据为针对多个图像上对象的正确答案数据。然而,监督学习(supervised learning)需要大量的学习数据才能达到高性能,由于需要标记的学习数据,必须由人直接执行标记操作,给定任务越复杂,标记任务所需的时间和成本就越多,因此正在开发能够克服这一问题的学习技术。
[0006]例如,对无监督学习(unsupervised learning)而言,在训练检测网络时,不使用标记的学习数据,而使用聚类(clustering)或密度估计(密度估计)等方法对数据进行分组或识别数据之间的模式的方法。然而,由于没有提供标记的数据,因此难以评估聚类的结果,并且存在定义聚类或模式以将其应用于实际数据的限制的问题。
[0007]另外,作为其他替代方案,还正在研究诸如半监督学习(semi

supervised learning)和自监督学习(self

supervised learning)之类的方法。对半监督学习或自监督学习而言,使用最少量标记的学习数据和大量未标记的学习数据对检测网络进行训练。
[0008]具体地,在半监督学习或自监督学习中,使用标记的学习数据对检测网络进行初始学习,然后使用额外获取的学习数据使检测网络执行给定任务(task)以生成标记数据,如此,使用具有自己生成的标记数据的附加的学习数据和初始学习期间给出的标记学习数据,继续对检测网络进行训练。
[0009]然而,在进行半监督学习或自监督学习时,待用于训练检测网络的自生成数据的选择主要通过应用使用模型置信度(model confidence)等的启发式(heuristic)算法来选择,这些模型置信度等的选择标准的准确度不仅很难确定,不断调整这些选择标准还需要花费大量的时间和费用。
[0010]因此,需要一种能够解决所述问题的改进方案。

技术实现思路

[0011]本专利技术的目的在于解决所有上述问题。
[0012]另外,本专利技术的目的在于,通过使用由深度Q网络(deep Q

network)生成的Q值来有效地选择能够提高检测网络(detection network)的准确度的最优学习数据。
[0013]另外,本专利技术的另一目的在于,对连接于检测网络的深度Q网络进行将检测网络的准确度作为奖励(reward)的强化学习(reinforcement learning),以使深度Q网络生成选择可以提高检测网络的准确度的最优学习数据的Q值。
[0014]此外,本专利技术的再一目的在于,通过使用基于由深度Q网络生成的Q值选择的学习数据来实现针对检测网络的自我监督学习(self

supervised learning)。
[0015]为了实现上述本专利技术的目的并实现后述的本专利技术的特征效果,本专利技术的特征结构如下。
[0016]根据本专利技术的一方面,公开一种使用深度Q网络(deep Q

network)对基于深度学习的检测网络(detection network)进行自监督学习(self

supervised learning)的方法,其包括:(a)在已使用多个存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下,当从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时,学习装置(i)将所述第1未标记图像输入到所述检测网络,使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息,(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set),所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k1对象的第1_k1边界框的第1_k1分类置信度、第1_k1回归不确定性和第1_k1池化特征图,其中所述k1为1以上的整数,(iii)将所述第1状态集输入到深度Q网络,使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值,所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score),(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action);(b)所述学习装置(i)参考所述动作,(i

1)当所述动作对应于所述第1未标记图像的接受(acceptance)时,把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中,从所述未标记数据库中删除所述第1未标记图像,使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络,参考通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度(accuracy)生成或支持生成奖励,(i

2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时,从所述未标记数据库中删除所述第1未标记图像,参考通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度生成或支持生成所述奖励,(ii)当从所述未标记数据库中获得至少一个第2未标记图像时,(ii

1)将所述第2未标记图像输入到所述检测网络,使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息,(ii

2)参考所述第2目标检测信息生成或支持生成第2状态集(state set),所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种使用深度Q网络(deep Q

network)对基于深度学习的检测网络(detection network)进行自监督学习(self

supervised learning)的方法,其特征在于,包括:(a)步骤,在已使用多个存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下,当从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时,学习装置(i)将所述第1未标记图像输入到所述检测网络,使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息,(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set),所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k1对象的第1_k1边界框的第1_k1分类置信度、第1_k1回归不确定性和第1_k1池化特征图,其中所述k1为1以上的整数,(iii)将所述第1状态集输入到深度Q网络,使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值,所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score),(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action);(b)步骤,所述学习装置(i)参考所述动作,(i

1)当所述动作对应于所述第1未标记图像的接受(acceptance)时,把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中,从所述未标记数据库中删除所述第1未标记图像,使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络,参考通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度(accuracy)生成或支持生成奖励,(i

2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时,从所述未标记数据库中删除所述第1未标记图像,参考通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度生成或支持生成所述奖励,(ii)当从所述未标记数据库中获得至少一个第2未标记图像时,(ii

1)将所述第2未标记图像输入到所述检测网络,使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息,(ii

2)参考所述第2目标检测信息生成或支持生成第2状态集(state set),所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k2对象的第2_k2边界框的第2_k2分类置信度、第2_k2回归不确定性和第2_k2池化特征图,其中所述k2为1以上的整数,(ii

3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器;以及(c)步骤,所述学习装置通过从所述存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成或支持生成小批量(minibatch),使用所述小批量训练所述深度Q网络,以使所述深度Q网络根据所述第1状态集和所述第2状态集输出用于增加所述奖励的动作。2.根据权利要求1所述的方法,其特征在于,在所述(a)步骤中:所述学习装置使深度Q网络(i)将至少一个全连接(Fully

Connected)运算应用于与所述第1_1边界框对应的所述第1_1分类置信度、所述第1_1回归不确定性和所述第1_1池化特
information),(v)参考多个与每个所述ROI对应的所述回归信息和所述分类信息,生成或支持生成与位于所述第1未标记图像上的所述第1对象至所述第k1对象中各对象对应的所述第1_1边界框至所述第1_k1边界框与所述第1_1分类信息至所述第1_k1分类信息。7.一种使用深度Q网络(deep Q

network)对基于深度学习的检测网络(detection network)进行自监督学习(self

supervised learning)的方法,其特征在于,包括:(a)步骤,在已使用存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下,学习装置(I)在从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时,(i)将所述第1未标记图像输入到所述检测网络,使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息,(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set),所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k1对象的第1_k1边界框的第1_k1分类置信度、第1_k1回归不确定性和第1_k1池化特征图,其中所述k1为1以上的整数,(iii)将所述第1状态集输入到深度Q网络,使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值,所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score),(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action);(II)(i)参考所述动作,(i

1)当所述动作对应于所述第1未标记图像的接受(acceptance)时,把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中,从所述未标记数据库中删除所述第1未标记图像,使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络,生成或支持生成通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度作为奖励(reward),(i

2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时,从所述未标记数据库中删除所述第1未标记图像,生成或支持生成通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度作为所述奖励,(ii)当从所述未标记数据库中获得至少一个第2未标记图像时,(ii

1)将所述第2未标记图像输入到所述检测网络,使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息,(ii

2)参考所述第2目标检测信息生成或支持生成第2状态集(state set),所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k2对象的第2_k2边界框的第2_k2分类置信度、第2_k2回归不确定性和第2_k2池化特征图,其中所述k2为1以上的整数,(ii

3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器;以及(III)在从所述存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成或支持生成小批量(minibatch),使用所述小批量训练或支持训练所述深度Q网络,以使所述深度Q网络根据所述第1状态集和所述第2状态集输出用于增加所述奖励的动作的状态下,自学习装置在获得从新的未标记数据库中选择的至少一个新的未标记图像时,(i)将所述新的未标记图像输入到所述检测网络,使所述检测网络通过对所述新的未标记图像进行目标检测来生成或支
interest),(iii)通过池化层对与所述新的特征图上的多个所述新的ROI对应的每个所述候选区域进行ROI池化,以生成或支持生成多个与每个所述新的ROI对应的新的池化特征图,(iv)通过至少一个全连接(Fully

Connected)层对所述新的池化特征图进行全连接运算,生成或支持生成多个与每个所述新的所述ROI对应的新的回归信息(regression information)和新的分类信息(classification information),(v)参考与每个所述新的ROI对应的多个所述新的回归信息和多个所述新的分类信息,生成或支持生成与位于所述新的未标记图像上的所述第1对象至所述第k3对象中各对象对应的所述第1新的边界框至所述第k3新的边界框与第1新的分类信息至第k3新的分类信息。11.一种使用深度Q网络(deep Q

network)对基于深度学习的检测网络(detection network)进行自监督学习(self

supervised learning)的学习装置,其特征在于,包括:至少一个存储指令的存储器;和至少一个用于执行所述指令的处理器,所述处理器执行如下处理:(I)在已使用存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下,在从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时,(i)将所述第1未标记图像输入到所述检测网络,使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息,(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set),所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k1对象的第1_k1边界框的第1_k1分类置信度、第1_k1回归不确定性和第1_k1池化特征图,其中所述k1为1以上的整数,(iii)将所述第1状态集输入到深度Q网络,使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值,所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score),(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action)的处理;(II)(i)参考所述动作,(i

1)当所述动作对应于所述第1未标记图像的接受(acceptance)时,把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中,从所述未标记数据库中删除所述第1未标记图像,使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络,生成或支持生成通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度(accuracy)作为奖励,(i

2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时,从所述未标记数据库中删除所述第1未标记图像,生成或支持生成通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度(accuracy)作为所述奖励,(ii)当从所述未标记数据库中获得至少一个第2未标记图像时,(ii

1)将所述第2未标记图像输入到所述检测网络,使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息,(ii

2)参考所述第2目标检测信息生成或支持生成第2状态集(state set),所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k2对象的第2_k2边界框的第2_k2分类置信度、第2_k2回归不确定性和第2_k2池化特
征图,其中所述k2为1以上的整数,(ii

3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器的处理;以及(III)通过从所述存储器中采样待用作至少一个学习...

【专利技术属性】
技术研发人员:柳宇宙康凤男诸泓模
申请(专利权)人:斯特拉德视觉公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1