对基于深度学习的检测网络进行自监督学习的方法及装置制造方法及图纸

技术编号：35091914 阅读：10 留言：0更新日期：2022-10-01 16:50

本发明专利技术公开使用深度Q网络对基于深度学习的检测网络进行自监督学习的方法及用其的装置，包括：通过使用学习数据库训练的检测网络对第1未标记图像进行目标检测以生成第1目标检测信息，通过深度Q网络对与第1目标检测信息对应的第1状态集进行学习运算生成Q值，Q值的动作对应于第1未标记图像的接受时，对通过使用将第1未标记图像的标记图像作为学习数据添加的学习数据库来重新训练的检测网络进行测试以生成第1准确度，动作对应于第1未标记图像拒绝时，在无重新训练的情况下测试检测网络以生成第2准确度，生成第1状态集、动作、针对第1准确度或第2准确度的奖励及第2未标记图像的第2状态集作为转换向量，使用转换向量训练深度Q网络。度Q网络。度Q网络。

全部详细技术资料下载

【技术实现步骤摘要】
对基于深度学习的检测网络进行自监督学习的方法及装置
[0001]相关申请的交叉引用
[0002]本专利技术要求于2021年3月26日提交的美国专利申请第17/213,853号的优先权和权益，其全部内容通过引用合并于此。

[0003]本专利技术涉及一种使用深度Q网络对基于深度学习的检测网络(detection network)进行自监督学习(self
‑
supervised learning)的方法及用其的学习装置，更具体地涉及一种使用检测网络中的目标检测结果，使用由检测网络选择为对训练有用的学习数据对检测网络进行自监督学习的方法及用其的学习装置。

技术介绍

[0004]为了有效地训练检测网络，需要大量的学习数据，所述检测网络执行用于识别多个图像上对象的位置和类别的目标检测。
[0005]在现有技术中，通常使用一种监督学习(supervised learning)技术，其通过使用标记为真实数据的学习数据进行学习来提高针对检测网络的图像分析的准确性，其中所述真实数据为针对多个图像上对象的正确答案数据。然而，监督学习(supervised learning)需要大量的学习数据才能达到高性能，由于需要标记的学习数据，必须由人直接执行标记操作，给定任务越复杂，标记任务所需的时间和成本就越多，因此正在开发能够克服这一问题的学习技术。
[0006]例如，对无监督学习(unsupervised learning)而言，在训练检测网络时，不使用标记的学习数据，而使用聚类(cluster...

【技术保护点】

【技术特征摘要】
1.一种使用深度Q网络(deep Q
‑
network)对基于深度学习的检测网络(detection network)进行自监督学习(self
‑
supervised learning)的方法，其特征在于，包括：(a)步骤，在已使用多个存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下，当从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时，学习装置(i)将所述第1未标记图像输入到所述检测网络，使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息，(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set)，所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k1对象的第1_k1边界框的第1_k1分类置信度、第1_k1回归不确定性和第1_k1池化特征图，其中所述k1为1以上的整数，(iii)将所述第1状态集输入到深度Q网络，使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值，所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score)，(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action)；(b)步骤，所述学习装置(i)参考所述动作，(i
‑
1)当所述动作对应于所述第1未标记图像的接受(acceptance)时，把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中，从所述未标记数据库中删除所述第1未标记图像，使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络，参考通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度(accuracy)生成或支持生成奖励，(i
‑
2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时，从所述未标记数据库中删除所述第1未标记图像，参考通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度生成或支持生成所述奖励，(ii)当从所述未标记数据库中获得至少一个第2未标记图像时，(ii
‑
1)将所述第2未标记图像输入到所述检测网络，使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息，(ii
‑
2)参考所述第2目标检测信息生成或支持生成第2状态集(state set)，所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k2对象的第2_k2边界框的第2_k2分类置信度、第2_k2回归不确定性和第2_k2池化特征图，其中所述k2为1以上的整数，(ii
‑
3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器；以及(c)步骤，所述学习装置通过从所述存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成或支持生成小批量(minibatch)，使用所述小批量训练所述深度Q网络，以使所述深度Q网络根据所述第1状态集和所述第2状态集输出用于增加所述奖励的动作。2.根据权利要求1所述的方法，其特征在于，在所述(a)步骤中：所述学习装置使深度Q网络(i)将至少一个全连接(Fully
‑
Connected)运算应用于与所述第1_1边界框对应的所述第1_1分类置信度、所述第1_1回归不确定性和所述第1_1池化特
information)，(v)参考多个与每个所述ROI对应的所述回归信息和所述分类信息，生成或支持生成与位于所述第1未标记图像上的所述第1对象至所述第k1对象中各对象对应的所述第1_1边界框至所述第1_k1边界框与所述第1_1分类信息至所述第1_k1分类信息。7.一种使用深度Q网络(deep Q
‑
network)对基于深度学习的检测网络(detection network)进行自监督学习(self
‑
supervised learning)的方法，其特征在于，包括：(a)步骤，在已使用存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下，学习装置(I)在从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时，(i)将所述第1未标记图像输入到所述检测网络，使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息，(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set)，所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k1对象的第1_k1边界框的第1_k1分类置信度、第1_k1回归不确定性和第1_k1池化特征图，其中所述k1为1以上的整数，(iii)将所述第1状态集输入到深度Q网络，使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值，所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score)，(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action)；(II)(i)参考所述动作，(i
‑
1)当所述动作对应于所述第1未标记图像的接受(acceptance)时，把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中，从所述未标记数据库中删除所述第1未标记图像，使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络，生成或支持生成通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度作为奖励(reward)，(i
‑
2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时，从所述未标记数据库中删除所述第1未标记图像，生成或支持生成通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度作为所述奖励，(ii)当从所述未标记数据库中获得至少一个第2未标记图像时，(ii
‑
1)将所述第2未标记图像输入到所述检测网络，使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息，(ii
‑
2)参考所述第2目标检测信息生成或支持生成第2状态集(state set)，所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k2对象的第2_k2边界框的第2_k2分类置信度、第2_k2回归不确定性和第2_k2池化特征图，其中所述k2为1以上的整数，(ii
‑
3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器；以及(III)在从所述存储器中采样待用作至少一个学习用转换向量的至少一个特定转换向量来生成或支持生成小批量(minibatch)，使用所述小批量训练或支持训练所述深度Q网络，以使所述深度Q网络根据所述第1状态集和所述第2状态集输出用于增加所述奖励的动作的状态下，自学习装置在获得从新的未标记数据库中选择的至少一个新的未标记图像时，(i)将所述新的未标记图像输入到所述检测网络，使所述检测网络通过对所述新的未标记图像进行目标检测来生成或支
interest)，(iii)通过池化层对与所述新的特征图上的多个所述新的ROI对应的每个所述候选区域进行ROI池化，以生成或支持生成多个与每个所述新的ROI对应的新的池化特征图，(iv)通过至少一个全连接(Fully
‑
Connected)层对所述新的池化特征图进行全连接运算，生成或支持生成多个与每个所述新的所述ROI对应的新的回归信息(regression information)和新的分类信息(classification information)，(v)参考与每个所述新的ROI对应的多个所述新的回归信息和多个所述新的分类信息，生成或支持生成与位于所述新的未标记图像上的所述第1对象至所述第k3对象中各对象对应的所述第1新的边界框至所述第k3新的边界框与第1新的分类信息至第k3新的分类信息。11.一种使用深度Q网络(deep Q
‑
network)对基于深度学习的检测网络(detection network)进行自监督学习(self
‑
supervised learning)的学习装置，其特征在于，包括：至少一个存储指令的存储器；和至少一个用于执行所述指令的处理器，所述处理器执行如下处理：(I)在已使用存储在学习数据库中的学习数据训练用于检测对象的检测网络的状态下，在从未标记数据库(unlabeled database)中获得至少一个第1未标记图像(unlabeled image)时，(i)将所述第1未标记图像输入到所述检测网络，使所述检测网络对所述第1未标记图像进行目标检测以生成或支持生成第1目标检测信息，(ii)参考所述第1目标检测信息生成或支持生成第1状态集(state set)，所述第1状态集包括对应于针对包括在所述第1未标记图像中的第1对象的第1_1边界框的第1_1分类置信度(classification confidence)、第1_1回归不确定性(regression uncertainty)和第1_1池化特征图(pooled feature map)至对应于针对包括在所述第1未标记图像中的第k1对象的第1_k1边界框的第1_k1分类置信度、第1_k1回归不确定性和第1_k1池化特征图，其中所述k1为1以上的整数，(iii)将所述第1状态集输入到深度Q网络，使所述深度Q网络对所述第1状态集进行学习运算以生成或支持生成Q值，所述Q值包括对应于所述第1未标记图像的接受分数(acceptance score)和拒绝分数(rejection score)，(iv)将argMax函数应用于所述Q值以生成或支持生成动作(action)的处理；(II)(i)参考所述动作，(i
‑
1)当所述动作对应于所述第1未标记图像的接受(acceptance)时，把将所述第1目标检测信息作为标签添加到所述第1未标记图像而获得的标记图像(labeled image)作为学习数据添加到所述学习数据库中，从所述未标记数据库中删除所述第1未标记图像，使用包括在所述学习数据库中的至少一个所述学习数据重新训练所述检测网络，生成或支持生成通过使用验证数据库测试重新训练的所述检测网络而获得的重新训练的所述检测网络的第1准确度(accuracy)作为奖励，(i
‑
2)当所述动作对应于所述第1未标记图像的拒绝(rejection)时，从所述未标记数据库中删除所述第1未标记图像，生成或支持生成通过使用所述验证数据库测试所述检测网络而获得的所述检测网络的第2准确度(accuracy)作为所述奖励，(ii)当从所述未标记数据库中获得至少一个第2未标记图像时，(ii
‑
1)将所述第2未标记图像输入到所述检测网络，使所述检测网络对所述第2未标记图像进行目标检测以生成或支持生成第2目标检测信息，(ii
‑
2)参考所述第2目标检测信息生成或支持生成第2状态集(state set)，所述第2状态集包括对应于针对包括在所述第2未标记图像中的第1对象的第2_1边界框的第2_1分类置信度、第2_1回归不确定性和第2_1池化特征图至对应于针对包括在所述第2未标记图像中的第k2对象的第2_k2边界框的第2_k2分类置信度、第2_k2回归不确定性和第2_k2池化特
征图，其中所述k2为1以上的整数，(ii
‑
3)将所述第1状态集、所述动作、所述奖励和所述第2状态集作为转换向量(transition vector)存储或支持存储在存储器的处理；以及(III)通过从所述存储器中采样待用作至少一个学习...

【专利技术属性】
技术研发人员：柳宇宙，康凤男，诸泓模，
申请(专利权)人：斯特拉德视觉公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人