基于孤立森林的开集识别方法、装置、设备及存储介质制造方法及图纸

技术编号:38248059 阅读:13 留言:0更新日期:2023-07-25 18:07
本发明专利技术提供了一种基于孤立森林的开集识别方法、装置、设备及存储介质,属于计算机视觉技术领域。开集识别方法包括:构建基于孤立森林的开集识别模型,开集识别模型中包含图像识别模型和孤立森林模型;将待识别图像输入图像识别模型中获取图像的类别向量和低维表示;将图像的低维表示输入孤立森林模型中获取决策路径长度;利用决策路径长度剔除异常图像,利用图像的类别向量判断该图像的类别。本发明专利技术所提供的开集识别算法结合了图像识别模型和孤立森林模型,能够剔除未知类别的图像,也能识别正常图像的具体类别,处理效率高;图像识别模型能够将图像数据处理为孤立森林模型能够处理的低维数据,能够提高孤立森林模型的效率、准确性和泛化能力。准确性和泛化能力。准确性和泛化能力。

【技术实现步骤摘要】
基于孤立森林的开集识别方法、装置、设备及存储介质


[0001]本专利技术属于计算机视觉
,具体涉及一种基于孤立森林的开集识别方法、装置、设备及存储介质。

技术介绍

[0002]常规的机器学习分类模型属于封闭集识别(Closed Set Recognition)任务,只能对已知类别给出是与否的判断,实际使用过程中会把未知类型数据识别成已知的某类数据,这会极大的影响模型的识别效果。与封闭集识别对应的为开集识别(Open Set Recognition),与传统的封闭集识别不同,封闭集识别假设所有的测试样本都来自于已知的类别,而开集识别则要求模型能够在测试时识别出未知类别的样本。
[0003]由于开集识别能够检测并拒绝未知类别的样本,因此可以将开集识别作为机器学习算法的补充算法,预先识别并拒绝未知类型数据,能够避免机器学习分类模型将未知类别的样本误判为已知类别的样本,从而提高机器学习分类模型的识别率。开集识别能够应用于如猫狗图片识别、设备缺陷外观检测、欺诈邮件检测等多种机器学习分类任务中。但现有开集识别算法在处理图像数据时效率不佳。

技术实现思路

[0004]本专利技术所要解决的技术问题是,针对现有技术的不足,提供一种基于孤立森林的开集识别方法、装置、设备及存储介质。
[0005]为解决上述技术问题,本专利技术所采用的技术方案是:一种基于孤立森林的开集识别方法,包括:构建基于孤立森林的开集识别模型,所述开集识别模型中包含图像识别模型和孤立森林模型;将待识别图像输入图像识别模型中获取图像的类别向量和低维表示;将图像的低维表示输入孤立森林模型中获取决策路径长度;利用决策路径长度剔除异常图像,利用图像的类别向量判断该图像的类别。
[0006]进一步的,所述开集识别模型的构建方法包括:构建样本图像集、构建图像识别模型、构建孤立森林模型。
[0007]进一步的,所述图像识别模型包括:主干网络、卷积网络、全连接层、多个线性变换层和结果层。
[0008]进一步的,所述低维表示为所有所述线性变换层单层1D池化结果的拼接向量。
[0009]进一步的,所述类别向量为所述结果层的输出。
[0010]进一步的,所述图像识别模型的损失函数为sigmoid函数。
[0011]进一步的,利用决策路径长度剔除异常图像的方法包括:如果决策路径过短,则剔除该图像。
[0012]进一步的,利用所述类别向量判断图像类别的方法包括:所述类别向量与预定义
的阈值做对比,判断图像中包含的类别特征,并输出判断结果。
[0013]进一步的,所述样本图像集的构建方法包括:确定需要识别出的类别特征;收集包含类别特征的样本图像;每个图像以其包含的类别特征作为标签进行标注。
[0014]进一步的,所述样本图像集中还包括:不含任何所述类别特征的样本图像。
[0015]一种基于孤立森林的开集识别装置,包括:获取单元,用于获取样本图像集;训练单元,用于根据所述样本图像集完成开集识别模型的构建和训练,所述开集识别模型中包含图像识别模型和孤立森林模型;所属图像识别模型用于获取图像的类别向量和图像的低维表示,所属孤立森林模型用于根据图像的低维表示获取决策路径长度;识别单元,用于利用所述图像识别模型获取图像的类别向量和低维表示,用于利用所述孤立森林模型获取决策路径长度,用于根据决策路径长度剔除异常图像,用于根据图像的类别向量判断图像的类别。
[0016]一种电子设备,包括处理器和存储器;所述存储器用于存储可执行指令,所述处理器用于执行所述指令,以实现权利要求1

7任一项所述的识别方法。
[0017]一种计算机可读存储介质,所述可读存储介质中存储有指令,当所述指令被执行时,实现权利要求1

7任一项所述的识别方法。
[0018]目前常用的开集识别算法有基于距离的开集识别算法和基于重构的开集识别算法。基于距离算法主要通过度量样本与训练集数据的距离是否超过某阈值,通常涉及学习训练样本覆盖空间,即已知类别的数据分布空间,在空间外的数据都是未知类别数据。但基于距离的开集识别算法每次样本分析都需要遍历训练样本集,因此会增加计算成本;一些基于距离的算法需要额外的未知类别数据的搜集,但在实际使用中对很难搜集到所有未知类别的数据。
[0019]基于重构算法使用深度学习算法预测类别的同时对特征数据进行重构,然后设计一些指标度量重构特征与原特征的区别,区别越大说明样本越有可能是未知类别的样本。基于重构的开集识别算法度量指标比松散较难以定义,指标定义过于严苛会影响分类模型的识别效果,而指标定义过于则会导致漏识别;重构算法一般采用自编码器、生成对抗网络等深度学习模型进行重构,而这类网络都有比较高的计算复杂度,计算成本较高。
[0020]现有开集识别算法常常需要收集额外数据,并训练获取异常数据检测模型。这意味着开发人员需要搜集足够多的各类图片,包括已知类别的和未知的类别,因此图像的收集成本高;再利用图像数据设计深度学习网络结构后,需要经过不断的超参数调优以获取准确的异常检测模型,而超参数调优需要反复试验和实验设计,需要耗费大量的时间和计算资源;由于开集识别算法是在未知数据上进行识别,因此模型的泛化能力可能受到限制。除此之外,模型上线后还需要根据用户的使用反馈来不断维护数据集、维护识别模型。
[0021]基于上述原因,本申请人采用孤立森林(Isolation Forest)算法来构建开集识别模型。孤立森林是一种基于树结构的识别算法,每个数据点都被随机地选择,并且在树中随机地分割,直到每个数据点都被分割到一个叶节点上,从而形成一棵随机的二叉搜索树。异常数据点通常比正常数据点更容易被分割到树的较浅层,因此可以通过计算每个数据点在树中的深度(决策路径长度)来识别异常数据点。
[0022]孤立森林算法相比于基于距离和基于重构算法,其计算复杂度较低,能够在较短
的时间内处理大量的数据;孤立森林算法对数据分布的假设较少,因此对于非线性或者非高斯分布的数据也能够有效地进行开集识别;孤立森林算法对噪声数据和异常值具有一定的鲁棒性,能够有效地识别开集中的异常样本;孤立森林算法的树结构能够直观地表示数据的分布情况和异常样本的位置,具有较强的可解释性。
[0023]但孤立森林算法并不适用于处理图像数据,因为孤立森林算法是针对数值型数据设计的,而图像数据是一种结构化数据。基于树的模型通常在较低维度的数据上训练,由于图像数据的维度超高,因此常规的基于树的模型不能应用在图片识别任务中。如尺寸为1920*1080*3的普通图片也有约600万的维度,如此高维的数据不适合孤立森林算法,即使利用孤立森林算法来识别图像数据,也会大大增加孤立森林模型的计算复杂度,导致算法的性能严重下降;由于孤立森林算法每次切数据空间都是随机选取一个维度,如果处理的是特别高维的数据,建完树后仍然有大量的维度信息没有被使用,导致算法可靠性降低;高维空间还可能存在大量噪音维度或无关维度,影响树的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于孤立森林的开集识别方法,其特征在于:所述识别方法包括:构建基于孤立森林的开集识别模型,所述开集识别模型中包含图像识别模型和孤立森林模型;将待识别图像输入图像识别模型中获取图像的类别向量和低维表示;将图像的低维表示输入孤立森林模型中获取决策路径长度;利用决策路径长度剔除异常图像,利用图像的类别向量判断图像的类别。2.根据权利要求1所述的基于孤立森林的开集识别方法,其特征在于:所述开集识别模型的构建方法包括:构建样本图像集、构建图像识别模型、构建孤立森林模型。3.根据权利要求2所述的基于孤立森林的开集识别方法,其特征在于:所述图像识别模型包括:主干网络、卷积网络、全连接层、多个线性变换层和结果层。4.根据权利要求3所述的基于孤立森林的开集识别方法,其特征在于:所述低维表示为所有所述线性变换层单层1D池化结果的拼接向量。5.根据权利要求3所述的基于孤立森林的开集识别方法,其特征在于:所述类别向量为所述结果层的输出。6.根据权利要求1所述的基于孤立森林的开集识别方法,其特征在于:利用决策路径长度剔除异常图像的方法包括:如果决策路径过短,则剔除该图像。7.根据权利要求1所述的...

【专利技术属性】
技术研发人员:井友鼎崔磊杜创胜路利光王亚勇黄加军邓攀郝增财马庆伟王旭峰
申请(专利权)人:河南合众伟奇云智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1