System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 特征处理、特征检索方法、电子设备及计算机存储介质技术_技高网

特征处理、特征检索方法、电子设备及计算机存储介质技术

技术编号:39945912 阅读:8 留言:0更新日期:2024-01-08 22:55
本申请提出一种基于特征检索的特征处理方法、特征检索方法、电子设备及计算机存储介质,包括:获取目标特征;根据所述目标特征的每一特征维度的特征样本分布,获取特征样本排序结果,以及所述排序结果的分段点值、特征平均值;获取特征样本与分段点值的第一距离和与特征平均值的第二距离;获取第二距离小于第一距离的特征样本占比;将特征样本占比大于预设阈值的特征维度的所有特征样本按照三值化量化;将特征样本占比小于等于预设阈值的特征维度的所有特征样本按照二值化量化;根据三值化量化结果和/或二值化量化结果对所述目标特征在特征底库中进行检索。通过上述方式,降低特征检索误差。

【技术实现步骤摘要】

本申请涉及人工智能,特别是涉及一种特征处理、特征检索方法、电子设备及计算机存储介质


技术介绍

1、大规模特征检索,从大量特征库中找到topk相近(相似度最高或距离最小)的目标。为了加速该检索过程,提出了特征量化、降维、分桶等技术思路。其中,将d维原始特征,降为n维(一般为d或d的整数倍)的二值化哈希特征,可带来非常可观的内存节约和速度提升,使用广泛。二值化哈希特征,可通过位运算获得汉明距离,计算效率极高;同时每个特征现在只占用1bit,相比原本可能fp32浮点数为4byte,下降了32倍。二值化特征,将每个维度的浮点数,映射为1或-1,也导致了精度明显下降。对于生物特征检索等精度要求高的任务,基本不可用。行业也存在一些,比如采用多个二值化模板,生成多个d维二值化特征来提高精度等思路。

2、由于二值化特征的维度有限,所能包含的信息量实在有限,精度损失往往较明显。多层筛查思路,会导致需要多次检索才能完成业务需求,这些检索还是串行依赖的,会明显增加整体耗时,往往实用风险较大。


技术实现思路

1、本申请提供了一种特征处理、特征检索方法、电子设备及计算机存储介质。

2、为解决上述技术问题,本申请提出一种特征处理方法,所述特征处理方法包括:获取目标特征;根据所述目标特征的每一特征维度的特征样本分布,获取特征样本排序结果,以及所述排序结果的分段点值、特征平均值;获取所述特征样本与所述分段点值的第一距离和与所述特征平均值的第二距离;获取所述第二距离小于所述第一距离的特征样本占比;将所述特征样本占比大于预设阈值的特征维度的所有特征样本按照三值化量化;将所述特征样本占比小于等于预设阈值的特征维度的所有特征样本按照二值化量化;根据三值化量化结果和/或二值化量化结果对所述目标特征在特征底库中进行检索。

3、其中,所述分段点值包括第一分段点值和第二分段点值;所述获取所述特征样本与所述分段点值的第一距离,包括:获取特征样本与所述第一分段点值的第三距离以及所述特征样本与所述第二分段点值的第四距离;所述获取所述第二距离小于所述第一距离的特征样本占比,包括:获取所述第三距离和所述第四距离均小于所述第一距离的特征样本占比。

4、其中,所述特征平均值为所述第一分段点值和所述第二分段点值的差值的均值。

5、其中,所述将所述特征样本占比大于预设阈值的特征维度的所有特征样本按照三值化量化,包括:获取特征样本占比大于预设阈值的特征维度的所有特征样本的特征值;获取若干预设分界点;根据所述特征值和特征量化函数计算若干预设分界点的误差值;将所述误差值最小的预设分界点作为最终分界点;按照所述分界点对所述特征样本按照三值化量化。

6、为解决上述技术问题,本申请提出一种特征检索方法,所述特征检索方法包括:获取量化特征,其中,所述量化特征上述所述的特征处理方法获取;将不同量化方式的量化特征,转化为矩阵特征;按照所述矩阵特征在量化底库中进行检索。

7、其中,所述将不同量化方式的量化特征,转化为矩阵特征,包括:获取所述量化特征的二值化特征位数以及三值化特征位数;将所述二值化特征位数组装为二值化矩阵,将所述三值化的特征位数组装为三值化矩阵;将所述二值化矩阵和所述三值化矩阵进行组合,获取矩阵特征。

8、其中,所述按照所述矩阵特征在量化底库中进行检索,包括:获取所述矩阵特征与所述量化底库中各预设量化特征的特征距离,其中,所述特征距离包括所述二值化矩阵到所述预设量化特征的第一特征距离和所述三值化矩阵到所述预设量化特征的第二特征距离;基于所述第一特征距离和所述第二特征距离,获取总特征距离;获取所述总特征距离最小的预设量化特征,作为所述矩阵特征的检索结果。

9、其中,所述特征检索方法,还包括:将所述矩阵特征的三值化矩阵与所述预设量化特征的三值化矩阵做异或操作,获取异或结果;获取所述异或结果中预设值的数量;基于所述预设值的数量以及预设系数,获取所述三值化矩阵到所述预设量化特征的第二特征距离

10、为解决上述技术问题,本申请提出一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有程序数据,所述处理器用于执行所述程序数据以实现上述所述的特征处理方法和/或上述所述的特征检索方法。

11、为解决上述技术问题,本申请提出一种计算机存储介质,所述计算机存储介质用于存储程序数据,所述程序数据在被处理器执行时,用以实现上述所述的特征处理方法和/或上述所述的特征检索方法。

12、本申请的有益效果是:本申请提出一种特征处理方法,电子设备获取目标特征;根据所述目标特征的每一特征维度的特征样本分布,获取特征样本排序结果,以及所述排序结果的分段点值、特征平均值;获取所述特征样本与所述分段点值的第一距离和与所述特征平均值的第二距离;获取所述第二距离小于所述第一距离的特征样本占比;将所述特征样本占比大于预设阈值的特征维度的所有特征样本按照三值化量化;将所述特征样本占比小于等于预设阈值的特征维度的所有特征样本按照二值化量化;根据三值化量化结果和/或二值化量化结果对所述目标特征在特征底库中进行检索。通过上述方式,按照特征的每一维度的特征值的排列分布方式,选择将二值化量化误差较大的维度进行三值化量化,相比于所有特征维度均完全二值化的方案,本申请对于特征处理的方式通过微小的增加计算量,带来明显的降低后续检索误差的技术效果。

本文档来自技高网...

【技术保护点】

1.一种基于特征检索的特征处理方法,其特征在于,所述特征处理方法包括:

2.根据权利要求1所述的特征处理方法,其特征在于,

3.根据权利要求2所述的特征处理方法,其特征在于,

4.根据权利要求1所述的特征处理方法,其特征在于,

5.一种特征检索方法,其特征在于,所述特征检索方法包括:

6.根据权利要求5所述的特征检索方法,其特征在于,

7.根据权利要求6所述的特征检索方法,其特征在于,

8.根据权利要求7所述的特征检索方法,其特征在于,

9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有程序数据,所述处理器用于执行所述程序数据以实现如权利要求1-4任一项所述的特征处理方法和/或权利要求5-8任一项所述的特征检索方法。

10.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被处理器执行时,用以实现权利要求1-4任一项所述的特征处理方法和/或权利要求5-8任一项所述的特征检索方法。

【技术特征摘要】

1.一种基于特征检索的特征处理方法,其特征在于,所述特征处理方法包括:

2.根据权利要求1所述的特征处理方法,其特征在于,

3.根据权利要求2所述的特征处理方法,其特征在于,

4.根据权利要求1所述的特征处理方法,其特征在于,

5.一种特征检索方法,其特征在于,所述特征检索方法包括:

6.根据权利要求5所述的特征检索方法,其特征在于,

7.根据权利要求6所述的特征检索方法,其特征在于,

8.根...

【专利技术属性】
技术研发人员:邸德宁华逸伦杨凯航郝敬松朱树磊殷俊
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1