特征向量二值化、相似度评价、检索方法、设备和介质技术

技术编号:21035367 阅读:45 留言:0更新日期:2019-05-04 05:48
本发明专利技术公开了特征向量二值化、相似度评价、检索方法、设备和介质,其中二值化方法用于根据特征向量构建二值化向量;该方法包括:将特征向量划分为若干个分特征向量,以及分别计算每一分特征向量中所有元素的均值;根据每一元素相应分特征向量的均值计算每一元素对应的差值元素;根据每一元素相应分特征向量的均值以及每一元素对应的差值元素判断每一元素是否满足预设的置位条件;设置二值化向量中与满足置位条件元素对应的位为第一值,二值化向量中其余的位为第二值。可以保留特征向量中较为关键的信息,而忽略较为次要的信息,以缩减特征向量的规模,从而可以在保持准确率的情况下,降低特征向量对比、检索等工作的计算量。

Feature Vector Binarization, Similarity Evaluation, Retrieval Method, Equipment and Media

【技术实现步骤摘要】
特征向量二值化、相似度评价、检索方法、设备和介质
本专利技术涉及信息处理技术,尤其涉及特征向量二值化、相似度评价、检索方法、设备和介质。
技术介绍
随着信息化时代数据的大爆发以及大数据技术的应用,经常需要从很多数据中找出所需要的数据,或者对比两数据的相似程度。例如,在获取到某一待判断指纹后需要从指纹库中找出与该待判断指纹最接近的指纹,以便找到待判断指纹所关联的信息,如犯罪嫌疑人身份;又例如评价两篇文章的相似程度,实现查重;又例如在各类安防监控系统上人脸识别应用越来越多,其实用价值也越来越高,各级地市的相关部门也已经或者将要去建设基于人脸识别技术的监控系统;在人像监控系统中经常需要实现对对人像大库进行1:N或者m:N检索。现有技术通常从相关数据,如人像、指纹、音频等提取多维的特征向量,然后通过直接比较多维特征向量判断数据的相似程度;但是当数据量达到上亿甚至几十亿时,那么对多维的特征向量进行比对时的运算量巨大,计算速度和检索速度难以满足,用户体验下降。
技术实现思路
本专利技术实施例提供一种特征向量二值化方法、相似度评价方法、检索方法、设备和介质,可以保留特征向量中较为关键的信息,而忽略较为次要的信息,以缩减特征向量的规模,从而可以在保持准确率的情况下,降低特征向量对比、检索等工作的计算量。本专利技术实施例第一方面提供了一种特征向量二值化方法,所述特征向量包括若干个元素,所述特征向量二值化方法包括:根据所述特征向量中元素的个数初始化二值化向量,所述二值化向量包括与所述若干个元素对应的若干个位;将所述特征向量划分为若干个分特征向量,以及分别计算每一分特征向量中所有元素的均值;根据每一元素相应分特征向量的均值计算所述每一元素对应的差值元素;根据每一元素相应分特征向量的均值以及所述每一元素对应的差值元素判断所述每一元素是否满足预设的置位条件;设置所述二值化向量中与满足所述置位条件元素对应的位为第一值,所述二值化向量中其余的位为第二值,且所述第一值与第二值不同。在一些实施例中,所述元素满足所述置位条件,具体包括:所述元素相应分特征向量的均值大于第一阈值,且所述元素对应的差值元素小于第二阈值;或者所述元素相应分特征向量的均值小于第三阈值,且所述元素对应的差值元素大于第四阈值。在一些实施例中,所述第一阈值等于所述若干个元素对应差值元素中最大值的比例乘以所述特征向量中元素的极大值;所述第三阈值等于所述若干个元素对应差值元素中最小值的比例乘以所述特征向量中元素的极小值。在一些实施例中,所述根据每一元素相应分特征向量的均值计算所述每一元素对应的差值元素,具体包括:根据每一分特征向量和所述分特征向量的均值计算所述分特征向量对应的差值向量,所述差值向量包括与所述分特征向量中各元素一一对应的差值元素。在一些实施例中,所述根据每一分特征向量和所述分特征向量的均值计算所述分特征向量对应的差值向量之后,还包括以下步骤:根据每一分特征向量对应的差值向量计算所述每一分特征向量对应的邻差向量;根据所述若干个分特征向量对应的邻差向量计算所述第四阈值和第二阈值。在一些实施例中,所述分特征向量对应的邻差向量包括与所述分特征向量中各元素一一对应的邻差元素;所述第四阈值等于所述若干分特征向量中各元素对应的邻差元素中最大值的比例乘以所述特征向量中元素的极大值;所述第二阈值等于所述若干分特征向量中各元素对应的邻差元素中最小值的比例乘以所述特征向量中元素的极小值。在一些实施例中,所述根据每一分特征向量对应的差值向量计算所述每一分特征向量对应的邻差向量,具体为根据下式计算:1≤j≤s-1,NDi,j=Di,j-Di,j+1,以及若j=s,NDi,j=0;或者若2≤j≤s,NDi,j=Di,j-Di,j-1,以及若j=1,NDi,j=0;其中,s表示所述差值向量中差值元素的个数,Di,j表示第i个差值向量中的第j个差值元素,NDi,j表示第i个邻差向量中的第j个邻差元素。在一些实施例中,所述第一值为1,第二值为0。在一些实施例中,所述特征向量具体为从图片、指纹、人像、文章、段落、音频、或网页提取的特征向量。本专利技术实施例第二方面提供了一种相似度评价方法,用于评价两个特征向量的相似度。所述相似度评价方包括:根据前述的特征向量二值化方法构建所述两个特征向量对应的两个二值化向量;计算所述两个二值化向量的相似度。在一些实施例中,所述计算所述两个二值化向量的相似度,具体包括:对所述两个二值化向量进行按位与运算或按位异或运算;计算所述按位与运算或按位异或运算所得结果中第一值的个数或比例。本专利技术实施例第三方面提供了一种检索方法,用于从包含多个特征向量的特征库中检索出与待检特征相似的至少一个特征向量。所述检索方法包括:根据前述的相似度评价方法计算所述待检特征与所述特征库中各特征向量的相似度;若所述特征库中的特征向量与所述待检特征的相似度不小于初选阈值,标记所述特征向量为待选特征向量;计算所述待选特征向量与所述待检特征的特征距离;若所述待选特征向量与所述待检特征的特征距离满足预设的检索条件,所述待选特征向量为与所述待检特征相似的特征向量。在一些实施例中,所述检索条件包括:所述待选特征向量与所述待检特征的特征距离不小于距离阈值;或者所述待选特征向量与所述待检特征的特征距离大于若干除所述待选特征向量之外的待选特征向量与所述待检特征的特征距离。本专利技术实施例第四方面提供了一种设备,包括存储器和处理器,所述存储器用于存储程序指令;若所述处理器执行所述程序指令,实现上述特征向量二值化方法;或者实现上述相似度评价方法;或者实现上述检索方法。本专利技术实施例第五方面提供了一种介质,所述介质存储有计算机程序,若所述计算机程序被处理器执行,实现上述特征向量二值化方法;或者实现上述相似度评价方法;或者实现上述检索方法。相比现有技术,本专利技术实施例的有益效果在于:通过将特征向量中的元素分为若干个分特征向量,并分别计算各若干个分特征向量中元素的均值,以及根据该均值计算各元素对应的差值元素;从而可以根据各元素相应的均值和差值元素判断各元素是否满足置位条件,若满足,则将二值化向量中该元素对应的位置为第一值,否则置为第二值;从而可以保留特征向量中较为关键的信息,而忽略较为次要的信息,以缩减特征向量的规模,从而可以在保持准确率的情况下,降低特征向量对比、检索等工作的计算量。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1为本专利技术实施例一的特征向量二值化方法的流程示意图;图2为本专利技术实施例二的相似度评价方法的流程示意图;图3为本专利技术实施例三的检索方法的流程示意图;图4为本专利技术实施例四的设备的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。需要说明的是,如果不冲突,本专利技术实施例中的各个特征可以相互组合,均在本专利技术的保护范围之内。另外,虽然在装置示意图中进行了功能模块的划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置示本文档来自技高网...

【技术保护点】
1.特征向量二值化方法,所述特征向量包括若干个元素,其特征在于,所述特征向量二值化方法包括:根据所述特征向量中元素的个数初始化二值化向量,所述二值化向量包括与所述若干个元素对应的若干个位;将所述特征向量划分为若干个分特征向量,以及分别计算每一分特征向量中所有元素的均值;根据每一元素相应分特征向量的均值计算所述每一元素对应的差值元素;根据每一元素相应分特征向量的均值以及所述每一元素对应的差值元素判断所述每一元素是否满足预设的置位条件;设置所述二值化向量中与满足所述置位条件元素对应的位为第一值,所述二值化向量中其余的位为第二值,且所述第一值与第二值不同。

【技术特征摘要】
1.特征向量二值化方法,所述特征向量包括若干个元素,其特征在于,所述特征向量二值化方法包括:根据所述特征向量中元素的个数初始化二值化向量,所述二值化向量包括与所述若干个元素对应的若干个位;将所述特征向量划分为若干个分特征向量,以及分别计算每一分特征向量中所有元素的均值;根据每一元素相应分特征向量的均值计算所述每一元素对应的差值元素;根据每一元素相应分特征向量的均值以及所述每一元素对应的差值元素判断所述每一元素是否满足预设的置位条件;设置所述二值化向量中与满足所述置位条件元素对应的位为第一值,所述二值化向量中其余的位为第二值,且所述第一值与第二值不同。2.如权利要求1所述的特征向量二值化方法,其特征在于:所述元素满足所述置位条件,具体包括:所述元素相应分特征向量的均值大于第一阈值,且所述元素对应的差值元素小于第二阈值;或者所述元素相应分特征向量的均值小于第三阈值,且所述元素对应的差值元素大于第四阈值。3.如权利要求2所述的特征向量二值化方法,其特征在于:所述第一阈值等于所述若干个元素对应差值元素中最大值的比例乘以所述特征向量中元素的极大值;所述第三阈值等于所述若干个元素对应差值元素中最小值的比例乘以所述特征向量中元素的极小值。4.如权利要求3所述的特征向量二值化方法,其特征在于:所述根据每一元素相应分特征向量的均值计算所述每一元素对应的差值元素,具体包括:根据每一分特征向量和所述分特征向量的均值计算所述分特征向量对应的差值向量,所述差值向量包括与所述分特征向量中各元素一一对应的差值元素。5.如权利要求4所述的特征向量二值化方法,其特征在于:所述根据每一分特征向量和所述分特征向量的均值计算所述分特征向量对应的差值向量之后,还包括以下步骤:根据每一分特征向量对应的差值向量计算所述每一分特征向量对应的邻差向量;根据所述若干个分特征向量对应的邻差向量计算所述第四阈值和第二阈值。6.如权利要求5所述的特征向量二值化方法,其特征在于:所述分特征向量对应的邻差向量包括与所述分特征向量中各元素一一对应的邻差元素;所述第四阈值等于所述若干分特征向量中各元素对应的邻差元素中最大值的比例乘以所述特征向量中元素的极大值;所述第二阈值等于所述若干分特征向量中各元素对应的邻差元素中最小值的比例乘以所述特征向量中元素的极小值。7.如权利要求6所述的特征向量二值化方法,其特征在于:所述根据每一分特征向量对应的差值向量计算所述每一分特征向量对应的邻差向量,具体为根据下式计算:1≤j≤s-1,NDi,j=D...

【专利技术属性】
技术研发人员:符广平陈芳林
申请(专利权)人:深圳市深网视界科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1