一种基于大数据特征向量的余弦距离计算方法技术

技术编号:19746104 阅读:26 留言:0更新日期:2018-12-12 04:53
一种基于大数据特征向量的余弦距离计算方法,属于特征向量运算技术领域。方法包括:步骤S01,获取待测样本的特征向量和对照样本的特征向量;步骤S02,分别对待测样本的特征向量和对照样本的特征向量进行二进制编码,将待测样本的特征向量和对照样本的特征向量中的零元素编码为0,非零元素编码为1;步骤S03,利用编码后的待测样本的特征向量和编码后的对照样本的特征向量,根据余弦距离公式计算:

【技术实现步骤摘要】
一种基于大数据特征向量的余弦距离计算方法
本专利技术涉及大数据特征向量运算
,尤其涉及一种基于大数据特征向量的余弦距离计算方法。
技术介绍
余弦距离(亦称为余弦相似度),是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。两个特征向量的余弦距离一般用两个特征向量之间的夹角余弦值表示,即当特征向量A为A=(A1,A2,...,An),特征向量B为B=(B1,B2,...,Bn),特征向量A与特征向量B的余弦距离为:在数据样本很大、数据特征很多的情况下,两两样本之间的特征的余弦距离的计算是一件耗时工作。尤其是,目前特征向量的余弦距离的计算多用于图像识别、文本信息分类等领域,该领域内的数据样本大、数据特征多,为了提高识别、分类的效率,就需要提高余弦距离计算效率,而减小大数据特征向量的余弦距离的问题规模对于提高余弦距离计算效率至关重要。目前常用的特征向量的余弦距离计算方法是对特征向量A和特征向量B内的所有元素先进行全局顺次遍历,找到特征向量A和特征向量B各自中的非零元素的位置,并进行标记,以数据集存储非零元素的位置。接着,通过查找特征向量A和特征向量B重合位置的非零元素,继而去除未重合的非零元素。这样通过查找非零元素来进行余弦距离计算,在一定程度上缩小了计算的数据规模,但是仍存在以下问题:1、一旦遍历错误,导致数据集存储的样本特征向量非零元素的位置错误,进而影响后续计算;2、数据集存储样本特征向量非零元素的位置,并查找重合位置的非零元素,操作繁琐,费时易出错,且比较耗内存资源。人脸识别是利用人脸共性特征从视频流中提取含人脸图片,再将人脸图像与预先存储在人脸库中模版图像进行比对,利用人脸特征之间的差异来确定待测人脸的身份信息。专利技术专利申请CN108108760A公开了一种快速人脸识别方法,并具体公开了方法包括A对目标图片建立目标库:(1)提取人脸关键特征点,并根据人脸关键特征点构造标准特征向量;(2)选取标准化特征向量中的若干个分量作为参考变量,进行分块,并对块进行二进制编码;(3)对步骤(2)中的每个块分别进行PCA降维处理,形成若干降维后的块,用步骤(2)中对块的编码对若干个降维后的对应的块进行命名;B、人脸识别(4)读取待测人脸图片,提取待测人脸关键特征点,并根据待测人脸关键特征点构造待测人脸的标准特征向量;(5)对步骤(4)中的特征向量进行二进制编码,根据该编码查找对应的步骤(3)降维后的块;(6)对待测人脸图片进行PCA降维处理;(7)对步骤(6)PCA降维处理后的待测人脸图片与步骤(5)查找到对应块中的各类图片进行比对,确定待测人脸图片与块中的每类图片的相似度,当相似度超过设定阈值时,即判定待测人脸图片与该类图片属于同一人,完成图像识别。该专利技术采用了以关键特征点对目标库预分类并编码的方法,利用对人脸特征的先验知识,将大目标库分割成小目标库,并利用PCA降维技术,有效减少了人脸识别不是环节的计算量。然而,二进制编码是基于二分类方法对大于等于中值的特征向量编码为1,否则为0,进而实现分块,则分块过程需要对特征向量的元素进行逐个计算、判断;并且步骤(7)存在常用余弦距离计算方法存在的问题,需要查找比对,操作仍繁琐、费时,比较耗内存资源。
技术实现思路
本专利技术针对现有技术存在的问题,提出了一种减小计算大数据特征向量的余弦距离的问题规模,解决大数据的特征向量的余弦距离运算量大的问题的基于大数据特征向量的余弦距离计算方法。本专利技术用到了二进制编码、布尔运算和余弦距离的计算复杂度的知识点。将各样本的特征向量编码为二进制序列(非零元素编码为1,零元素编码为0),对各样本编码序列两两之间进行布尔运算(按位与),运算结果的序列中1的位置对应向量的非零元素,0的位置对应向量的零元素,根据二进制序列码与向量非零元素的对应关系实现只有非零元素参与余弦距离的计算,意味着缩小了问题规模,减少了运算量。本专利技术是通过以下技术方案实现的:一种基于大数据特征向量的余弦距离计算方法,包括:步骤S01,获取待测样本的特征向量和对照样本的特征向量;步骤S02,分别对待测样本的特征向量和对照样本的特征向量进行二进制编码,将待测样本的特征向量和对照样本的特征向量中的零元素编码为0,非零元素编码为1;步骤S03,利用编码后的待测样本的特征向量和编码后的对照样本的特征向量,根据余弦距离公式计算:其中,Ai为待测样本的特征向量,Bi为对照样本的特征向量。作为优选,步骤S01中待测样本的特征向量获取步骤包括:读取待测样本;提取待测样本关键特征点;根据待测样本关键特征点构造待测样本的特征向量;步骤S01中对照样本的特征向量获取步骤包括:读取对照样本;提取对照样本关键特征点;根据对照样本关键特征点构造对照样本的特征向量。作为优选,步骤S03包括余弦距离分子项计算和余弦距离分母项计算;所述分子项计算利用布尔运算的按位与计算获得;所述分母项计算是计算待测样本的特征向量长度与对照样本的特征向量长度之和。作为优选,所述待测样本的特征向量长度、所述对照样本的特征向量长度在步骤S02编码后计算并保存。作为优选,步骤S03在计算余弦距离的分母项时,调用步骤S02计算保存的待测样本的特征向量长度和对照样本的特征向量长度,并对两者求和。作为优选,当有多个待测样本与一个对照样本比对时,在进行首个待测样本的特征向量和对照样本的特征向量间的余弦距离计算后,保存编码后的对照样本的特征向量及其特征向量长度;自第二个待测样本起,方法包括:步骤S11,获取待测样本的特征向量;步骤S12,对待测样本的特征向量进行二进制编码,将待测样本的特征向量中的零元素编码为0,非零元素编码为1;步骤S13,利用编码后的待测样本的特征向量和编码后的对照样本的特征向量,根据余弦距离公式计算:其中,Ai为待测样本的特征向量,Bi为对照样本的特征向量。作为优选,步骤S13在计算余弦距离的分母项期时,调用首个待测样本的特征向量和对照样本的特征向量间的余弦距离计算后保存的编码后的对照样本的特征向量长度,调用当前待测样本步骤S12计算保存的待测样本的特征向量长度,并对两者求和。作为优选,步骤S13在计算余弦距离的分子项期时,调用首个待测样本的特征向量和对照样本的特征向量间的余弦距离计算后保存的编码后的对照样本的特征向量,将其与当前待测样本于步骤S12获得的编码后的待测样本的特征向量利用布尔运算的按位与计算。作为优选,所述待测样本为待测人脸图片,所述对照样本为目标对照人脸图片。作为优选,所述待测样本为待测文本信息,所述对照样本为目标对照文本信息。本专利技术具有以下有益效果:本专利技术一种基于大数据特征向量的余弦距离计算方法,将各样本的特征向量编码为二进制序列(非零元素编码为1,零元素编码为0),对各样本编码序列两两之间进行布尔运算(按位与),运算结果的序列中1的位置对应向量的非零元素,0的位置对应向量的零元素,根据二进制序列码与向量非零元素的对应关系,实现仅有非零元素参与余弦距离的计算,缩小了问题规模。并且,通过二进制编码和布尔运算(按位与)实现定位余弦距离计算中分子项的非零元素,相对于现有技术,本方法形式直观、计算简单快捷并且不易出错。附图说明图1为本专利技术一种基于大数据特征向量的余弦距离计算方法一实本文档来自技高网
...

【技术保护点】
1.一种基于大数据特征向量的余弦距离计算方法,其特征在于,包括:步骤S01,获取待测样本的特征向量和对照样本的特征向量;步骤S02,分别对待测样本的特征向量和对照样本的特征向量进行二进制编码,将待测样本的特征向量和对照样本的特征向量中的零元素编码为0,非零元素编码为1;步骤S03,利用编码后的待测样本的特征向量和编码后的对照样本的特征向量,根据余弦距离公式计算:

【技术特征摘要】
1.一种基于大数据特征向量的余弦距离计算方法,其特征在于,包括:步骤S01,获取待测样本的特征向量和对照样本的特征向量;步骤S02,分别对待测样本的特征向量和对照样本的特征向量进行二进制编码,将待测样本的特征向量和对照样本的特征向量中的零元素编码为0,非零元素编码为1;步骤S03,利用编码后的待测样本的特征向量和编码后的对照样本的特征向量,根据余弦距离公式计算:其中,Ai为待测样本的特征向量,Bi为对照样本的特征向量。2.根据权利要求1所述的一种基于大数据特征向量的余弦距离计算方法,其特征在于,步骤S01中待测样本的特征向量获取步骤包括:读取待测样本;提取待测样本关键特征点;根据待测样本关键特征点构造待测样本的特征向量;步骤S01中对照样本的特征向量获取步骤包括:读取对照样本;提取对照样本关键特征点;根据对照样本关键特征点构造对照样本的特征向量。3.根据权利要求1所述的一种基于大数据特征向量的余弦距离计算方法,其特征在于,步骤S03包括余弦距离分子项计算和余弦距离分母项计算;所述分子项计算利用布尔运算的按位与计算获得;所述分母项计算是计算待测样本的特征向量长度与对照样本的特征向量长度之和。4.根据权利要求3所述的一种基于大数据特征向量的余弦距离计算方法,其特征在于,所述待测样本的特征向量长度、所述对照样本的特征向量长度在步骤S02编码后计算并保存。5.根据权利要求4所述的一种基于大数据特征向量的余弦距离计算方法,其特征在于,步骤S03在计算余弦距离的分母项时,调用步骤S02计算保存的待测样本的特征向量长度和对照样本的特征向量长度,并对两者求和。6.根据权利要求1所述的一种基...

【专利技术属性】
技术研发人员:杨一明
申请(专利权)人:四川斐讯信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1