一种基于视觉的字符串相似度计算方法及相似性判断方法技术

技术编号:14032821 阅读:110 留言:0更新日期:2016-11-20 11:26
本发明专利技术公开了一种基于视觉的字符串相似度计算方法及相似性判断方法。本发明专利技术的字符串相似度计算方法为:1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维向量;3)对两待比较字符串中任意两不同字符,计算这两个字符对应的两一维向量的相似度,根据该相似度确定所选两字符的字符相似度;4)基于上述得到的字符相似度和字符位置计算两待比较字符串的视觉相似度。该方法考虑到了不同的字符在人的视觉方法所呈现的不同差异,所计算得到的字符串相似度更加符合人的主观感受。

Method for calculating string similarity based on vision and similarity judgment method

The invention discloses a method for calculating string similarity based on vision and a method for judging similarity. The invention of the string similarity calculation method is: 1) two for each character in the string is transformed into a corresponding grayscale image; 2) step 1) each get a picture of the gray value of stitching, one-dimensional vector corresponding to the picture; 3) on the two to be compared in any string two different characters, 21 dimensional vector similarity calculation of the two characters of the corresponding, according to the similarity similarity determines the character selected two characters; 4) the character similarity and character position calculation of two to compare string similarity based on vision. This method takes into account the different characters in the human visual method of the different differences, the calculated string similarity is more in line with people's subjective feelings.

【技术实现步骤摘要】

本专利技术涉及字符串匹配领域,尤其涉及基于视觉的字符串相似度计算方法,该专利技术考虑了字符串相似度在人的视觉方面所呈现的差异,可以基于人的视觉特点计算字符串的相似度。
技术介绍
长期以来,由于相似重复记录存在的普遍性、表现的复杂性,以及对后续数据处理和辅助决策影响的严重性,如何检测和消除相似字符串的重复记录一直是数据清洗研究的重要主题之一。此外,字符串相似度的计算在恶意域名检测系统、抄袭检测系统、自动评分系统、防代码剽窃系统、网页搜索等领域都有着重要的应用。目前,字符串相似度计算方法有很多,如编辑距离算法(Levenshtein Distance),最长公共子串算法(Longest Common Subsequences,LCS)等。例如,使用两个字符串的编辑距离来计算其相似度,即考虑转换成目标字符串所操作的个数,包括替换、增加、删除等。编辑距离可以反映出个字符串的绝对差异。但是,这些字符串相似度的计算方法只考虑的操作的次数,却没有考虑其在人们视觉方面所产生的差异。比如,“g00gle”与谷歌“google”的相似度在人的视觉方面所呈现的差异要远小于“goqqgle”与谷歌“google”的相似度。所以,基于人的视觉特点,可以更好的呈现字符串的相似度。目前的各种字符串匹配方法,更多的是从字符串角度考虑其相似度,并没有很好地考虑到字符所呈现出的视觉特点。本专利技术,基于视觉的字符串相似度计算方法,考虑了字符串相似度在人的视觉方面所呈现的差异,可以基于人的视觉特点计算字符串的相似度。
技术实现思路
本专利技术的目的在于提供一种基于视觉的字符串相似度计算方法,该方法考虑到了不同的字符在人的视觉方法所呈现的不同差异,所计算得到的字符串相似度更加符合人的主观感受。本专利技术的技术关键点在于:1.字符格栅化将待处理字符格栅化为图片,为了便于后续的向量化,只存储其灰度特征,所以使用灰度图片存储。2.字符向量化以行为单位,将图片的每一行灰度值进行拼接,最终得到一维向量。对于一个字符,转换之后只有一行,但是有多个值。比如,字符“1”转成灰度以后如图1所示,是一个大矩阵,但是我们将每一行都首尾相接起来,最终只有一行。所以,一个字符对应一个图片,一个图片对应一个向量。3.字符相似度计算计算两待比较域名中可以使用的所有字符两两之间的相似度,如果字符串是域名的情况,则可以使用的字符有38个:26个英文小写字母(a-z)、10个数字(0-9)、英文句号(.)、英文横线(-)。具体使用的字集合根据使用场景来确定。该步骤主要用于事先计算并存储的任意两个字符的相似度,以便后续字符串相似度时使用。对任意两个字符计算其所得向量的余弦距离,示意图如图2所示(其中,上面是数字1,下面是字符L的小写,相似度是0.0332,已经很相似了,仔细看图片还是会发现有些许不同)。其中:V1=[...,1,...1,...1,...]Vl=[...,0,...0,...0,...] C [ V 1 , V l ] = 1 - S C [ V 1 , V l ] = 1 - V 1 · V l | | V 1 | | · | | V l | | = 1 - 43 46 43 = 0.0332 ]]>C表示字符相似度,Sc表示余弦相似度。其中,余弦相似度为公知技术。4.字符串相似度计算基于上述得到的字符相似度,改进了编辑距离(Levenshtein Distance)公式,使其加入字符的视觉度量,更好的呈现字符串的视觉相似度。其中,未改进之前的计算方式del、ins、sub为固定值1。改进之后,del、ins、sub的计算方式则根据字符串动态变化,del、ins、sub分别代表删除、插入、替换操作对字符串相似度的影响。D(i,j)表示字符串的视觉相似度,i和j为字符串中字符的位置信息,si为字符串s的第i个字符,tj为字符串t的第j个字符。C[si,tj]为si和tj的字符相似度。编辑距离为公知方法。C为上述计算得到的字符相似矩阵,α为经验参数。 D ( i , j ) = m i n D ( i - 1 , j ) + d e l ( i , j , s i ) D ( i , j - 1 ) + i n s ( i , j , t j ) D ( i - 1 , 本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201610420846.html" title="一种基于视觉的字符串相似度计算方法及相似性判断方法原文来自X技术">基于视觉的字符串相似度计算方法及相似性判断方法</a>

【技术保护点】
一种基于视觉的字符串相似度计算方法,其步骤为:1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维向量;3)对两待比较字符串中任意两不同字符,计算这两个字符对应的两一维向量的相似度,根据该相似度确定所选两字符的字符相似度;4)基于上述得到的字符相似度和字符位置计算两待比较字符串的视觉相似度。

【技术特征摘要】
1.一种基于视觉的字符串相似度计算方法,其步骤为:1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维向量;3)对两待比较字符串中任意两不同字符,计算这两个字符对应的两一维向量的相似度,根据该相似度确定所选两字符的字符相似度;4)基于上述得到的字符相似度和字符位置计算两待比较字符串的视觉相似度。2.如权利要求1所述的方法,其特征在于,计算该视觉相似度的方法为:首先利用公式计算两待比较字符串中两字符串的视觉相似度D(i,j);然后根据递推关系可以求解出D(M,N),其中,M和N分别表示两个字符串的长度,D(M,N)即两待比较字符串的视觉相似度;其中,del()、ins()、sub()分别代表删除、插入、替换操作对字符串相似度的影响,si为字符串s的第i个字符,tj为字符串t的第j个字符,i和j为两待比较字符串中字符的位置信息;α≤1,C为所述字符相似度构成的字符相似矩阵,α为经验参数,C[si,tj]...

【专利技术属性】
技术研发人员:柳厅文张洋亚静李全刚时金桥郭莉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1