The invention discloses a method for calculating string similarity based on vision and a method for judging similarity. The invention of the string similarity calculation method is: 1) two for each character in the string is transformed into a corresponding grayscale image; 2) step 1) each get a picture of the gray value of stitching, one-dimensional vector corresponding to the picture; 3) on the two to be compared in any string two different characters, 21 dimensional vector similarity calculation of the two characters of the corresponding, according to the similarity similarity determines the character selected two characters; 4) the character similarity and character position calculation of two to compare string similarity based on vision. This method takes into account the different characters in the human visual method of the different differences, the calculated string similarity is more in line with people's subjective feelings.
【技术实现步骤摘要】
本专利技术涉及字符串匹配领域,尤其涉及基于视觉的字符串相似度计算方法,该专利技术考虑了字符串相似度在人的视觉方面所呈现的差异,可以基于人的视觉特点计算字符串的相似度。
技术介绍
长期以来,由于相似重复记录存在的普遍性、表现的复杂性,以及对后续数据处理和辅助决策影响的严重性,如何检测和消除相似字符串的重复记录一直是数据清洗研究的重要主题之一。此外,字符串相似度的计算在恶意域名检测系统、抄袭检测系统、自动评分系统、防代码剽窃系统、网页搜索等领域都有着重要的应用。目前,字符串相似度计算方法有很多,如编辑距离算法(Levenshtein Distance),最长公共子串算法(Longest Common Subsequences,LCS)等。例如,使用两个字符串的编辑距离来计算其相似度,即考虑转换成目标字符串所操作的个数,包括替换、增加、删除等。编辑距离可以反映出个字符串的绝对差异。但是,这些字符串相似度的计算方法只考虑的操作的次数,却没有考虑其在人们视觉方面所产生的差异。比如,“g00gle”与谷歌“google”的相似度在人的视觉方面所呈现的差异要远小于“goqqgle”与谷歌“google”的相似度。所以,基于人的视觉特点,可以更好的呈现字符串的相似度。目前的各种字符串匹配方法,更多的是从字符串角度考虑其相似度,并没有很好地考虑到字符所呈现出的视觉特点。本专利技术,基于视觉的字符串相似度计算方法,考虑了字符串相似度在人的视觉方面所呈现的差异,可以基于人的视觉特点计算字符串的相似度。
技术实现思路
本专利技术的目的在于提供一种基于视觉的字符串相似度计算方法,该方 ...
【技术保护点】
一种基于视觉的字符串相似度计算方法,其步骤为:1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维向量;3)对两待比较字符串中任意两不同字符,计算这两个字符对应的两一维向量的相似度,根据该相似度确定所选两字符的字符相似度;4)基于上述得到的字符相似度和字符位置计算两待比较字符串的视觉相似度。
【技术特征摘要】
1.一种基于视觉的字符串相似度计算方法,其步骤为:1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维向量;3)对两待比较字符串中任意两不同字符,计算这两个字符对应的两一维向量的相似度,根据该相似度确定所选两字符的字符相似度;4)基于上述得到的字符相似度和字符位置计算两待比较字符串的视觉相似度。2.如权利要求1所述的方法,其特征在于,计算该视觉相似度的方法为:首先利用公式计算两待比较字符串中两字符串的视觉相似度D(i,j);然后根据递推关系可以求解出D(M,N),其中,M和N分别表示两个字符串的长度,D(M,N)即两待比较字符串的视觉相似度;其中,del()、ins()、sub()分别代表删除、插入、替换操作对字符串相似度的影响,si为字符串s的第i个字符,tj为字符串t的第j个字符,i和j为两待比较字符串中字符的位置信息;α≤1,C为所述字符相似度构成的字符相似矩阵,α为经验参数,C[si,tj]...
【专利技术属性】
技术研发人员:柳厅文,张洋,亚静,李全刚,时金桥,郭莉,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。