【技术实现步骤摘要】
本专利技术属于字符串智能比对
,具体涉及一种新型一对多的混合字符串融合比对方法。
技术介绍
字符串比对问题是计算机科学中的一个基本问题,其研究内容在信息检索、模式识别等众多领域均有着重要的应用价值[1]_[4]。文献I分别研究中文字符串模糊匹配算法,文献2研究了一种基于汉字聚类特征的中文字符串相似度计算方法。文献3对LCS与GST算法做了比较,GST算法是一种贪婪字符串比对算法,也是一种无序匹配算法,目前应用较广,但该算法采用了两个字符串逐个字符比较的方法,所以算法的时间复杂度较大。文献4研究了对GST算法改进后RKR-GST算法,提高了 GST算法的运行效率,但是RKR-GST算法中散列函数的选择对算法的运行影响很大。现有的字符串比对方法往往只采用一种算法,没有能够充分利用无序字符子串和部分有序字符子串在匹配度计算时的各自特点,往往它们的比对效果并不理想。在一些某些混合字符串的实际应用中,不但要求比对的准确性高,而且要求比对的速度快。目前,通过单一的匹配度计算方法,往往很难精确地表达字符串的相似程度。另外,现有的字符串比对方法没有考虑同义字符 ...
【技术保护点】
一种一对多的混合字符串融合比对方法,对基于汉字聚类特征的由汉字、数字、英文字母组成的混合字符串的相似度进行融合比对,以提高表达字符串的相似的精确度,包括以下主要步骤:1)取出源字符串和一组待匹配字符串;2)读出事先在存储器中构建的字符串等价替换字典,对该组待匹配字符串中部分字符(子串)进行等价替换;利用等价替换字典,将上述在源字符串场合和待匹配字符串场合具有不同描述但含义相同的两种子串进行统一;3)取出源字符串,依此取出等价替换后的该待匹配字符串数组中的一个待匹配字符串;4)利用GST*算法计算源字符串与该待匹配字符串的匹配度a:采用传统GST算法,得到两个字符串中各公共子 ...
【技术特征摘要】
1.一种一对多的混合字符串融合比对方法,对基于汉字聚类特征的由汉字、数字、英文字母组成的混合字符串的相似度进行融合比对,以提高表达字符串的相似的精确度,包括以下主要步骤: 1)取出源字符串和一组待匹配字符串; 2)读出事先在存储器中构建的字符串等价替换字典,对该组待匹配字符串中部分字符(子串)进行等价替换;利用等价替换字典,将上述在源字符串场合和待匹配字符串场合具有不同描述但含义相同的两种子串进行统一; 3)取出源字符串,依此取出等价替换后的该待匹配字符串数组中的一个待匹配字符串; 4)利用GST*算法计算源字符串与该待匹配字符串的匹配度a: 采用传统GST算法,得到两个字符串中各公共子串,将它们存入公共子串链表中。如果某个公共子串的字符长度与较长字符串字符长度的比值大于或等于0.33,则在计算匹配度时将该公共子串的字符个数乘以权重,该权重为大于I的常数;如果某个公共子串的字符长度与较长字符 串字符长度的比值小于0.33、且公共子串的字符个数大于最小匹配长度,则计算匹配度时将该公共子串的字符个数直接带入计算; 5)利用偏有序字符串匹配算法POC(Partial Order Comparison, P0C)计算源字符串和待匹配字符串的匹配度b: 将两个待匹配的含有汉字、数字和英文字母的混合字符串分别称为源字符串和待匹配字符串, 首先,先搜索出源字符串与待匹配字符串中相同的字符或汉字,记录下它们的个数,; 其次,以源字符串和待匹配字符串中较长字符串为标准,求匹配度I (match_degreel):匹配度i1QJ(DL较长字符串的字个数 」 以其中较短字符串为标准,求匹配度2 ...
【专利技术属性】
技术研发人员:童晓阳,甄威,郑永康,姜振超,庄先涛,吴继维,张茜,丁宣文,
申请(专利权)人:西南交通大学,国网四川省电力公司电力科学研究院,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。