一种用于中文字符串匹配的位向量方法技术

技术编号:2868325 阅读:262 留言:0更新日期:2012-04-11 18:40
一种用于中文字符串匹配的位向量方法,对在计算机中用两个字节表示的汉字:将两个字节分别对应一个高字节整数和一个低字节整数进行处理,所有汉字对应的高字节整数和低字节整数分别构成一个高字节数组和低字节数组;将两个字节数组中的所有整数全部清为0;扫描整个中文模式串,对其中的每个汉字做如下操作,设某汉字在中文模式串中所处位置为p,则将该汉字的低字节对应的低字节数组中的整数的第p比特置1并将该汉字的高字节对应的高字节数组中的整数的第p比特置1;用正在处理字符串中的字符在两个整数数组中对应的整数进行匹配。由于采取了将汉字的两个字节分别处理的技术措施,大大减少了所需的空间。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种用于字符串匹配的位向量方法。
技术介绍
模糊字符串匹配在入侵检测、移动短消息过滤、文本编辑、信息查询、自动索引、计算生物学、信息提取等领域均有重要应用,已经成为计算机算法设计的一个重要课题。它解决的问题是给定一个字符串,一个模式串,要找出字符串中所有与模式串相似的部分。解决模糊字符串匹配的经典方法是一种基于生成动态矩阵的方法,自从1980年P.Sellers发表该方法以来,许多人对之进行了改进。这些改进当中,有一种非常有效的方法就是位向量方法。当今计算机中,整数字长一般为32或64,因此,可将32或64次的比特运算用一次整数运算来完成,从而将运算速度提高32或64倍。位向量方法正是利用了这一点,在模式串长度小于整数字长的情况下,提高了字符串匹配的性能。现有位向量方法位向量方法适用于,它用到一个与字符集等长的整数数组,这样每个字符都有一个整数与之相对应。位向量方法的描述如下1)将汉字用两个字节来表示;2)把这两个字节合起来作为一个16比特的大整数来处理,所以,每个汉字都对应一个大整数,对应所有汉字的整数构成一个数组;3)将该数组所有整数清为0;4)从头到尾扫描整个本文档来自技高网...

【技术保护点】
一种用于中文字符串匹配的位向量方法,对在计算机中用两个字节表示的汉字:(1)将两个字节分别对应一个高字节整数和一个低字节整数进行处理,所有汉字对应的高字节整数和低字节整数分别构成一个高字节数组和低字节数组;(2)将低字节数组 和高字节数组中的所有整数全部清为0;(3)从头到尾扫描整个中文模式串,对其中的每个汉字做如下操作,设某汉字在中文模式串中所处位置为p,则首先,将该汉字的低字节对应的低字节数组中的整数的第p比特置1;其次,将该汉字的高 字节对应的高字节数组中的整数的第p比特置1; (4)用正在处理字符串中的字符在两...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈开渠赵洁彭志威
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1