当前位置: 首页 > 专利查询>徐文新专利>正文

字符串规划存贮索引查找技术制造技术

技术编号:2841343 阅读:262 留言:0更新日期:2012-04-11 18:40
本发明专利技术是一种字符串存贮、索引、模糊检索技术。首先对数据库字符串按字符元进行统计分析,并根据数据库状况决定标记方案。按标记位值V↓[n]建立索引表,若按标记位值V↓[n]聚集存贮后建立索引表则性能更好,称为双表处理;也可将数据库,按标记位值V↓[n]重新组织存贮,即单表处理。检索时,先对检索关键词进行标记,取得位值V↓[t]:双表处理,以V↓[t]与索引表中的标记位值V↓[n]进行位比较,按符合位比较条件的标记位值V↓[n],在句型数据库中查找V↓[n],或W↓[n],对查找到的记录,按需要,与检索关键词进行W位值比较、质数代换整除或通常的字符串模糊匹配等处理;单表处理,以V↓[t]与表中的标记位值V↓[n]进行位比较,对符合位比较条件的V↓[n]的各字符串字段D↓[n]或其对应的信息字段F↓[n]、W↓[n],按需要,与检索关键词进行通常的字符串模糊匹配、质数代换整除、W位值比较等处理。在CPU赛扬800Hz,内存256M,810主板,硬盘40G测试,检索每条字符串5个汉字、2,035,454条字符串、10,177,270个汉字的表,由于数据库不能全部读入内存,对于每个关键词,必须从硬盘读入部分数据,第一次响应时间为0.9秒,第二次以后,响应时间为0.14至0.18秒。在位标记字符串检索的速度上再提高了一个数量级,可用于自然语言处理中快速查找参考句型,其它方面的字符串模糊检索也可以应用。

【技术实现步骤摘要】

本专利技术是一种字符串存贮、索引、模糊检索技术。首先对字符串按字符元进行统计分析,并根据数据库状况、硬件条件、应用范围决定标记方案。然后,按标记位值Vn进行索引,如按标记位值Vn聚集存贮后进行索引则更优;也可按标记位值Vn,对数据库重新组织存贮。检索时,先对检索关键词进行标记,取得位值Vt,与数据库索引标记位值Vn进行位比较,再对符合位比较条件的字符串记录,按需要,进行W位值比较、质数代换整除或通常的字符串模糊匹配等处理。该技术可以在位标记字符串检索的基础上再提高一个数量级,可用于自然语言处理中快速查找参考句型,其它方面的字符串模糊检索也可以应用。
技术介绍
字符串的模糊检索技术,最简单的是BF算法,采用逐字符比较方式进行。改进后的模式匹配算法,如KMP算法,对小字符集的拼音文字来说,避免了回溯,但对字符集大、单字符频度低的汉字字符串而言,实质意义不大。2004年,为解决繁难汉字的查找录入,本人建立了GBK范围内21000个汉字的偏旁数据库。由于不同用户对偏旁的拆分有差异,理想的汉字偏旁数据库必须包含一个汉字的任意层级偏旁,如“ ”必须分解成由艹、 、罒、厂、剡、炎、刂、火、火,才能达到以“任意层级的偏旁组合检索任意汉字”的目的。设用户用查找包含艹、火两个偏旁的汉字,以sql语句查询,计算机即用其中一个偏旁扫描数据库全部记录的偏旁,在包含该偏旁的记录中,再用另一个偏旁进行比较,得到结果集。为了提高查找速度,本人提出用400多个质数代换汉字的400多个基本偏旁,则每个汉字有其基本偏旁的质数乘积。若用户查找包含n个偏旁的汉字,即用n个偏旁的质数乘积对全部汉字的质数乘积进行除法运算,若能整除,则相应的汉字包含这n个偏旁。提出质数代换整除检索的出发点,是把多个关键词的“串行”搜索变成一次性的“并行”搜索,测试表明,质数代换整除检索能一定程度提高检索速度。对于通常的汉字数据库,则用一个质数代表多个汉字,在整除运算筛选之后,再用模式匹配算法得到最终结果集。因此,2004年10月19日,本人申请了“质数代换字符串检索技术”专利,申请号200410067258.X。但对长字符串实施“质数代换字符串检索技术”,需要较多的空间存贮质数乘积值。为了提高字符串模糊检索的速度,并减少对存贮空间的需求,把质数改为bit,把整除运算改为位比较,即用一个数据的n个位(bit)来标记字符串的组成信息,标记后之后的数据称该字符串的“位值”,对两个字符串的位值进行比较,并结合通常的逐字符比较法,实现字符串的模糊检索。测试表明,速度是一般的逐字符比较模糊检索的数倍乃至十几倍以上,2005年1月17日,本人申请专利“位标记字符串检索技术”。在赛扬800的cpu上测试,用该技术能在0.3秒内从26.7万条书名中找到目标记录。另一方面,质数代换整除查找结果的字符排列秩序是多样的,这一特点,非常适合于自然语言处理中筛选参考句型,但质数代换音节整除响应速度不够,需要把位标记字符串检索技术同质数代换字符串检索技术给合起来,即用位标记比较方法对参考句型的进行初步筛选,再用质数代换整除得到最终参考句型,在赛扬800的cpu中,0.9秒约能处理100万条记录,速度尚不理想,但以此推算,在cpu主频2.4G的中档微机上,应能在0.3秒内从100万条记录中找到参考句型。100万个参考句型,若能支持99.7%的现代汉语语句,在中档微机上,基于参考句型的语音输入应有现实可行性。当然,参考句型越多,比如说,达到400万个,语言处理的准确程度就越高。但在主频2.4G的中档微机上,查找400万个句型需1秒多时间,加上语法分析、填补词语等用时,所用时间更多。所以进一步地提高字符串模糊查找的速度,并提高自然语言处理的水平是有意义的。
技术实现思路
本专利技术是在“位标记字符串检索技术”基础上提出的,关于“位标记字符串检索技术”的标记重叠概率、查找选择概率、分组标记概率计算,以及相关的位比较逻辑代数原理,可以参见该技术申请文件。对于语言处理,本技术与位标记字符串检索技术、质数代换字符串检索技术结合起来,可形成一套完整的方案,所以本文件结合语音输入处理说明字符串规划存贮索引查找方法,其它方面的字符串模糊查找,可以参照实施。1.基于参考句型的语音输入方案综述语音输入、机器翻译、搜索引擎均需进行分词,提高拼音串的分词准确程度已成为提升汉语语音输入水平的关键。汉语拼音串自动分词的算法主要有最大匹配法(MM)、最少分词词频选择法(FWF)和逐词遍历法。这些分词方法是基于词汇表的方法,准确率不能满足需要,提高准确率需要新的分词方法。如果按每个句子10个汉字计算,5000常用汉字的10次全排列是一个巨大的数字,当然,由于语义、语法限制,不是所有汉字排列在一起即是句子,但汉语句子的总数可以说是难以穷尽的,至少就目前的技术水平而言,在普通微机,不可能列出足够数量的句子,更不可能实现瞬时响应,找到与拼音串完全对应的句子。但很多语句是有共同主干的,如“他毕业五年了”,“他早就毕业了”,“他还没毕业”,“他明年六月毕业”等句子中,“他毕业”是主干、核心,我们称为基本句型,记为J;另外,本文件中的“基本句型”也包括词语搭配,如套|房子,间|房子,本|书等;以及筛选入库的词语、诗句、格言等,如坚忍不拔。对于计算机语言处理来说,如果确定了一个拼音串的主干、核心,以之为基础,根据语法、词频、上下文填补其它词汇,应该是能提高处理的水平。质数代换整除运算筛选的结果是不考虑字符元的秩序的,非常适合用来确定一个句子的主干,就语音输入来说,就是为拼音串查找参考句型。设有汉语字词搭配及基本句型数据库,不考虑声调,用400多个质数代表400多个汉语音节,其中有基本句型“他毕业了”,该句型的拼音为“tabiyele”,代换成29*67*281*577,即315032191。如果语音转换或者拼音输入“tazaojiubiyele”,代换成29*349*269*67*281*577,即29575537123271。以29575537123271为被除数,以数据库全部字词搭配及基本句型的Fn值为除数,若能整除或模运算余数为0,则该句型为可参考的基本句型或字词搭配。29575537123271/315032191=93881,余数为0,则“他毕业了”是“tazaojiubiyele”的可参考句型,其中“毕业”为动词,是谓语,而词库中拼音为“zaojiu”的词有“早就”“造就”“枣酒”,通过语法、语义、词频等其它方面能起到辅助作用,可将“tazaojiubiyele”转换成“他早就毕业了”。若参考句型数据库中有“流利英语”,如果我们想要的句子是“流利的英语帮他找到一个好工作”,语音转换或拼音输入Liulideyingyubangtazhaodaoyigehaogongzuo;如果我们想要的句子是“这人的英语说得不流利”,语音转换或拼音输入zherendeyingyushuodebuliuli;如果我们想要的句子是“经过半年英语培训,他已经说得流利多了”,语音转换或拼音输入Jingguobannianyingyupeixuntayijingshuodeliuliduole,都可以用质数代换整除判断确定“流利英语”是参考句型之一。对本文档来自技高网
...

【技术保护点】
一种字符串存贮、索引、模糊检索技术,其特征在于,包括以下步骤:    a.对数据库字符串按字符元进行统计分析,按一定方案进行位标记,得到每条字符串的位值V↓[n]。    b.按标记位值V↓[n]建立索引表,若按标记位值V↓[n]对数据库进行聚集存贮后,再按V↓[n]建立索引表,则性能更优,称为双表处理;    或是将数据库按标记位值V↓[n]重新组织,称为单表处理。    c.检索时,先对检索关键词进行标记,取得位值V↓[t]后:    双表处理,以V↓[t]与索引表中的标记位值V↓[n]进行位比较,按符合位比较条件的标记位值V↓[n],在句型数据库中查找V↓[n],或W↓[n],对查找到的记录,按需要,与检索关键词进行W位值比较、质数代换整除或通常的字符串模糊匹配等处理,得到结果;    单表处理,以V↓[t]与表中的标记位值V↓[n]进行位比较,对符合位比较条件的V↓[n]的各字符串字段D↓[n]或其对应的信息字段F↓[n]、W↓[n],按需要,与检索关键词进行通常的字符串模糊匹配、质数代换整除、W位值比较等处理,得到结果。

【技术特征摘要】
1.一种字符串存贮、索引、模糊检索技术,其特征在于,包括以下步骤a.对数据库字符串按字符元进行统计分析,按一定方案进行位标记,得到每条字符串的位值Vn。b.按标记位值Vn建立索引表,若按标记位值Vn对数据库进行聚集存贮后,再按Vn建立索引表,则性能更优,称为双表处理;或是将数据库按标记位值Vn重新组织,称为单表处理。c.检索时,先对检索关键词进行标记,取得位值Vt后双表处理,以Vt与索引表中的...

【专利技术属性】
技术研发人员:徐文新
申请(专利权)人:徐文新
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1