字符串规划存贮索引查找技术制造技术

技术编号：2841343 阅读：262 留言：0更新日期：2012-04-11 18:40

本发明专利技术是一种字符串存贮、索引、模糊检索技术。首先对数据库字符串按字符元进行统计分析，并根据数据库状况决定标记方案。按标记位值Ｖ↓［ｎ］建立索引表，若按标记位值Ｖ↓［ｎ］聚集存贮后建立索引表则性能更好，称为双表处理；也可将数据库，按标记位值Ｖ↓［ｎ］重新组织存贮，即单表处理。检索时，先对检索关键词进行标记，取得位值Ｖ↓［ｔ］：双表处理，以Ｖ↓［ｔ］与索引表中的标记位值Ｖ↓［ｎ］进行位比较，按符合位比较条件的标记位值Ｖ↓［ｎ］，在句型数据库中查找Ｖ↓［ｎ］，或Ｗ↓［ｎ］，对查找到的记录，按需要，与检索关键词进行Ｗ位值比较、质数代换整除或通常的字符串模糊匹配等处理；单表处理，以Ｖ↓［ｔ］与表中的标记位值Ｖ↓［ｎ］进行位比较，对符合位比较条件的Ｖ↓［ｎ］的各字符串字段Ｄ↓［ｎ］或其对应的信息字段Ｆ↓［ｎ］、Ｗ↓［ｎ］，按需要，与检索关键词进行通常的字符串模糊匹配、质数代换整除、Ｗ位值比较等处理。在ＣＰＵ赛扬８００Ｈｚ，内存２５６Ｍ，８１０主板，硬盘４０Ｇ测试，检索每条字符串５个汉字、２，０３５，４５４条字符串、１０，１７７，２７０个汉字的表，由于数据库不能全部读入内存，对于每个关键词，必须从硬盘读入部分数据，第一次响应时间为０．９秒，第二次以后，响应时间为０．１４至０．１８秒。在位标记字符串检索的速度上再提高了一个数量级，可用于自然语言处理中快速查找参考句型，其它方面的字符串模糊检索也可以应用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术是一种字符串存贮、索引、模糊检索技术。首先对字符串按字符元进行统计分析，并根据数据库状况、硬件条件、应用范围决定标记方案。然后，按标记位值Vn进行索引，如按标记位值Vn聚集存贮后进行索引则更优；也可按标记位值Vn，对数据库重新组织存贮。检索时，先对检索关键词进行标记，取得位值Vt，与数据库索引标记位值Vn进行位比较，再对符合位比较条件的字符串记录，按需要，进行W位值比较、质数代换整除或通常的字符串模糊匹配等处理。该技术可以在位标记字符串检索的基础上再提高一个数量级，可用于自然语言处理中快速查找参考句型，其它方面的字符串模糊检索也可以应用。
技术介绍
字符串的模糊检索技术，最简单的是BF算法，采用逐字符比较方式进行。改进后的模式匹配算法，如KMP算法，对小字符集的拼音文字来说，避免了回溯，但对字符集大、单字符频度低的汉字字符串而言，实质意义不大。2004年，为解决繁难汉字的查找录入，本人建立了GBK范围内21000个汉字的偏旁数据库。由于不同用户对偏旁的拆分有差异，理想的汉字偏旁数据库必须包含一个汉字的任意层级偏旁，如“ ”必须分解成由艹、、罒、厂、剡、炎、刂、火、火，才能达到以“任意层级的偏旁组合检索任意汉字”的目的。设用户用查找包含艹、火两个偏旁的汉字，以sql语句查询，计算机即用其中一个偏旁扫描数据库全部记录的偏旁，在包含该偏旁的记录中，再用另一个偏旁进行比较，得到结果集。为了提高查找速度，本人提出用400多个质数代换汉字的400多个基本偏旁，则每个汉字有其基本偏旁的质数乘积。若用户查找包含n个偏旁的汉字，即用n个偏旁的质数乘积对全部汉...

【技术保护点】
一种字符串存贮、索引、模糊检索技术，其特征在于，包括以下步骤：　　　　ａ．对数据库字符串按字符元进行统计分析，按一定方案进行位标记，得到每条字符串的位值Ｖ↓［ｎ］。　　　　ｂ．按标记位值Ｖ↓［ｎ］建立索引表，若按标记位值Ｖ↓［ｎ］对数据库进行聚集存贮后，再按Ｖ↓［ｎ］建立索引表，则性能更优，称为双表处理；　　　　或是将数据库按标记位值Ｖ↓［ｎ］重新组织，称为单表处理。　　　　ｃ．检索时，先对检索关键词进行标记，取得位值Ｖ↓［ｔ］后：　　　　双表处理，以Ｖ↓［ｔ］与索引表中的标记位值Ｖ↓［ｎ］进行位比较，按符合位比较条件的标记位值Ｖ↓［ｎ］，在句型数据库中查找Ｖ↓［ｎ］，或Ｗ↓［ｎ］，对查找到的记录，按需要，与检索关键词进行Ｗ位值比较、质数代换整除或通常的字符串模糊匹配等处理，得到结果；　　　　单表处理，以Ｖ↓［ｔ］与表中的标记位值Ｖ↓［ｎ］进行位比较，对符合位比较条件的Ｖ↓［ｎ］的各字符串字段Ｄ↓［ｎ］或其对应的信息字段Ｆ↓［ｎ］、Ｗ↓［ｎ］，按需要，与检索关键词进行通常的字符串模糊匹配、质数代换整除、Ｗ位值比较等处理，得到结果。

【技术特征摘要】
1.一种字符串存贮、索引、模糊检索技术，其特征在于，包括以下步骤a.对数据库字符串按字符元进行统计分析，按一定方案进行位标记，得到每条字符串的位值Vn。b.按标记位值Vn建立索引表，若按标记位值Vn对数据库进行聚集存贮后，再按Vn建立索引表，则性能更优，称为双表处理；或是将数据库按标记位值Vn重新组织，称为单表处理。c.检索时，先对检索关键词进行标记，取得位值Vt后双表处理，以Vt与索引表中的...

【专利技术属性】
技术研发人员：徐文新，
申请(专利权)人：徐文新，
类型：发明
国别省市：31[中国|上海]

全部详细技术资料下载我是这个专利的主人