在中文语境中检索关键词的方法、装置及设备制造方法及图纸

技术编号：35727623 阅读：12 留言：0更新日期：2022-11-26 18:26

本发明专利技术的一种在中文语境中检索关键词的方法、装置及设备，属于信息检索技术领域，其方法包括：在计算机存储器中创建一个记载经过中文语料库统计之后的对应于汉字库中每个汉字的使用频度数值的字库字频表；根据字库字频表数据库中的记载并结合编址方式，通过对其读操作，分别查询所检索关键词中每个汉字的使用频度数值；将该使用频度数值按照由小到大的顺序排序，生成关键词字频排序表；在待检索中文语境中，将文本中任一汉字位置开始的一个连续汉字串都与检索关键词进行一轮单字比较，所生成的关键词字频排序表所表示的单字排列顺序，作为对检索关键词构成中各汉字之间与检索文本中对应位置字符作对比的先后顺序。本发明专利技术提高了关键词检索的效率。了关键词检索的效率。了关键词检索的效率。

全部详细技术资料下载

【技术实现步骤摘要】
在中文语境中检索关键词的方法、装置及设备

[0001]本专利技术涉及一种在中文语境中检索关键词的方法、装置及设备，属于信息检索

技术介绍

[0002]以指定的关键词进行内容检索的技术，在计算机信息
正被广泛应用。所谓的检索操作，通常是指在检索文本（有时也称为正文串、主串等）中查找与检索关键词（有时也称为模式、子串等）相匹配的连续字符串的过程，如果匹配成功，通常需要返回检索关键词在检索文本中出现的每一处位置，否则返回匹配失败的检索结论。所检索的对象，除了保存于本地的电子文档之外，还有可能是含有文本数据的Web页面，甚至是含有文本数据的影像内容等；所应用的领域，通常涉及文献检索、搜索引擎、拼写检查、语言翻译、数据压缩等场景。
[0003]在关键词检索时，需要将关键词构成中的每一个字符逐一地与检索文本中对应位置的一个字符进行单独对比，从检索文本的起始位置开始，只有当检索文本中某个位置的字符串与整个检索关键词在字符构成与字符顺序上经比较后完全一致的情况下，方为关键词匹配的成功，否则从检索文本中起始位置的下一字符重新开始，继续进行下一轮的匹配计算，只有当检索文本中不存在任何一个与检索关键词完全对等的字符串时，方为匹配失败。
[0004]目前检索关键词的匹配过程，如图1和图2所示，其中图1以前三轮的匹配过程示意了在检索文本S中对检索关键词T查找时的单字对比情形尤其是单字对比顺序，图2则给出了关键词检索中进行每轮单字对比的全过程。参考图1和图2，检索文本S和检索关键词T均以字符数组的形式存储，检索文...

【技术保护点】

【技术特征摘要】
1.一种在中文语境中检索关键词的方法，所检索的关键词由两个或两个以上的汉字构成，其特征在于，所述的方法包括如下步骤：在计算机存储器中创建一个字库字频表，在该字库字频表的数据库中记载经过中文语料库统计之后的对应于汉字库中每个汉字的使用频度数值；根据所述字库字频表数据库中的记载，并结合数据库记录的编址方式，通过对字库字频表的读操作，分别查询所检索关键词构成中每个汉字对应的使用频度数值；将所检索关键词构成中每个汉字对应的使用频度数值按照由小到大的顺序依次排序，生成关键词字频排序表；在待检索中文语境中，从文本的首字符位置开始一直到文本的尾部位置，将文本中任一汉字位置开始的一个连续汉字串都与检索关键词进行一轮单字比较，并且在检索关键词的每轮单字比较中，均以所生成的关键词字频排序表所表示的单字排列顺序，作为对检索关键词构成中各汉字之间与检索文本中对应位置字符作对比的先后顺序。2.根据权利要求1所述的在中文语境中检索关键词的方法，其特征在于，所述创建一个字库字频表的过程，包括以下步骤：确立字库标准，该标准限于汉字库的国标文件或政府文件；采集中文语料，该中文语料为现代汉语且所含汉字总数达百万以上；统计字频数值，该字频数值为汉字库中每个汉字在中文语料库中出现的总次数。3.根据权利要求1所述的在中文语境中检索关键词的方法，其特征在于，所述字库字频表中记载的各汉字的使用频度数值，随着用户检索操作对各种检索文本的不断涉猎而持续更新；所述持续更新的过程为：在检索关键词的匹配过程中，将所读取的检索文本中的每一个汉字，查询其在字库字频表中的相应记录位置，并在该位置记载的该汉字原使用频度数值的基础上做加1运算。4.根据权利要求1所述的在中文语境中检索关键词的方法，其特征在于，所述关键词字频排序表，表示为检索关键词构成中每个汉字在该构成中位序数值的序列，并将每个位序数值依次储存在一个一维的整型数组中，通过该整型数组下位地址依次递增时所对应数组元素值的不断变化，形成检索关键词的每轮匹配运算中对其构成中各汉字的比较顺序，即所述关键词字频排序表所代表的汉字对比顺序。5.根据权利要求1所述的在中文语境中检索关键词的方法，其特征在于，所述待检索中文语境包括保存于计算机本地或服务器网页的一份单独文件的中文文本，或其一份文件内指定范围的中文文本，或其多份文件整体构成的中文文本。6.根据权利要求1所述的在中文语境中检索关键词的方法，其特征在于，在检索关键词的每轮单字比较过程中，一旦发现任一对应位置的两个单字不同，直接退出当前一轮的比较，只有当检索文本中的一个连续字符串与整个中文检索关键词在汉字构成与汉字顺序上完全相同，才认定当前一轮匹配的成功，直至将检索文本全文中所有与中文检索关键词等长的连续字符串与该中文检索关键词比较完毕。7.根据权利要求1
‑
6任意一项所述的在中文语...

【专利技术属性】
技术研发人员：王利烨，韩亚林，徐捷，田恒，
申请(专利权)人：强企宝典山东信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人