一种基于分词权重的文档索引生成方法和装置制造方法及图纸

技术编号:13431679 阅读:41 留言:0更新日期:2016-07-30 04:22
本发明专利技术实施例提供了一种基于分词权重的文档索引生成方法和装置,所述方法包括:设置文档对应的锚文本权重;按照所述锚文本权重对锚文本包含的分词配置特征权重;基于所述特征权重确定所述分词相对于所述文档的分词权重;根据所述分词和相对于所述文档分词权重生成文档索引。本发明专利技术实施例提高与用户搜索相关的搜索结果项的展示几率,提高了搜索的准确率,进而减少在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,提高了操作的简便性,减少了搜索引擎和本地系统的资源的消耗,减少带宽消耗,提高了搜索效率。

Method and apparatus for generating document index based on word segmentation weight

The embodiment of the invention provides a method and apparatus for generating word document index based on the weight, the method includes: setting the corresponding weight of the anchor text document; according to the weight of the anchor text word anchor text contains the configuration feature weights; the feature weights determine the weights of the document relative to the word segmentation based on; according to the segmentation and segmentation with respect to the document weight generating document index. The embodiment of the invention improves user search probability and relevant search results show the improved accuracy of the search, and then decrease in the search results page search, re enter search keywords and other ways to search, improves the simplicity of operation, the search engine and the local system resources to reduce consumption, reduce the bandwidth consumption, improve the efficiency of search.

【技术实现步骤摘要】

本专利技术涉及搜索
,特别是涉及一种基于分词权重的文档索引生成方法和一种基于分词权重的文档索引生成装置。
技术介绍
随着网络的迅速发展,网络上的信息急剧增加。用户为了在海量的信息中寻找所需的信息,通常使用搜索引擎进行搜索。搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。搜索引擎通常预先建立文档索引,比如倒排索引,这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址,索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(invertedindex)。搜索引擎中的文档索引一般是一个数据库索引表,基于该数据库索引表进行搜索获得的结果往往并非用户所需,准确率低。用户在未搜索到所需的信息时,通常在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,操作麻烦,搜索引擎和本地系统的资源消耗大,带宽消耗大,搜索效率低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于分词权重的文档索引生成方法和相应的一种基于分词权重的文档索引生成装置。依据本专利技术的一个方面,提供了一种基于分词权重的文档索引生成方法,包括:设置文档对应的锚文本权重;按照所述锚文本权重对锚文本包含的分词配置特征权重;基于所述特征权重确定所述分词相对于所述文档的分词权重;根据所述分词和相对于所述文档分词权重生成文档索引。可选地,所述方法还包括:从抓取到的文档中提取分词。可选地,所述分词包括一元分词,所述从抓取到的文档中提取分词的步骤包括:对抓取到的文档进行分词处理,获得一元分词。可选地,所述分词还包括二元分词,所述从抓取到的文档中提取分词的步骤还包括:将两两相邻的一元分词进行组合,获得二元分词。可选地,所述设置文档对应的锚文本权重的步骤包括:获取文档对应的锚文本;对所述锚文本设置对于所述文档的锚文本权重。可选地,所述按照所述锚文本权重对锚文本包含的分词配置特征权重的步骤包括:当所述锚文本包含一个分词时,将所述锚文本权重配置给所述分词。可选地,所述按照所述锚文本权重对锚文本包含的分词配置特征权重的步骤包括:当所述锚文本包含多个分词时,将所述锚文本权重平均配置给每个分词。可选地,所述基于所述特征权重确定所述分词相对于所述页面的分词权重的步骤包括:计算在所述文档中相同分词的特征权重之和,获得所述分词相对于所述文档的分词权重。可选地,所述文档具有编号信息,所述根据所述分词和相对于所述文档的分词权重生成文档索引的步骤包括:在一个或多个索引表中,将所述分词设置为键;将所述文档的编号信息、所述分词权重以及所述分词在所述页面的位置信息设置为所述键对应的值,获得一个或多个文档索引。可选地,所述采用所述特征分词和所述分词权重生成文档索引的步骤还包括:合并所述一个或多个文档索引。可选地,所述方法还包括:将所述文档索引存储至数据库中。可选地,所述将所述文档索引存储至数据库中的步骤包括:将目标编号信息和目标分词权重,与,目标位置信息独立存储在不同的文件中;所述目标编码信息为访问频率超过预设第一频率阈值的编码信息、所述目标分词权重为访问频率超过预设第二频率阈值的分词权重、所述目标位置信息为访问频率低于预设第三频率阈值的位置信息。可选地,所述将所述文档索引存储至数据库中的步骤包括:将一个或多个文档组合成一个或多个数据块;在每个数据块中,分别对归属所述数据块的编号信息、分词权重以及位置信息中的至少一个进行压缩处理。根据本专利技术的另一方面,提供了一种基于分词权重的文档索引生成装置,包括:设置模块,适于设置文档对应的锚文本权重;配置模块,适于按照所述锚文本权重对锚文本包含的分词配置特征权重;确定模块,适于基于所述特征权重确定所述分词相对于所述文档的分词权重;生成模块,适于根据所述分词和相对于所述文档分词权重生成文档索引。可选地,所述装置还包括:提取模块,适于从抓取到的文档中提取分词。可选地,所述分词包括一元分词,所述提取模块还适于:对抓取到的文档进行分词处理,获得一元分词。可选地,所述分词还包括二元分词,所述提取模块还适于:将两两相邻的一元分词进行组合,获得二元分词。可选地,所设置模块还适于:获取文档对应的锚文本;对所述锚文本设置对于所述文档的锚文本权重。可选地,所述配置模块还适于:当所述锚文本包含一个分词时,将所述锚文本权重配置给所述分词。可选地,所述配置模块还适于:当所述锚文本包含多个分词时,将所述锚文本权重平均配置给每个分词。可选地,所述确定模块还适于:计算在所述文档中相同分词的特征权重之和,获得所述分词相对于所述文档的分词权重。可选地,所述文档具有编号信息,所述生成模块还适于:在一个或多个索引表中,将所述分词设置为键;将所述文档的编号信息、所述分词权重以及所述分词在所述页面的位置信息设置为所述键对应的值,获得一个或多个文档索引。可选地,所述生成模块还适于:合并所述一个或多个文档索引。可选地,所述装置还包括:存储模块,适于将所述文档索引存储至数据库中。可选地,所述存储模块还适于:将目标编号信息和目标分词权重,与,目标位置信息独立存储在不同的文件中;所述目标编码信息为访问频率超过预设第一频率阈值的编码信息、所述目标分词权重为访问频率超过预设第二频率阈值的分词权重、所述目标位置信息为访问频率低于预设第三频率阈值的位置信息。可选地,所述存储模块还适于:将一个或多个文档组合成一个或多个数据块;在每个数据块中,分别对归属所述数据块的编号信息、分词权重以及位置信息中的至少一个进行压缩处理。本专利技术实施例设置文档对应的锚文本权重,对锚文本包含的分词配置特征权重,计算分词相对于文档的分词权重,并根据分词和相对于文档分词权重生成文档索引,通过在文档索引中标记分词相本文档来自技高网...

【技术保护点】
一种基于分词权重的文档索引生成方法,包括:设置文档对应的锚文本权重;按照所述锚文本权重对锚文本包含的分词配置特征权重;基于所述特征权重确定所述分词相对于所述文档的分词权重;根据所述分词和相对于所述文档分词权重生成文档索引。

【技术特征摘要】
1.一种基于分词权重的文档索引生成方法,包括:
设置文档对应的锚文本权重;
按照所述锚文本权重对锚文本包含的分词配置特征权重;
基于所述特征权重确定所述分词相对于所述文档的分词权重;
根据所述分词和相对于所述文档分词权重生成文档索引。
2.如权利要求1所述的方法,其特征在于,还包括:
从抓取到的文档中提取分词。
3.如权利要求1-2任一项所述的方法,其特征在于,所述分词包括一
元分词,所述从抓取到的文档中提取分词的步骤包括:
对抓取到的文档进行分词处理,获得一元分词。
4.如权利要求1-3任一项所述的方法,其特征在于,所述分词还包括
二元分词,所述从抓取到的文档中提取分词的步骤还包括:
将两两相邻的一元分词进行组合,获得二元分词。
5.如权利要求1或2或3或4所述的方法,其特征在于,所述设置文
档对应的锚文本权重的步骤包括:
获取文档对应的锚文本;
对所述锚文本设置对于所述文档的锚文本权重。
6.一种...

【专利技术属性】
技术研发人员:董毅
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1