The embodiment of the invention provides a method and apparatus for generating word document index based on the weight, the method includes: setting the corresponding weight of the anchor text document; according to the weight of the anchor text word anchor text contains the configuration feature weights; the feature weights determine the weights of the document relative to the word segmentation based on; according to the segmentation and segmentation with respect to the document weight generating document index. The embodiment of the invention improves user search probability and relevant search results show the improved accuracy of the search, and then decrease in the search results page search, re enter search keywords and other ways to search, improves the simplicity of operation, the search engine and the local system resources to reduce consumption, reduce the bandwidth consumption, improve the efficiency of search.
【技术实现步骤摘要】
本专利技术涉及搜索
,特别是涉及一种基于分词权重的文档索引生成方法和一种基于分词权重的文档索引生成装置。
技术介绍
随着网络的迅速发展,网络上的信息急剧增加。用户为了在海量的信息中寻找所需的信息,通常使用搜索引擎进行搜索。搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。搜索引擎通常预先建立文档索引,比如倒排索引,这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址,索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(invertedindex)。搜索引擎中的文档索引一般是一个数据库索引表,基于该数据库索引表进行搜索获得的结果往往并非用户所需,准确率低。用户在未搜索到所需的信息时,通常在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,操作麻烦,搜索引擎和本地系统的资源消耗大,带宽消耗大,搜索效率低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于分词权重的文档索引生 ...
【技术保护点】
一种基于分词权重的文档索引生成方法,包括:设置文档对应的锚文本权重;按照所述锚文本权重对锚文本包含的分词配置特征权重;基于所述特征权重确定所述分词相对于所述文档的分词权重;根据所述分词和相对于所述文档分词权重生成文档索引。
【技术特征摘要】
1.一种基于分词权重的文档索引生成方法,包括:
设置文档对应的锚文本权重;
按照所述锚文本权重对锚文本包含的分词配置特征权重;
基于所述特征权重确定所述分词相对于所述文档的分词权重;
根据所述分词和相对于所述文档分词权重生成文档索引。
2.如权利要求1所述的方法,其特征在于,还包括:
从抓取到的文档中提取分词。
3.如权利要求1-2任一项所述的方法,其特征在于,所述分词包括一
元分词,所述从抓取到的文档中提取分词的步骤包括:
对抓取到的文档进行分词处理,获得一元分词。
4.如权利要求1-3任一项所述的方法,其特征在于,所述分词还包括
二元分词,所述从抓取到的文档中提取分词的步骤还包括:
将两两相邻的一元分词进行组合,获得二元分词。
5.如权利要求1或2或3或4所述的方法,其特征在于,所述设置文
档对应的锚文本权重的步骤包括:
获取文档对应的锚文本;
对所述锚文本设置对于所述文档的锚文本权重。
6.一种...
【专利技术属性】
技术研发人员:董毅,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。