文档影响力估计方法技术

技术编号:5964311 阅读:253 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种文档影响力估计方法,用于估计目标文档在语料库已有文档中的影响力;所述语料库已有文档包括检索用的倒排索引,所述倒排索引包括反向位置标记,所述的反向位置标记用于标识所述倒排索引的元组中具有一定间隔的位置上的文档与词语的相关度值;该方法包括:对目标文档做分词操作;对分词后所得到的各个词语分别计算该词语与所述目标文档间的相关度值;将所得到的相关度值与该词语所对应倒排索引的反向位置标记进行比较,根据比较结果估计所述目标文档的影响力。本发明专利技术系统开销小,所占用的存储资源少。

【技术实现步骤摘要】

本专利技术涉及网络搜索领域,特别涉及。
技术介绍
随着信息技术的不断发展和互联网应用的普及,社会各行业对信息化需求不断增 加,相应的也就会产生大量的文档。大量出现的文档的组织、存储和检索给信息管理系统带 来了巨大的挑战,与此同时也促进了信息检索和知识获取系统的快速发展。搜索引擎的出 现给文献的管理带来了一种灵活易用的检索方式,用户输入一组关键词,搜索引擎则返回 一组文档列表,所述列表中的文档根据与查询时所输入关键词的相关程度进行排序。现有技术中常常通过向量空间模型来描述关键词与文档之间的相关程度。正 如参考文献 1 “Salton, G. and McGill, Μ. J. 1983Introduction tomodern information retrieval. McGraw-Hill, ISBN 0-07-054484-0”、参考文献 2 “Salton,G.,Fox, Ε. A. and Wu, H. 1983Extended Boolean informationretrieval. Commun. ACM 26,1022-1036”、参考 文献 3 "Salton本文档来自技高网...

【技术保护点】
1.一种文档影响力估计方法,用于估计目标文档在语料库已有文档中的影响力;所述语料库已有文档包括检索用的倒排索引,所述倒排索引包括反向位置标记,所述的反向位置标记用于标识所述倒排索引的元组中具有一定间隔的位置上的文档与词语的相关度值;该方法包括:步骤1)、对目标文档做分词操作;步骤2)、对分词后所得到的各个词语分别计算该词语与所述目标文档间的相关度值;将所得到的相关度值与该词语所对应倒排索引的反向位置标记进行比较,根据比较结果估计所述目标文档的影响力。

【技术特征摘要】

【专利技术属性】
技术研发人员:韩毅李爱平贾焰韩伟红周斌黄九鸣
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:43[中国|湖南]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1