一种信息检索方法及系统技术方案

技术编号:22308367 阅读:13 留言:0更新日期:2019-10-16 08:27
本发明专利技术公开一种信息检索方法及系统。本发明专利技术提供的信息检索方法及系统,首先计算待查找关键词集合与国防科技情报领域待查数据源的网页文档集合中各个网页文档的相关性;然后将相关性大于或者等于相似阈值的网页文档输出,并将相关性小于相似阈值的网页文档按照时序性由高到低的顺序输出。本发明专利技术提供的检索方法及系统,将相关性较大的网页文档作为检索结果输出,能够确保检索结果的覆盖率,同时,对于相关性较小的网页文档,按照其时序性由高到低的顺序输出给用户,能够满足资讯检索的高时效性要求。因此,采用本发明专利技术提供的方法及系统进行国防科技情报领域的信息检索,能够同时满足其高时效性和高覆盖率的要求。

An information retrieval method and system

【技术实现步骤摘要】
一种信息检索方法及系统
本专利技术涉及信息检索领域,特别是涉及一种信息检索方法及系统。
技术介绍
信息检索(InformationRetrieval)是指根据用户需要,采用一定的信息检索方法,从大量的信息集合中找出用户所需要信息的查找过程。信息检索的核心问题是结果排序,即如何把用户最需要的信息排列在返回列表前面。资讯检索作为信息检索的一部分,是指利用一定的信息检索方法,为用户提供所需要的新闻、动态、政策、观点等资讯消息,它具有高时效性和个性化等主要特征。国防科技情报领域信息检索作为一种特殊的资讯检索,具有要求高时效性和高覆盖率的特性,但是,现有的检索方法无法同时满足其高时效性和高覆盖率的要求。
技术实现思路
本专利技术的目的是提供一种信息检索方法及系统,能够同时满足国防科技情报领域信息检索的高时效性和高覆盖率的要求。为实现上述目的,本专利技术提供了如下方案:一种信息检索方法,所述方法包括:获取待查找关键词集合和国防科技情报领域待查数据源的网页文档集合,所述网页文档集合包括多个网页文档;计算所述待查找关键词集合与各个所述网页文档的相关性;将相关性大于或者等于相似阈值的网页文档输出,并将相关性小于所述相似阈值的网页文档按照时序性由高到低的顺序输出。可选的,所述计算所述待查找关键词集合与各个所述网页文档的相关性,具体包括:采用BM25模型计算所述待查找关键词集合与每一所述网页文档的相关性。可选的,所述将相关性大于或者等于相似阈值的网页文档输出,具体包括:将相关性大于或者等于所述相似阈值的各网页文档按照相关性由高到低的顺序输出。可选的,所述将相关性小于所述相似阈值的网页文档按照时序性由高到低的顺序输出,具体包括:获取相关性小于所述相似阈值的各网页文档的时序参数,所述时序参数包括:发布时间、更新时间、点击量总数、下载量总数、页面停留时间总长和网页内容更新加速度中至少一者;根据所述时序参数计算每一所述网页文档的时序性;按照时序性由高到低的顺序将相关性小于所述相似阈值的各网页文档输出。可选的,所述时序参数包括:发布时间、更新时间、点击量总数、下载量总数、页面停留时间总长和网页内容更新加速度,所述根据所述时序参数计算每一所述网页文档的时序性,具体包括:根据公式:计算第i个网页文档的时序性,1≤i≤I,I表示相关性小于所述相似阈值的网页文档的数量,Si表示第i个网页文档的时序性;Di表示第i个网页文档的下载量总数;Ci表示第i个网页文档的点击量总数;Pi表示第i个网页文档的页面停留时间总长;T2i表示第i个网页文档的更新时间;T1i表示第i个网页文档的发布时间;Gi表示第i个网页文档的网页内容更新加速度。一种信息检索系统,所述系统包括:数据获取模块,用于获取待查找关键词集合和国防科技情报领域待查数据源的网页文档集合,所述网页文档集合包括多个网页文档;相关性计算模块,用于计算所述待查找关键词集合与各个所述网页文档的相关性;检索输出模块,用于将相关性大于或者等于相似阈值的网页文档输出,并将相关性小于所述相似阈值的网页文档按照时序性由高到低的顺序输出。可选的,所述相关性计算模块包括:相关性计算单元,用于采用BM25模型计算所述待查找关键词集合与每一所述网页文档的相关性。可选的,所述检索输出模块包括:高相似文档输出单元,用于将相关性大于或者等于所述相似阈值的各网页文档按照相关性由高到低的顺序输出。可选的,所述检索输出模块包括:时序参数获取单元,用于获取相关性小于所述相似阈值的各网页文档的时序参数,所述时序参数包括:发布时间、更新时间、点击量总数、下载量总数、页面停留时间总长和网页内容更新加速度中至少一者;时序性计算单元,用于根据所述时序参数计算每一所述网页文档的时序性;时序文档输出单元,用于按照时序性由高到低的顺序将相关性小于所述相似阈值的各网页文档输出。可选的,所述时序参数包括:发布时间、更新时间、点击量总数、下载量总数、页面停留时间总长和网页内容更新加速度,所述时序性计算单元包括:时序计算子单元,用于根据公式:计算第i个网页文档的时序性,1≤i≤I,I表示相关性小于所述相似阈值的网页文档的数量,Si表示第i个网页文档的时序性;Di表示第i个网页文档的下载量总数;Ci表示第i个网页文档的点击量总数;Pi表示第i个网页文档的页面停留时间总长;T2i表示第i个网页文档的更新时间;T1i表示第i个网页文档的发布时间;Gi表示第i个网页文档的网页内容更新加速度。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术提供的信息检索方法及系统,首先计算待查找关键词集合与国防科技情报领域待查数据源的网页文档集合中各个网页文档的相关性;然后将相关性大于或者等于相似阈值的网页文档输出,并将相关性小于相似阈值的网页文档按照时序性由高到低的顺序输出。本专利技术提供的检索方法及系统,将相关性较大的网页文档作为检索结果输出,能够确保检索结果的覆盖率,同时,对于相关性较小的网页文档,按照其时序性由高到低的顺序输出给用户,能够满足资讯检索的高时效性要求。因此,采用本专利技术提供的方法及系统进行国防科技情报领域的信息检索,能够同时满足其高时效性和高覆盖率的要求。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种信息检索方法的流程图;图2为本专利技术实施例提供的一种信息检索系统的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的目的是提供一种信息检索方法及系统,能够同时满足国防科技情报领域信息检索的高时效性和高覆盖率的要求。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1为本专利技术实施例提供的一种信息检索方法的流程图。如图1所示,所述方法包括:步骤101:获取待查找关键词集合和国防科技情报领域待查数据源的网页文档集合,所述网页文档集合包括多个网页文档。步骤102:计算所述待查找关键词集合与各个所述网页文档的相关性。本实施例中,采用BM25模型计算所述待查找关键词集合与每一所述网页文档的相关性。步骤103:将相关性大于或者等于相似阈值的网页文档输出,并将相关性小于所述相似阈值的网页文档按照时序性由高到低的顺序输出。实际应用中,可将相关性大于或者等于所述相似阈值的各网页文档按照相关性由高到低的顺序输出给用户,即相关性最高的网页文档放在最前面,相关性次之的放在第二位,以此类推,将相关性大于或者等于所述相似阈值的各网页文档输出给用户。所述将相关性小于所述相似阈值的网页文档按照时序性由高到低的顺序输出,具体包括:获取相关性小于所述相似阈值的各网页文档的时序参数,所述时序参数包括:发布时间、更新时间、点击量总数、下载量总数、页面停留时间总长和网页内容更新加速度本文档来自技高网...

【技术保护点】
1.一种信息检索方法,其特征在于,所述方法包括:获取待查找关键词集合和国防科技情报领域待查数据源的网页文档集合,所述网页文档集合包括多个网页文档;计算所述待查找关键词集合与各个所述网页文档的相关性;将相关性大于或者等于相似阈值的网页文档输出,并将相关性小于所述相似阈值的网页文档按照时序性由高到低的顺序输出。

【技术特征摘要】
1.一种信息检索方法,其特征在于,所述方法包括:获取待查找关键词集合和国防科技情报领域待查数据源的网页文档集合,所述网页文档集合包括多个网页文档;计算所述待查找关键词集合与各个所述网页文档的相关性;将相关性大于或者等于相似阈值的网页文档输出,并将相关性小于所述相似阈值的网页文档按照时序性由高到低的顺序输出。2.根据权利要求1所述的方法,其特征在于,所述计算所述待查找关键词集合与各个所述网页文档的相关性,具体包括:采用BM25模型计算所述待查找关键词集合与每一所述网页文档的相关性。3.根据权利要求1所述的方法,其特征在于,所述将相关性大于或者等于相似阈值的网页文档输出,具体包括:将相关性大于或者等于所述相似阈值的各网页文档按照相关性由高到低的顺序输出。4.根据权利要求1所述的方法,其特征在于,所述将相关性小于所述相似阈值的网页文档按照时序性由高到低的顺序输出,具体包括:获取相关性小于所述相似阈值的各网页文档的时序参数,所述时序参数包括:发布时间、更新时间、点击量总数、下载量总数、页面停留时间总长和网页内容更新加速度中至少一者;根据所述时序参数计算每一所述网页文档的时序性;按照时序性由高到低的顺序将相关性小于所述相似阈值的各网页文档输出。5.根据权利要求4所述的方法,其特征在于,所述时序参数包括:发布时间、更新时间、点击量总数、下载量总数、页面停留时间总长和网页内容更新加速度,所述根据所述时序参数计算每一所述网页文档的时序性,具体包括:根据公式:计算第i个网页文档的时序性,1≤i≤I,I表示相关性小于所述相似阈值的网页文档的数量,Si表示第i个网页文档的时序性;Di表示第i个网页文档的下载量总数;Ci表示第i个网页文档的点击量总数;Pi表示第i个网页文档的页面停留时间总长;T2i表示第i个网页文档的更新时间;T1i表示第i个网页文档的发布时间;Gi表示第i个网页文档的网页内容更新加速度。6.一种...

【专利技术属性】
技术研发人员:董文轩程洁丹晏裕生姚晗孙孟阳江洋
申请(专利权)人:中国船舶工业综合技术经济研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1