一种信息检索方法及服务器技术

技术编号:13429950 阅读:27 留言:0更新日期:2016-07-30 00:34
本发明专利技术实施例公开了一种信息检索方法,包括:获取待检索数据,其中,所述待检索数据包含有至少两个待检索子数据;从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据;基于至少一个第一待检索子数据,从所述检索数据库中进行初级检索,得到初级检索结果;其中,所述初级检索结果为至少包含有所述至少一个第一待检索子数据的信息;获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度,基于特征相似度从所述子数据中选取至少一个目标关键字;基于至少一个目标关键字,在所述初级检索结果中选取并输出目标检索结果。本发明专利技术实施例还公开了一种服务器。

【技术实现步骤摘要】

本专利技术涉及信息检索技术,尤其涉及一种信息检索方法及服务器。
技术介绍
现有检索技术大多是基于查询串的重要性而进行检索的;例如,根据用户输入的查询串的重要性,对查询串中不重要的部分查询词进行舍弃,并利用同义词匹配原则,从检索数据库中选取出与查询串中剩余的查询词同义词匹配的查询结果;这里,所述查询结果可以是根据剩余的查询词在检索数据库所对应的权重而进行排序后的信息。上述过程中,严重依赖所有查询词或者至少部分查询词是否出现在检索数据库的文章中,以及出现的次数,位置等,且上述出现的次数、位置等特征影响查询结果中文章的权重,以及排序;这里,当舍弃的查询词虽然未出现查询结果中,但是与查询结果中目标文章的语义相关性较高,此时,利用上述方法得到的查询结果显然会将语义相关性较高的目标文章的排序靠后,因此,延长了用户寻找目标文章的时间,降低了用户体验。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例提供了一种信息检索方法及服务器。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供了一种信息检索方法,包括:获取待检索数据,其中,所述待检索数据包含有至少两个待检索子数据;从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据;基于至少一个第一待检索子数据,从检索数据库中进行初级检索,得到初级检索结果;其中,所述初级检索结果为至少包含有所述至少一个第一待检索子数据的信息;获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度,基于特征相似度从所述子数据中选取至少一个目标关键字;基于至少一个目标关键字,在所述初级检索结果中选取并输出目标检索结果。本专利技术实施例还提供了一种服务器,包括:获取单元,用于获取待检索数据,其中,所述待检索数据包含有至少两个待检索子数据;确定单元,用于从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据;检索单元,用于基于至少一个第一待检索子数据,从检索数据库中进行初级检索,得到初级检索结果;获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度,基于特征相似度从所述子数据中选取至少一个目标关键字;基于至少一个目标关键字,在所述初级检索结果中选取并输出目标检索结果;其中,所述初级检索结果为至少包含有所述至少一个第一待检索子数据的信息。本专利技术实施例所提供的信息检索方法及服务器,首先,将待检索数据拆分为两部分,即至少一个第一待检索子数据和至少一个第二待检索子数据;然后,根据所述至少一个第一待检索子数据在检索数据库中确定出初级检索结果;最后,获取所述至少一个第二待检索子数据与所述检索数据库中的子数据之间的特征相似度,进而根据特征相似度,从所述初级检索结果中选取出目标检索结果,实现了对初级检索结果的优化;而且,由于本专利技术实施例所述的方法引入了特征相似度概念,且通过该特征相似度能够确定出至少一个第二待检索子数据与所述检索数据库中的子数据之间的词义匹配度,所以,本专利技术实施例能够实现从初级检索结果中选取出词义相关性较近的文章,提升待检索数据与目标检索结果的匹配度的目的。附图说明图1为本专利技术实施例信息检索方法的实现流程;图2为传统检索技术示意图;图3为本专利技术实施例语言模型示意图;图4为本专利技术实施例语言模型原理示意图;图5为本专利技术实施例确定检索数据库中各子数据对应的向量的实现流程示意图;图6为本专利技术实施例信息检索方法的具体应用的示意图;图7为本专利技术实施例将计算出的向量相似度按照逆序排列后得到的输出结果示意图;图8为输出的初级检索结果示意图;图9为实施本专利技术实施例所述的信息检索方法后所输出的目标检索结果的示意图;图10为本专利技术实施例服务器的具体结构示意图;图11为本专利技术实施例服务器硬件组成结构示意图。具体实施方式为了能够更加详尽地了解本专利技术的特点与
技术实现思路
,下面结合附图对本发明的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本专利技术。实施例一本专利技术实施例提供了一种信息检索方法,如图1所示,所述方法包括:步骤101:获取待检索数据,其中,所述待检索数据包含有至少两个待检索子数据;步骤102:从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据;步骤103:基于至少一个第一待检索子数据,从所述检索数据库中进行初级检索,得到初级检索结果;其中,所述初级检索结果为至少包含有所述至少一个第一待检索子数据的信息;步骤104:获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度,基于特征相似度从所述子数据中选取至少一个目标关键字;步骤105:基于至少一个目标关键字,在所述初级检索结果中选取并输出目标检索结果。本实施例提供的方案可以应用于服务器侧。本实施例中,所述待检索数据可以具体为查询串,且该查询串包含有至少两个查询词。本实施例中,步骤102所述从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据,可以具体包括:获取所述至少两个待检索子数据所对应的权重值;基于权重值,从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据;也就是说,本实施例所述方法将所述待检索数据拆分成两部分,分别为至少一个第一待检索子数据和至少一个第二待检索子数据;其中,所述至少一个第一待检索子数据所对应的权重值大于所述至少一个第二待检索子数据所对应的权重值。具体地,所述至少一个第一待检索子数据所对应的权重值大于权重门限值;所述至少一个第二待检索子数据所对应的权重值小于所述权重门限值。这里,所述初级检索结果是根据所述至少一个第一待检索子数据确定出的,也就是说,所述初级检索结果至少包含有所述至少一个第一待检索子数据,且根据权重值大于所述权重门限值的所述至少一个第一待检索子确定出的所述初级检测结果满足预设规则;比如,根据权重值大于所述权重门限值的所述至少一个第一待检索子确定出的所述初级检测结果对应的文章篇数大于第一阈值,和/或,根据权重值大于所述权重门限值的所述至少一个第一待检索子确定出的所述初级检测结果所占用的总页数大于第二阈值;具体地,根据所述至少一个第一待检索子数据确定出的初级检索结本文档来自技高网
...

【技术保护点】
一种信息检索方法,其特征在于,所述方法包括:获取待检索数据,其中,所述待检索数据包含有至少两个待检索子数据;从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据;基于至少一个第一待检索子数据,从检索数据库中进行初级检索,得到初级检索结果;其中,所述初级检索结果为至少包含有所述至少一个第一待检索子数据的信息;获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度,基于特征相似度从所述子数据中选取至少一个目标关键字;基于至少一个目标关键字,在所述初级检索结果中选取并输出目标检索结果。

【技术特征摘要】
1.一种信息检索方法,其特征在于,所述方法包括:
获取待检索数据,其中,所述待检索数据包含有至少两个待检索子数据;
从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至
少一个第二待检索子数据;
基于至少一个第一待检索子数据,从检索数据库中进行初级检索,得到初
级检索结果;其中,所述初级检索结果为至少包含有所述至少一个第一待检索
子数据的信息;
获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特
征相似度,基于特征相似度从所述子数据中选取至少一个目标关键字;
基于至少一个目标关键字,在所述初级检索结果中选取并输出目标检索结
果。
2.根据权利要求1所述的方法,其特征在于,所述从所述至少两个待检索
子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据,
包括:
获取所述至少两个待检索子数据所对应的权重值;
基于权重值,从所述至少两个待检索子数据中确定出至少一个第一待检索
子数据以及至少一个第二待检索子数据。
3.根据权利要求1所述的方法,其特征在于,所述获取到所述检索数据库
中的子数据与所述至少一个第二待检索子数据的特征相似度,包括:
计算所述至少一个第二待检索子数据对应的目标向量与所述检索数据库中
的至少一个子数据对应的至少一个向量的向量相似度;
基于向量相似度确定至少一个目标关键字。
4.根据权利要求3所述的方法,其特征在于,所述方法包括:
对所述检索数据库中的文本数据做分词处理,得到至少一个子数据;
对所述至少一个子数据进行处理,得到与所述至少一个子数据对应的至少

\t一个向量。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于特征相
似度从所述子数据中选取至少一个目标关键字,包括:
基于特征相似度,在所述检索数据库的至少一个子数据中选取出特征相似
度高于预设门限值的至少一个目标子数据,将所述至少一个目标子数据作为至
少一个目标关键字。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述基于特征相
似度从所述子数据中选取至少一个目标关键字,包括:
基于特征相似度,对所述检索数据库中的至少一个子数据进行降序排列,
选取排序结果位于预设位数之前的至少一个目标子数据,将所述至少一个目标
子数据作为至少一个目标关键字。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述输出目标检
索结果,包括:
根据计算出的所述至少一个目...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1