一种信息检索方法及装置制造方法及图纸

技术编号:14061242 阅读:50 留言:0更新日期:2016-11-27 18:08
本申请公开了一种信息检索方法及装置,包括:获取处理层采用信息检索技术将数据层的数据库中的数据与检索词相匹配的第一匹配结果;提取第一匹配结果中的高频关键词;将所述高频关键词按照关联程度与关联川页序进行排列后,确定核心关键词;在处理层采用所述信息检索技术将数据层的数据库中的数据与所述核心关键词相匹配获得第二匹配结果;将第一匹配结果与第二匹配结果进行比对后保留比对匹配结果;将匹配结果作为检索结果。采用本中请,可以有效去除无用信息和关联度较小的信息,使获得的最终信息检索结果比现有技术方案更加准确。

【技术实现步骤摘要】

本申请涉及信息处理领域,特别涉及一种信息检索方法及装置
技术介绍
图1为C/S三层情报系统结构示意图,如图所示,现有技术中,C/S(Client/Server Structs,客户机和服务器结构)三层情报系统是一种根据情报主题获取相关信息的系统。情报主题也即与信息获取需求相匹配的关键字或关键字段。分为数据层、处理层、服务层三层。数据层为外部数据库及已知专有数据库。处理层为利用信息检索技术将数据库中的数据与情报主题相匹配的功能,产出的匹配结果输出到服务层完成可视化输出。采用该方案的最常见的产品如百度搜索等。现有技术的不足在于:通过在处理层设置关键字情报主题的方式,在已知数据库中获取所需要的信息时,获得的信息匹配结果不够精确,有过多的过时、重复、无用信息。
技术实现思路
本申请实施例中提供了一种信息检索方法及装置,用以去除过时、重复、无用的信息,提高信息匹配结果的精确度。本申请实施例中提供了一种信息检索方法,包括如下步骤:获取处理层采用信息检索技术将数据层的数据库中的数据与检索词相匹配的第一匹配结果;提取第一匹配结果中的高频关键词;将所述高频关键词按照关联程度与关联顺序进行排列后,确定核心关键
词;在处理层采用所述信息检索技术将数据层的数据库中的数据与所述核心关键词相匹配获得第二匹配结果;将第一匹配结果与第二匹配结果进行比对后保留比对匹配结果;将匹配结果作为检索结果。本申请实施例中还提供了一种信息检索装置,包括:获取模块,用于获取处理层采用信息检索技术将数据层的数据库中的数据与检索词相匹配的第一匹配结果;高频关键词模块,用于提取第一匹配结果中的高频关键词;核心关键词模块,用于将所述高频关键词按照关联程度与关联顺序进行排列后,确定核心关键词;匹配模块,用于在处理层采用所述信息检索技术将数据层的数据库中的数据与所述核心关键词相匹配获得第二匹配结果;比对模块,用于将第一匹配结果与第二匹配结果进行比对后保留比对匹配结果;结果确定模块,用于将匹配结果作为检索结果。本申请有益效果如下:在本申请实施例提供的技术方案中,先按现有的方式采用信息检索技术将数据层的数据库中的数据与检索词相匹配得到第一次的匹配结果;然后进行二次检索处理,包括:将第一次的匹配结果中的高频关键词按照关联程度与关联顺序进行排列后,确定核心关键词;再采用信息检索技术将数据层的数据库中的数据与所述核心关键词相匹配获得第二次的匹配结果;最后将两次的匹配结果进行比对后保留比对匹配结果后才将匹配结果作为检索结果输出。由于在方案中采用了二次过滤的方案,利用数据挖掘算法,在已经获取到的数据中提取重复出现次数和表达频率最高的关键字段,并将此字段设置为检索词,因而可以有效的去除无用信息和关联度较小的信息,如可以去除过多的过时、重复、
无用的信息,使得检索结果更为精确。附图说明图1为
技术介绍
中C/S三层情报系统结构示意图;图2为本申请实施例中信息检索方法实施流程示意图;图3为本申请实施例中C/S三层情报系统结构下信用卡泄露和银行盗卡信息检索实施流程示意图;图4为本申请实施例中信息检索装置结构示意图。具体实施方式下面结合附图对本申请的具体实施方式进行说明。专利技术人在专利技术过程中注意到,现有技术中通过在处理层设置关键字情报主题的方式,在已知数据库中获取所需要的信息时,获得的信息匹配结果不够精确,有过多的过时、重复、无用信息。该问题在面对在已知数据库中获取所需要的信息包含较大价值时表现得尤为突出,例如获取银行盗卡信用卡泄露信息,此时,由于获得的信息匹配结果不够精确,有过多的过时、重复、无用信息,将会导致较严重的经济后果。基于此,本申请实施例提供的技术方案中,通过在服务层设置二次过滤,利用数据挖掘算法,在已经获取到的数据中提取重复出现次数和表达频率最高的关键字段,并将此字段设置为情报主题,可以有效去除无用信息和关联度较小的信息。下面对实施方式进行说明。图2为信息检索方法实施流程示意图,如图所示,可以包括如下步骤:步骤201、获取处理层采用信息检索技术将数据层的数据库中的数据与检索词相匹配的第一匹配结果;步骤202、提取第一匹配结果中的高频关键词;步骤203、将所述高频关键词按照关联程度与关联顺序进行排列后,确定
核心关键词;步骤204、在处理层采用所述信息检索技术将数据层的数据库中的数据与所述核心关键词相匹配获得第二匹配结果;步骤205、将第一匹配结果与第二匹配结果进行比对后保留比对匹配结果;步骤206、将匹配结果作为检索结果。具体实施中,本方案的目的是为利用数据挖掘算法,利用已经获取到的数据中提取重复出现次数和表达频率最高的关键字段来去除无用信息和关联度较小的信息,因此,采用何种信息检索技术并不影响实施的效果,因此在步骤201中,采用现有技术中已有的信息检索技术即可。实施中,步骤202中的提取第一匹配结果中的高频关键词,可以采用Association Rules(关联规则)技术进行提取。在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami提出,关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。是数据中一种简单但很实用的规则。因此,实施例中以其为例进行说明,但是,从理论上来说,用其它的技术也是可以的,只要能够提取出高频关键词即可,Association Rules仅用于教导本领域技术人员具体如何实施本申请,但不意味仅能使用Association Rules一种方式,实施过程中可以结合实践需要来确定相应的方式。关联规则是描述在一个事务中事物之间同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述一个事物的出现对另一个事物的出现有多大的影响。关联规则挖掘过程主要包含两个阶段:第一阶段是先从资料集合中找出高频项目组(Frequent Itemsets);第二阶段是再由这些高频项目组中产生关联规则(AssociationRules)。关联规则挖掘的第一阶段是从原始资料集合(也即实施例中的第一匹配结果)中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组
出现的频率相对于所有记录而言,必须达到某一水平。一项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,可以求得包含{A,B本文档来自技高网
...
一种信息检索方法及装置

【技术保护点】
一种信息检索方法,其特征在于,包括如下步骤:获取处理层采用信息检索技术将数据层的数据库中的数据与检索词相匹配的第一匹配结果;提取第一匹配结果中的高频关键词;将所述高频关键词按照关联程度与关联顺序进行排列后,确定核心关键词;在处理层采用所述信息检索技术将数据层的数据库中的数据与所述核心关键词相匹配获得第二匹配结果;将第一匹配结果与第二匹配结果进行比对后保留比对匹配结果;将匹配结果作为检索结果。

【技术特征摘要】
1.一种信息检索方法,其特征在于,包括如下步骤:获取处理层采用信息检索技术将数据层的数据库中的数据与检索词相匹配的第一匹配结果;提取第一匹配结果中的高频关键词;将所述高频关键词按照关联程度与关联顺序进行排列后,确定核心关键词;在处理层采用所述信息检索技术将数据层的数据库中的数据与所述核心关键词相匹配获得第二匹配结果;将第一匹配结果与第二匹配结果进行比对后保留比对匹配结果;将匹配结果作为检索结果。2.如权利要求1所述的方法,其特征在于,提取第一匹配结果中的高频关键词,是采用关联规则Association Rules技术提取的。3.如权利要求1所述的方法,其特征在于,将所述高频关键词中按照关联程度与关联顺序进行排列后,确定核心关键词,是采用文字图WORDMAP技术确定的。4.如权利要求1所述的方法,其特征在于,将第一匹配结果与第二匹配结果进行比对后保留比对匹配结果,是在服务层进行比对的。5.如权利要求1至4任一所述的方法,其特征在于,进一步包括:将检索结果提供给服务层,和/或,将检索结果录入数据库。6.一种信息检索装置,其特征在于,包括:获取模块,用于获取处理层采用...

【专利技术属性】
技术研发人员:林川
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1