当前位置: 首页 > 专利查询>肖岩专利>正文

一种检索的方法和系统技术方案

技术编号:9175372 阅读:157 留言:0更新日期:2013-09-20 01:03
本发明专利技术公开了一种检索的方法和系统。该方法包括:A)根据用户在终端上所输入检索词查询检索词目录表,获取包含所述输入检索词的第一数据项集合;B)根据与所述输入检索词相关联的第一数据项集合的各个数据项,查询信息索引数据表,获取第二数据项集合;C)组合并发送所述第一数据项集合给所述终端;其中,所述第一数据项集合以递归方式组合;以及向所述终端发送所述第二数据项集合。该方案由检索字符串的形式化过程去提炼语义、引导和返回检索信息,因此能够提升检索的确定性、逻辑性、效率和用户感受。

【技术实现步骤摘要】
【国外来华专利技术】一种检索的方法和系统
本专利技术涉及计算机信息处理领域,特别是一种检索的方法和系统。
技术介绍
现有信息检索技术中,处理检索字符串的方法有很多,最常见的是基于统计方法提出的技术方案,也有专门根据特定语义规则构造专用信息检索方法。在不处理语义即不针对语义处理的一般信息检索与完全特定定义的语义规则的特定语义规则检索之间,成熟方案目前只有用前述的统计方法去归纳、猜测语义。此外,现在知道的就只有利用互联网络海量信息链接特性、基于引用(链接指向)的googlepagerank(Google网页级别)方法。综上可知,现有信息检索处理技术在实际使用上,显然存在不便与缺陷,所以有必要加以改进。同时关于检索提示。搜索引擎的用途是提供用户所关心的信息的引导,用户利用搜索引擎,根据其已知信息来获得所关心的、未知的信息。但用户对未知信息未必能够找到恰当和准确的文字描述,另外即使用户知道主要的关键字,也希望与此关键词有关的信息都有良好、充分的提示。现有技术包括:1、中国专利申请号为200610112822.4,名称为"基于倒排表进行检索提示的方法"。2、百度相关搜索和google的关键字工具、等。这些技术都是基于对用户输入的查询词统计而生成检索提示的。其缺点在于:首先,这些提示的内容都是经过筛选后的排名靠前的数据。这些数据仅仅是一个列表,在内容上是不完备的。其次,这些以列表的形式展现给用户的数据,由于相互之间互相独立,各条信息都独立存在,而且包含了与检索词有关的提示信息,这就造成其数据量常常会非常大,用户从中查找有用信息的工作量会显著加大。再次,这些信息之间没有逻辑结构与语义特征,给出的检索提示让用户无所适从。百度相关搜索只给出了10个相关检索提示。Google关键字工具虽然可以给你最多150条的相关检索提示,但这些提示是无组织的,没有逻辑相关性。另如,这些检索提示多基于对海量用户的行为进行建模,认为多数人的行为就是检索用户所需要的。比如在2008年,北京与奥运之间,经过统计海量用户,证明两者之间具备关联性;而在2009年春天的北京与甲流,2010年元旦的北京与暴雪之间,都具有关联性。一旦海量用户的搜索点击具有突然性、预设性,那么检索提示就会受到这种海量搜索点击的直接影响。有鉴于此,也需要找到更好的检索提示和展示检索信息的方法。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种信息检索的处理方法及其系统,本专利技术由检索字符串的形式化过程去提炼语义、引导和返回检索信息。附加地使得检索提示更加简洁清晰、逻辑完备。为实现本专利技术目的而提供的一种检索的方法,包括步骤:A.根据用户在终端上所输入检索词查询检索词目录表,获取包含所述输入检索词的第一数据项集合;其中,所述第一数据项集合的各个数据项之间存在亲属关系;B.根据与所述输入检索词相关联的第一数据项集合的各个数据项,查询信息索引数据表,获取第二数据项集合;C.组合并发送所述第一数据项集合给所述终端;其中,所述第一数据项集合以递归方式组合;以及向所述终端发送所述第二数据项集合。较优地,所述步骤A中,还包括下列步骤:A1.生成所述检索词目录表。较优地,所述步骤B中,所述获取第二数据项集合,包括下列步骤:由第一数据项集合的各个数据项,查询信息索引表,进行简单匹配获取第二数据项集合;或由第一数据项集合的各个数据项,查询信息索引表,进行递归组合匹配获取第二数据项集合。较优地,所述步骤A1中,生成检索词目录表,包括如下步骤:Al1.将原始检索词数据表中的各个原始字符串两两互相匹配,确定相互之间的包含关系;A12.根据所述包含关系,确定所述两两互相匹配的所述原始字符串之间的父子关系;A13.根据所述两两互相匹配的具有父子关系的所述原始字符串,分别生成数据项集合Dl、D2……Dn,其中,n大于等于1;所述数据项集合Dl、D2……Dn组成检索词目录表;其中,所述数据项集合Dn的各个数据项的所述原始字符串之间具有亲属关系。较优地,所述包含关系包括:左包含、右包含、居中包含或不包含。较优地,所述步骤A12包括下列步骤:如果所述至少两个原始字符串之间构成左包含或右包含关系,则将所述两个原始字符串设置为父子关系,所述被包含的原始字符串为父;及如果所述至少两个原始字符串集合之间构成包含关系,则将所述两个原始字符串集合设置为父子关系,所述被包含的原始字符串集合为父。较优地,所述步骤A13中,所述包含关系为右包含关系时,则所述数据项集合组成检索词目录表,还包括对数据项组合在字符串逆向后排序的基础上组成检索词目录表;所述字符串逆向后排序,包括如下步骤:A131.根据检索词字段逆向后生成逆向检索词字段;A132.初始化继承直系树堆栈为空;A133.以逆向检索词字段排序得到全部[编号,逆向检索词]数据;A134.读取当前[编号,逆向检索词]数据到继承直系树堆栈;如果没有数据,即当前[编号,逆向检索词]数据为空,跳转到步骤A1310;否则,进入步骤A135;A135.初始化临时直系树堆栈为空;A136.如果继承直系树堆栈为空,则跳转到步骤A138;A137.如果继承直系树堆栈不为空,则从继承直系树堆栈中,查找当前[编号,逆向检索词]数据的长辈结点;如果有长辈结点,则将所述长辈结点入栈到临时直系树堆栈,所述长辈结点中的最后一个结点是该长辈结点的父结点,修改当前堆栈游标值为父结点的编号;如果从继承直系树堆栈中找不到长辈结点,则设置堆栈游标值为0;并将临时直系树堆栈的值赋予给继承直系树堆栈,并将当前的[编号,逆向检索词]数据压入继承直系树堆栈,然后跳转到步骤A139;步骤A138.将当前的[编号,逆向检索词]数据压入继承直系树堆栈,并更新当前堆栈游标值为0;步骤A139.当前堆栈游标值加1,跳转到步骤A134,读取下一条[编号,逆向检索词]数据,执行循环;步骤A1310.结束。较优地,所述步骤All中,还包括原始检索词数据表生成的步骤;所述原始检索词数据表生成的步骤包括下列步骤:根据所述信息索引数据表的信息索引数据,去重复后生成原始字符串集,得到原始检索词数据表。较优地,所述的检索的方法,还包括信息索引数据表生成的步骤;所述信息索引数据表生成的步骤,包括下列步骤:从信息数据表获取索引词;使用索引词或索引词集合建立倒排数据表,根据倒排数据表生成信息索引数据表。较优地,所述的检索的方法,还包括如下步骤:根据所述输入检索词,查询别名数据表,获取与所述输入检索词对应的别名检索词;以所述别名检索词作为新的输入检索词,重复执行步骤A-C。为实现本专利技术目的,还提供一种信息检索的处理系统,包括:-信息数据表模块,用于存储所有的信息内容;-信息索引数据表模块,用于根据所述信息数据表模块的所述所有的信息内容生成并存储为信息索引数据表;-原始检索词数据表模块,用于将所述信息索引数据表去重复后得到原始字符串,所述原始字符串构成原始字符串集,全部所述原始字符串集组成并存储为原始检索词数据表;-检索词目录表模块,用于根据所述每个原始字符串与所述原始检索词数据表中其他原始字符串的亲属关系,进行相互匹配生成数据项集合,所述数据项集合组成并存储为检索词目录表;-搜索引擎模块,用于根据用户在终端上所输入检索词,查询所述检索词目录表,获取包含所述输入检索词的第本文档来自技高网
...
一种检索的方法和系统

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种检索的方法,其特征在于,包括步骤:A.根据用户在终端上所输入检索词查询检索词目录表,获取包含所述输入检索词的第一数据项集合;其中,所述第一数据项集合的各个数据项之间存在亲属关系;B.根据与所述输入检索词相关联的第一数据项集合的各个数据项,查询信息索引数据表,获取第二数据项集合;C.组合并发送所述第一数据项集合给所述终端;其中,所述第一数据项集合以递归方式组合;以及向所述终端发送所述第二数据项集合;所述步骤A中,还包括下列步骤:A1.生成所述检索词目录表;所述步骤A1中,生成所述检索词目录表,包括如下步骤:Al1.将原始检索词数据表中的各个原始字符串两两互相匹配,确定相互之间的包含关系;A12.根据所述包含关系,确定所述两两互相匹配的所述原始字符串之间的父子关系;A13.根据所述两两互相匹配的具有父子关系的所述原始字符串,分别生成数据项集合Dl、D2……Dn,其中,n大于等于1;所述数据项集合Dl、D2……Dn组成检索词目录表;其中,所述数据项集合Dn的各个数据项的所述原始字符串之间具有亲属关系。2.如权利要求1所述的检索的方法,其特征在于,所述步骤B中,所述获取第二数据项集合,包括下列步骤:由第一数据项集合的各个数据项,查询信息索引数据表,进行简单匹配获取第二数据项集合;或由第一数据项集合的各个数据项,查询信息索引数据表,进行递归组合匹配获取第二数据项集合。3.如权利要求1所述的检索的方法,其特征在于,所述包含关系包括:左包含、右包含、居中包含或不包含。4.如权利要求1所述的检索的方法,特征在于,所述步骤A12包括下列步骤:如果至少两个原始字符串之间构成左包含或右包含关系,则将所述两个原始字符串设置为父子关系,被包含的原始字符串为父;及如果至少两个原始字符串集合之间构成包含关系,则将所述两个原始字符串集合设置为父子关系,被包含的原始字符串集合为父。5.如权利要求4所述的检索的方法,其特征在于,所述步骤A13中,所述包含关系为右包含关系时,则所述数据项集合组成检索词目录表,还包括对数据项组合在字符串逆向后排序的基础上组成检索词目录表;所述字符串逆向后排序,包括如下步骤:A131.根据检索词字段逆向后生成逆向检索词字段;A132.初始化继承直系树堆栈为空;A133.以逆向检索词字段排序得到全部[编号,逆向检索词]数据;A134.读取当前[编号,逆向检索词]数据到继承直系树堆栈;如果没有数据,即当前[编号,逆向检索词]数据为空,跳转到步骤A1310;否则,进入步骤A135;A135.初始化临时直系树堆栈为空;A136.如果继承直系树堆栈为空,则跳转到步骤A138;A137.如果继承直系树堆栈不为空,则从继承直系树堆栈中,查找当前[编号,逆向检索词]数据的长辈结点;如果有长辈结点,则将所述长辈结点入栈到临时直系树堆栈,所述长辈结点中的最后一个结点是该长辈结点的父结点,修改当前堆栈游标值为父结点的编号;如果从继承直系树堆栈中找不到长辈结点,则设置堆栈游标值为0;并将临时直系树堆栈的值赋予给继承直系树堆栈,...

【专利技术属性】
技术研发人员:肖岩
申请(专利权)人:肖岩
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1