一种可配置方式的复杂关键字搜索技术实现方法技术

技术编号:4093397 阅读:201 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种文本,网页或其他二进制内容的搜索方法,尤其是一种具有复杂关键字检索结构的网络搜索方法,主要是通过配置文件的方式,先对关键字进行配置建立索引关系,实现对复杂逻辑关键字内容的查找,从而解决关键字经常变化时搜索适应性和可移植性差的问题。这种技术的优点是代码简单,复用性高,可实现复杂的逻辑关系的搜索,配置灵活,可用范围广。

【技术实现步骤摘要】

本专利技术涉及一种文本,网页或其他二进制内容的搜索方法,尤其是一种具有复杂 关键字检索结构的网络搜索方法,具体地说是一种可配置方式的复杂关键字搜索方法。
技术介绍
目前,搜索技术在我们生活中运用广泛,而实际在软件开发中常常遇到一种情况 是搜索的内容不固定,只知道几个典型的关键字,且关键字可能经常变化。例如要分析一 个邮件网页的正文内容,首先要确定正文开始的关键字和结束的关键字。因为网页是脚本 随机生成的,不同语言、不同编码这个关键字都不一样,或者这个网站还在更新中,依赖的 关键字会经常变化,又或者依赖的关键字不是唯一的,在全文中有M个,而我们需要找到第 N个关键字之后的内容。举三种情况1)按照关键字出现的顺序,先查找第一个出现的A,之后查找B,截取B之后的内容到 关键字C结束2)按照关键字出现的顺序,需要实现查找关键字A,再查找关键字B或者关键字C,如 果关键字B出现,则查找后面的判断是否存在关键字D,如果B不出现C出现,则判断后面是 否存在关键字F。3)按照关键字出现的顺序,先查找关键字A,之后查找B或者C,截取包含B或者 C关键字到结束的所有内容。传统的方法针对三种情况,写三段代码. 对情况1 If (内容查找到A){If (内容查找到B){If (内容查找到C)返回B和C之间的内容对情况2 If (内容查找到A){If (内容查找到B){If (内容查找到D )返回找到}Else if (内容查找到C) If (内容查找到F) 返回找到}返回未找到 对情况3 If (内容查找到A){If (内容查找到B){查找结尾 返回内容}Else (内容查找到C){查找结尾 返回内容返回未找到以上在关键字确定,逻辑不是特别复杂时,已经明显感到处理的复杂性。上面的传统方法处理的几个明显的缺点1)逻辑过于复杂,可读性差;2)代码过于累赘,没有复用性,可维护性差;3)如果有新的逻辑出现,则需要新增加代码,可移植性差;4)如果关键字修改,则代码需要修改,需要重新编译,升级繁琐。
技术实现思路
本专利技术的目的是针对查找一些内容时,查找的依赖关键字比较多,关键字与关键 字之间的逻辑关系又相对复杂,关键字经常变化时搜索适应性和可移植性差的问题,专利技术 一种可配置方式的复杂关键字搜索方法。本专利技术的技术方案是一种可配置方式的复杂关键字搜索方法,其特征是它包括以下步骤 首先,在搜索引擎中设置一个配置文件,在所述配置文件中配置需查找的关键字的查 找逻辑关系;通过配置文件配置查找项依赖的关键字,通过配置文件配置关键字的逻辑关 系,隔离关键字变化或者关键字间逻辑关系变化对处理流程带来的影响;配置文件可以配 置的内容包括支持多个查找项,每个查找项都有一个唯一标识; 支持关键字间的逻辑关系表示,逻辑关系包括“与”,“或”; 支持任意字符的关键字,不可见字符可用16进制表示;支持关键字类型表示,类型包括查询类型、取值开始类型、取值结束类型、查找开始包 含这个关键字、查找结束包含这个关键字、查找结尾以查找内容结尾为内容结束等;其次,在初始化搜索引擎时先读取配置文件,按照查找项的内容和数据存储结构存储数据;最后,执行查找或查询函数,根据配置项标识查找数据内容,返回查找结果和内容。所述的配置文件中可含有多个查找项,每个查找项均带有标识符,每个查找项均 可由多个关键字组成,关键字数量的上限可以设定,关键字开始和结束有分割符分割,关键 字的配置顺序就是其查找时的先后顺序;关键字的逻辑关系包括“与”、“或”两种;同时为关 键字配置类别。所述的类别不查扩充类别,它包括查询类型,取值开始类型,取值结束类型,返回 包含关键字类型,返回关键字开始到结束类型。所述的标识符=([类蕃关键字1])逻辑关系([类蕃关键字2])…逻辑关系([类 蕃关键字η]),标识为可见字符,“([”为关键字开始分割符,“]),,为关键字结束分割符。所述的初始化是指(1)程序启动或者中途需要读入配置文件;(2)配置文件存在本地或者远程,配置项按照配置文件的格式读入内存;(3)配置内容按照数据结构存放每一个配置项。所述的执行查找或查询函数是指查找按照配置项的标识进行单项查找,返回查 找内容,执行查询函数是指查找按照配置项的标识进行单项查找,返回查找结果。本专利技术的有益效果利用本专利技术的方法能够解决负责逻辑的统一查找,这种技术的创新点在于可配置,查 找灵活,应用范围广,使用这种技术后,代码的可读性,软件的可维护性以及可扩展性大大 提尚。本专利技术方法简单,易于实现,在实际应用中,具有较好的可移植性。 附图说明图1是本专利技术的初始化流程图。图2是本专利技术的查找流程图。具体实施例方式下面结合附图和实施例对本专利技术作进一步的说明。如图1、2所示。一种可配置方式的复杂关键字搜索方法,它包括以下步骤首先,在搜索引擎中设置一个配置文件,在所述配置文件中配置需查找的关键字的查 找逻辑关系;配置文件应记录查找的项目、查找项目依赖的关键字以及关键字之间的逻辑 关系和关键字类型,具体要求为al、配置文件按照约定的语法格式配置,具体语法见下文说明。配置文件可以配置依赖 的查找关键字,关键字数量不设上限,每个配置必须有一个唯一标识标记;a2、查找的内容依赖的关键字数量不设上限,关键字开始结束有特定(如下所列的配置 文件的具体语法所示)的分割符分割,关键字的配置顺序就是其查找时的先后顺序;a3、配置依赖关键字需要配置关键字的逻辑关系,逻辑关系包括“与”,“或”两种关系; a4、配置项的依赖关键字是要配置类别的,这些类别包括查询类型,取值开始类型,取 值结束类型,返回包含关键字类型,返回关键字开始到结束类型,类型可以扩充; 配置文件的具体语法说明标识符=([类蕃关键字1])逻辑关系([类蕃关键字2])…逻辑关系([类蕃关键字η])标识说明标识为可见字符 “([”关键字开始分割符 “])”关键字结束分割符 类型关键字的类型具体包括 $-----查询标记%——从查找开始到这个符号后字符串结束 ——从这个符号后字符开始到结束 & 一一查找开始标记,不带这个符号-----查找开始标记,带这个符号@——查找结束字符,但连带这个符号 # 一一查找结束标记,不带这个符号 + 一一没有找到以查找结束为结束 关键字查找依赖的关键字,可显示字符,如果是十六进制则标识方法为 IOx十六进制数1,Ox十六进制数2,···,Ox十六进制数η}; 逻辑关系&一一与关系,即出现前一个关键字之后必须出现下一个关键字 一一或关系,即如果前一个关键字不出现则可以是出现下一个关键字 具体的标识举例value=([$keyl])&([ &key2]) | ([&key3])&([# key4])这一行配置表达的的意思是Value项的查找逻辑是先查找keyl,然后查找key2,如果 Key2也没有找到则查找key3,然后查找key4,取key2或者key3关键字后面内容作为查找 到目标内容的开始,key4关键字之前的内容作为目标内容的结束。 上述内容均可存在文件配置模具中。 其次,启动初始化模块,先读取配置文件,按照查找项的内容和数据存储结构存储 数据;数据采用顺序单向链表,每个链表子节点包含了 “与”节点指针,“本文档来自技高网
...

【技术保护点】
一种可配置方式的复杂关键字搜索方法,其特征是它包括以下步骤:首先,在搜索引擎中配置一个配置文件,在所述配置文件中配置需查找的关键字的查找逻辑关系;其次,在初始化程序时先读取配置文件,按照查找项的内容和数据存储结构存储数据;最后,执行查找或查询函数,根据配置项标识查找数据内容,返回查找结果和内容。

【技术特征摘要】
一种可配置方式的复杂关键字搜索方法,其特征是它包括以下步骤首先,在搜索引擎中配置一个配置文件,在所述配置文件中配置需查找的关键字的查找逻辑关系;其次,在初始化程序时先读取配置文件,按照查找项的内容和数据存储结构存储数据;最后,执行查找或查询函数,根据配置项标识查找数据内容,返回查找结果和内容。2.根据权利要求1所述的方法,其特征是所述的配置文件中可含有多个查找项,每个 查找项均带有标识符,每个查找项均可由多个关键字组成,关键字数量的上限可以设定,关 键字开始和结束有分割符分割,关键字的配置顺序就是其查找时的先后顺序;关键字的逻 辑关系包括“与”、“或”两种;同时为关键字配置类别。3.根据权利要求2所述的方法,其特征是所述的类别不查扩充类别,它包括查询类型, ...

【专利技术属性】
技术研发人员:曹镜云
申请(专利权)人:南京中兴特种软件有限责任公司
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1