一种日志数据库检索装置及检索方法制造方法及图纸

技术编号:12790925 阅读:53 留言:0更新日期:2016-01-28 21:48
本发明专利技术实施例提供了一种日志数据库检索装置及检索方法,其中装置包括:索引创建模块,用于获取新的日志数据,将新的日志数据进行格式转化后建立全文索引,将全文索引以文件形式存储在磁盘中;检索模块,用于接收查询请求,根据查询请求及内存中的索引进行查询,并返回查询结果;索引管理模块,用于判断检索模块接收到的查询请求所涉及的索引是否已在内存中,如果不在内存中,则从磁盘加载查询请求所涉及的索引到内存。本发明专利技术将索引以文件的形式保存在磁盘中,需要时再加载到内存,可提高检索效率。同时不是维护一个索引文件,而是使索引分块化,实现索引递增式的扩展,避免因索引更新而导致的大量IO操作,提高了查询效率。

【技术实现步骤摘要】

本专利技术涉及数据库
,尤其涉及。
技术介绍
企业级的数据库中通常都存储有成千上万的数据。以审计系统为例,其数据库中存储上亿条甚至几十亿条供审计用的日志是非常普遍的情况。当这类日志数据库存储了海量数据时,在海量数据中能否实现方便快捷的检索对于审计等工作至关重要。现有技术中,为日志数据库建立的索引保存在系统的内存中,当用户调用索引时,会从内存找到该日志在数据库中的唯一标识,然后到数据库中进行检索,这种方式会大大增加数据库的运算负荷,降低检索的效率;而且当索引更新时,会对内存中的索引进行大量的10操作以更新建立在内存中的索引,这也会使得检索效率降低。
技术实现思路
本专利技术提供,以提高日志数据库的检索效率。根据本专利技术实施例的第一方面,提供一种日志数据库检索装置,所述装置包括:索引创建模块,包括:数据采集组件,用于获取新的日志数据;数据格式转化组件,用于将所述新的日志数据进行格式转化后建立全文索引;索引文件写入组件,用于将所述全文索引以文件形式存储在磁盘中;检索模块,包括:查询请求收集组件,用于接收查询请求;查询组件,用于根据所述查询请求及内存中的索引进行查询,并返回查询结果;索引管理模块,包括:索引判断组件,用于判断检索模块接收到的查询请求所涉及的索引是否已在内存中,如果不在内存中,则触发索引加载组件;索引加载组件,用于从磁盘加载查询请求所涉及的索引到内存。可选的,所述数据格式转化组件包括:文本转换子组件,用于将所述新的日志数据转换为文本;分词及映射子组件,用于对所述文本进行全文分词,在分词后得到的关键词与所属日志数据之间建立映射关系;索引生成子组件,用于对关键词进行排序,形成由关键词指向日志数据的全文索引。可选的,所述映射关系包括:关键词、出现该关键词的日志数据编号;或者,关键词、出现该关键词的日志数据编号,以及该关键词的出现次数、出现频率、出现位置中的一种或多种。可选的,所述索引加载组件包括:内存判断子组件,用于判断内存中的索引数量是否超出配置的最大值;索引切换子组件,用于当所述内存判断子组件判断出内存中的索引数量超出配置的最大值时,将最近最少使用的索引移出内存,并将查询请求所涉及的索引加载到内存中;当所述内存判断子组件判断出内存中的索引数量未超出配置的最大值时,则直接将查询请求所涉及的索引加载到内存中。可选的,所述装置还包括:日志采集模块,用于从数据源实时接收新的日志数据,并将所述新的日志数据发送给所述索引创建模块中的数据采集组件。可选的,所述索引文件写入组件,具体用于:按照自然日对索引进行划分,将每个自然日得到的索引以一个或多个文件的形式存储在磁盘中。根据本专利技术实施例的第二方面,提供一种日志数据库检索方法,磁盘中存储有日志数据的全文索引,所述全文索引是根据获取的新的日志数据,将所述新的日志数据进行格式转化后建立的,并以文件形式存储;所述方法包括:接收查询请求;判断所述查询请求所涉及的索引是否已在内存中,如果不在内存中,则从所述磁盘加载所述查询请求所涉及的索引到内存;根据所述查询请求及内存中的索引进行查询,并返回查询结果。可选的,所述索引通过如下步骤建立后存储到所述磁盘中:将所述日志数据转换为文本;对所述文本进行全文分词,在分词后得到的关键词与所属日志数据之间建立映射关系;对关键词进行排序,形成由关键词指向日志数据的全文索引。可选的,从所述磁盘加载所述查询请求所涉及的索引到内存,包括:判断内存中的索引数量是否超出配置的最大值;当内存中的索引数量超出配置的最大值时,将最近最少使用的索引移出内存,并将查询请求所涉及的索引加载到内存中;当内存中的索引数量未超出配置的最大值时,则直接将查询请求所涉及的索引加载到内存中。可选的,所述全文索引按照自然日进行划分,每个自然日得到的全文索引以一个或多个文件的形式存储在所述磁盘中。本专利技术的实施例提供的技术方案可以包括以下有益效果:在现有技术中,为日志数据库建立的索引保存在系统的内存,并未进行文件化存储,当用户调用索引时,会从内存找到该日志在数据库中的唯一标识,然后到数据库中进行检索,这种方式减少了对磁盘空间的消耗,但是会大大增加了数据库的负荷,检索效率也较低。而本专利技术则反其道行之,将索引以文件的形式保存在磁盘中,当查询用到时再加载到内存,从而可以提高检索效率。而且,本专利技术也不是维护一个索引文件,不会因为数据源有一点变动就重建索引,而是针对旧日志数据通常不会被修改的特点采取增量的索引方式,即为新的日志数据不断创建新的索引文件,使索引分块化,实现索引递增式的扩展,这就可以避免因索引更新而导致的大量10操作,提高了索引的效率,进而也提高了日志数据的检索效率。此外,针对现有技术中使用模糊查询语句(如like〃% keyword % 〃)进行查询时,数据库索引通常不起作用,导致查询过程非常缓慢的问题,本专利技术采用了全文索引的方式,将日志数据转换为文本,对文本进行全文分词,形成由关键词指向日志数据的反向索引表,实现全文的倒排索引,这样就可以把模糊查询变成多个可以利用索引的精确查询的逻辑组合,克服了现有技术中模糊查询时效率非常低的问题,大大提高了查询效率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。【附图说明】此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的检索系统示意图;图2是根据一示例性实施例示出的一种日志数据库检索装置的结构示意图;图3是根据一示例性实施例示出的一种日志数据库检索方法的流程图;图4是根据一示例性实施例示出的另一种日志数据库检索方法的流程图;图5是根据一示例性实施例示出的索引的构成示意图;图6是根据一示例性实施例示出的又一种日志数据库检索方法的流程图;图7是根据一示例性实施例示出的实时(即被动)创建索引的序列图;图8是根据一示例性实施例示出的主动创建索引的序列图;图9是根据一示例性实施例示出的索引查询处理的序列图;图10是根据一示例性实施例示出的索引管理服务的功能示意图。【具体实施方式】这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。索引可以视作检索技术的核心之一,围绕索引,本专利技术提供的全文索引(以下简称索引)服务可以划分为索引创建、索引管理、索引检索三个模块,其系统示意图可参见图1所示。在图1中,网页服务器Web Server是索引查询请求的提交方,Web Server根据用户提交的查询请求,组合查询条件,发送给索引服务所在的服务器;索引服务所在的服务器从日志数据源获取日志,生成为索引文件并存储起来,当收到查询请求后,利用索引查询出数据,然后返回给Web Server ο图2是根据一示例性实施例示出的一种日志数据库检索装置的结构示意图,本专利技术实施例提供的装置提供索引文件的创建与管理,并提供查询索引数据的查询服务。具体地,所述装置包括:索引创建模块201,包括:数据采集组本文档来自技高网...

【技术保护点】
一种日志数据库检索装置,其特征在于,所述装置包括:索引创建模块,包括:数据采集组件,用于获取新的日志数据;数据格式转化组件,用于将所述新的日志数据进行格式转化后建立全文索引;索引文件写入组件,用于将所述全文索引以文件形式存储在磁盘中;检索模块,包括:查询请求收集组件,用于接收查询请求;查询组件,用于根据所述查询请求及内存中的索引进行查询,并返回查询结果;索引管理模块,包括:索引判断组件,用于判断检索模块接收到的查询请求所涉及的索引是否已在内存中,如果不在内存中,则触发索引加载组件;索引加载组件,用于从磁盘加载查询请求所涉及的索引到内存。

【技术特征摘要】

【专利技术属性】
技术研发人员:孙宝寅张磊高金明唐楚荣高峰张建军苏砫
申请(专利权)人:中国移动通信集团广东有限公司北京神州泰岳信息安全技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1