日志数据分片与查询方法及装置制造方法及图纸

技术编号:12426068 阅读:51 留言:0更新日期:2015-12-03 11:27
本发明专利技术提供一种日志数据分片与查询方法及装置。该方法包括:获取日志数据中各个实体的编码,并对每个实体编码进行哈希操作,获取一个数据分片,然后对每个数据分片中的日志信息按照日志信息的实体的编码进行顺序排序,获取数据分组列表,根据实体的编码完成日志数据的查询,本发明专利技术的方法,数据查询效率高,加快了对日志数据的分析,从而获得更加科学的决策。

【技术实现步骤摘要】

本专利技术涉及计算机领域的数据处理技术,尤其涉及一种日志数据分片与查询方法及装置
技术介绍
近几年来,计算机系统中日志数据的应用十分普遍,任何程序都会产生大量的日志数据,如果对这些日志数据进行深入分析,可以了解到日志数据中各类实体的特征,以便做出更加科学的决策。其中,上述数据的实体为人、物体、机器人等需要进行研究分析其行为记录的对象。目前,传统方法主要采用的是基于时间戳字段范围的划分方法,把日志数据按照时间进行分片,然后按照时间戳对日志数据进行查询。但是,传统的基于时间戳字段的范围划分方法查询,查询实体对应的日志数据速度较慢,无法满足高实时性分析处理的要求。
技术实现思路
本专利技术提供一种日志数据分片与查询方法及装置,可以快速查询实体对应的日志数据,从而满足了高实时性分析处理的要求。本专利技术第一方面提供一种日志数据分片与查询方法,该日志数据包括至少一个实体;所述方法包括:获取日志数据中的各个实体的编码;其中,每个所述实体对应至少一条日志信息;对每个所述实体的编码进行哈希操作,获取至少一个数据分片;所述数据分片中包括所述实体对应的日志信息;对每个所述数据分片中的日志信息按照所述日志信息对应的实体的编码进行顺序排序,获取所述数据分片对应的数据分组列表;其中,所述数据分组列表包括多个数据分组,一个数据分组包括所有同一编码的实体对应的日志信息;根据所述数据分组列表查询所述日志数据。本专利技术第二方面提供一种日志数据分片与查询装置,包括:编码获取模块、数据分片获取模块、数据分组列表获取模块和数据查找模块;所述编码获取模块,用于获取日志数据中的各个实体的编码;其中,每个所述实体对应至少一条日志信息;所述数据分片获取模块,用于对每个所述实体的编码进行哈希操作,获取至少一个数据分片;所述数据分片中包括所述实体对应的日志信息;所述数据分组列表获取模块,用于对每个所述数据分片中的日志信息按照所述日志信息对应的实体的编码进行顺序排序,获取所述数据分片对应的数据分组列表;其中,所述数据分组列表包括多个数据分组,一个数据分组包括所有同一编码的实体对应的日志信息;所述数据查找模块,用于根据所述数据分组列表查询所述日志数据。本专利技术提供的日志数据分片与查询方法及装置,通过获取日志数据中各个实体的编码,并对每个实体编码进行哈希操作,获取至少一个数据分片,然后对每个数据分片中的日志信息按照日志信息中实体的编码进行顺序排序,获取数据分片对应的数据分组列表,根据数据分组列表中实体的编码完成日志数据的查询。本专利技术的方法,基于实体的编码对日志信息进行排序和数据分片,从而使得计算机处理器可以根据数据分组列表中实体的编码查询该实体对应的日志数据,由于数据分片中的日志信息是顺序排序的,因此数据查询效率高,加快了对日志数据的分析。【附图说明】为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的日志数据分片与查询方法实施例一的流程图;图2为本专利技术提供的哈希操作示意图一;图3为本专利技术提供的日志数据分片与查询方法实施例二的流程图;图4为本专利技术提供的哈希操作示意图二;图5为本专利技术提供的哈希操作示意图三;图6为本专利技术提供的日志数据分片与查询装置实施例一的结构示意图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术涉及的执行主体可以为计算机处理器,该计算机处理器可以是集成电路、智能控制器、电脑等,但并不限于此。本专利技术涉及的方法,旨在解决现有技术中传统的基于时间戳字段的范围划分方法,查询实体对应的日志数据速度较慢的技术问题,无法满足高实时性分析处理的要求。下面以具体地实施例对本专利技术的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。图1为本专利技术提供的日志数据分片与查询方法实施例一的流程图,如图1所示,本实施例的方法可以包括:步骤101、获取日志数据中的各个实体的编码;其中,每个所述实体对应至少一条日志信息。具体的,日志数据往往是用于记录计算机或者用户采用计算机执行了什么过程的数据,其可以包括至少一条日志信息,但实际应用中,日志数据中包括大量的日志信息。例如,用户A在2015年I月22日购买了一件商品A,这就是日志数据中的某一条日志信息,该条日志信息包括了两个实体,分别是用户A和商品A。故,上述日志数据可以包括至少一个实体。其中,该日志数据也可以记录同一类型实体或者不同类型实体之间的交互历史信息,例如:用户对商品的浏览购买行为、用户和好友之间的交互行为等,在此,用户、商品等都属于实体,但是他们属于不同类型的实体,而用户和好友则是同一类型的实体,但是角色不同。相应的,由计算机处理器获取日志数据中各个实体的编码,其中该日志数据中包括的所有实体,不管是同一类型还是不同类型的实体,均可以按照一定的规则进行编码,其中,可以采用前缀编码的方式,还可以采用编码列表分配的方式,但并不以此为限。可选的,这里的编码可以理解为号码映射,即对每一个实体进行一次号码映射,让每一个实体具有自己的编码,且该编码计算机易读取。上述日志信息可以记录实体的两元关系,比如用户对商品的一次购买记录,也可以记录实体的三元关系,比如用户和好友的互动,可能会涉及介绍人,但并不以此为限。上述所说的每个实体对应至少一条日志信息,即同一个实体在至少一条日志信息中出现,例如:用户A购买了商品B,用户A购买了商品C,用户M购买了商品B,其中用户A对应有两条日志信息,用户M对应有一条日志信息,而商品B对应有两条日志信息,商品C对应有一条日志信息。步骤102、对每个所述实体的编码进行哈希操作,获取至少一个数据分片;所述数据分片中包括所述实体对应的日志信息;具体的,计算机处理器对每个实体的编码进行哈希操作,即通过采用哈希函数对每个实体的编码进行划分并将该实体对应的日志信息放入至少一个哈希桶中,直至该实体对应的日志信息存满哈希桶为止,从而获取到至少一个数据分片,即每个哈希桶对应一个数据分片。其中,数据分片中包括该实体对应的日志信息,由于哈希桶的数量有限,所以针对不同的实体的日志信息,可能会被划分到同一个哈希桶。为了更好的说明步骤102中的获取数据分片的过程,下述举一个简单的例子来进行说明:假设日志数据中包括5条日志信息,分别为:用户A购买了商品A,用户A购买了商品B,用户A购买了商品C,用户B购买了商品D,用户C购买了商品E。则上述日志数据中的实体包括:用户A、用户B、用户C、商品A、商品B、商品C、商品D和商品E,上述实体为两种不同类型的实体。对上述各个实体进行编码,在该例子中,对不同类型的实体分别进行编码,可以为:用户A的编码为000,用户B的编码为001,用户C的编码为002,商品A的本文档来自技高网...

【技术保护点】
一种日志数据分片与查询方法,其特征在于,所述日志数据包括至少一个实体;所述方法包括:获取日志数据中的各个实体的编码;其中,每个所述实体对应至少一条日志信息;对每个所述实体的编码进行哈希操作,获取至少一个数据分片;所述数据分片中包括所述实体对应的日志信息;对每个所述数据分片中的日志信息按照所述日志信息对应的实体的编码进行顺序排序,获取所述数据分片对应的数据分组列表;其中,所述数据分组列表包括多个数据分组,一个数据分组包括所有同一编码的实体对应的日志信息;根据所述数据分组列表查询所述日志数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈跃国覃雄派杜小勇卞昊穹
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1