会话的筛选方法和装置制造方法及图纸

技术编号:15792010 阅读:446 留言:0更新日期:2017-07-09 22:58
本发明专利技术公开了一种会话的筛选方法和装置。其中,该方法包括:获取用于筛选会话的自定义指标,其中,自定义指标包含指标元素和至少一个维度元素;根据自定义指标,从多张数据表中提取数据表集合,其中,数据表集合中的每个数据表至少包含如下任意一项:指标元素和至少一个维度元素中的任意一个;从数据表集合中提取自定义指标满足预设条件的会话,得到筛选后的会话。本发明专利技术解决了现有技术中分布式数据库中的多张数据表关联性差,导致筛选会话的过程复杂,造成资源浪费的技术问题。

【技术实现步骤摘要】
会话的筛选方法和装置
本专利技术涉及分布式数据库领域,具体而言,涉及一种会话的筛选方法和装置。
技术介绍
在分布式环境下,目前常用的查询引擎有Hive,Impala这些结构化的带元数据的数据库。在这些结构化的带元数据的数据库中,通常,将各类事件的数据记录在各个事实数据表中。在用户访问互联网的过程中,一般有会话表(Session)、页面浏览表(PageView)和订单表(Order)等多种表示用户访问行为的事实数据表,这些数据表可以通过用户的会话标识(SessionID)进行关联,以形成整个会话的所有实体。但是,由于数据表之间关联性差,当用户需要从多个维度获取多张事实数据表中的指标数据和维度数据时,需要进行多次筛选,筛选过程复杂,造成资源浪费。针对现有技术中分布式数据库中的多张数据表关联性差,导致筛选会话的过程复杂,造成资源浪费的技术问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种会话的筛选方法和装置,以至少解决现有技术中分布式数据库中的多张数据表关联性差,导致筛选会话的过程复杂,造成资源浪费的技术问题。根据本专利技术实施例的一个方面,提供了一种会话的筛选方法,包括:获取用于筛选会话的自定义指标,其中,自定义指标包含指标元素和至少一个维度元素;根据自定义指标,从多张数据表中提取数据表集合,其中,数据表集合中的每个数据表至少包含如下任意一项:指标元素和至少一个维度元素中的任意一个;从数据表集合中提取自定义指标满足预设条件的会话,得到筛选后的会话。根据本专利技术实施例的另一方面,还提供了一种会话的筛选装置,包括:第一获取单元,用于获取用于筛选会话的自定义指标,其中,自定义指标包含指标元素和至少一个维度元素;提取单元,用于根据自定义指标,从多张数据表中提取数据表集合,其中,数据表集合中的每个数据表至少包含如下任意一项:指标元素和至少一个维度元素中的任意一个;第一处理单元,用于从数据表集合中提取自定义指标满足预设条件的会话,得到筛选后的会话。在本专利技术实施例中,通过获取到用于筛选会话的自定义指标,并根据自定义指标,从多张数据表中提取到数据表集合,从数据表集合中提取自定义指标满足预设条件的会话,得到筛选后的会话。通过本申请实施例,通过根据自定义指标提取数据表集合,进一步从数据表集合中获取自定义指标满足预设条件的会话,简化了现有技术中需要根据自定义指标多次筛选数据表,再根据筛选结果进行分析得到筛选后的会话,从而解决了现有技术中分布式数据库中的多张数据表关联性差,导致筛选会话的过程复杂,造成资源浪费的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种会话的筛选方法的流程图;图2是根据本专利技术实施例的一种会话的筛选装置的示意图;图3是根据本专利技术实施例的一种可选的会话的筛选装置的示意图;图4是根据本专利技术实施例的一种可选的会话的筛选装置的示意图;图5是根据本专利技术实施例的一种可选的会话的筛选装置的示意图;以及图6是根据本专利技术实施例的一种可选的会话的筛选装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:指标:是指可以进行聚合运算的值,例如,访问页面数可以是一个指标。维度:是多维数据库的结构性特性,是数据表中用来描述数据的分类的有组织层次结构,例如,操作系统可以是一个维度。数据表:是数据库最重要的组成部分之一,包含用户访问网页产生的所有数据信息,例如,用户访问网页产生的访问页面,访问时长,访问页面数等相关的数据信息。关联键:是分布式数据库的重要组成部分,是一个数据表与另一个数据表产生关系的字段,例如,可以通过ID进行关联。元组指标:指用特定维度和指标组成的指标。实施例1根据本专利技术实施例,提供了一种会话的筛选方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本专利技术实施例的一种会话的筛选方法的流程图,如图1所示,该方法包括如下步骤:步骤S102,获取用于筛选会话的自定义指标,其中,自定义指标包含指标元素和至少一个维度元素。在一种可选的方案中,上述自定义指标可以是元组指标,可以根据用户的筛选需要,确定元组指标包含指标元素和至少一个维度元素。例如,以用户需要筛选高质量会话数为例,对本专利技术上述实施例进行说明。可以根据用户的需要定义自定义指标,该自定义指标可以包含一个指标元素和两个维度元素,指标元素为访问人数(visits),维度元素为访问页面数(pvcount)和访问时长(pvduration)。此处需要说明的是,上述自定义指标也可以是有效订单数,其中OrderStatus为已支付及后续状态等。步骤S104,根据自定义指标,从多张数据表中提取数据表集合,其中,数据表集合中的每个数据表至少包含如下任意一项:指标元素和至少一个维度元素中的任意一个。在一种可选的方案中,根据获取到的自定义指标,在分布式数据库包含的多张数据表中进行查询,确定包含指标元素和任意一个维度元素的多张数据表,将该多张数据表构成一个数据表集合。例如,仍以用户需要筛选高质量会话数为例,对本专利技术上述实施例进行说明。可以根据用户的需要定义自定义指标,该自定义指标可以包含一个指标元素和两个维度元素,指标元素为访问人数(visits),维度元素为访问页面数(pvcount)和访问时长(pvduration)。根据该自定义指标,在数据库包含的全部数据表中进行查询,得到包含指标元素和维度元素的页面浏览表(PageView)和会话表(Session),将页面浏览表(PageView)和会话表(Session)构成数据表集合。步骤S106,从数据表集合中提取自定义指标满足预设条件的会话,得到筛选后的会话。在一种可选的方案中,上述预设条件可以根据用户的筛选需要进行设定,在提取到包含自定义指标的数据表集合之后,可以根据预设条件在数据表集合中进行查询,得到至少一个维度元素和指标元素均满足预设条件的会话,作为筛选后的会话本文档来自技高网
...
会话的筛选方法和装置

【技术保护点】
一种会话的筛选方法,其特征在于,包括:获取用于筛选会话的自定义指标,其中,所述自定义指标包含指标元素和至少一个维度元素;根据所述自定义指标,从多张数据表中提取数据表集合,其中,所述数据表集合中的每个数据表至少包含如下任意一项:所述指标元素和所述至少一个维度元素中的任意一个;从所述数据表集合中提取自定义指标满足预设条件的会话,得到筛选后的会话。

【技术特征摘要】
1.一种会话的筛选方法,其特征在于,包括:获取用于筛选会话的自定义指标,其中,所述自定义指标包含指标元素和至少一个维度元素;根据所述自定义指标,从多张数据表中提取数据表集合,其中,所述数据表集合中的每个数据表至少包含如下任意一项:所述指标元素和所述至少一个维度元素中的任意一个;从所述数据表集合中提取自定义指标满足预设条件的会话,得到筛选后的会话。2.根据权利要求1所述的方法,其特征在于,从多张数据表中提取包含所述自定义指标的会话集合包括:判断所述多张数据表中是否存在同时包含所述指标元素和所述至少一个维度元素的数据表;在存在所述同时包含所述指标元素和所述至少一个维度元素的数据表的情况下,提取所述同时包含所述指标元素和所述至少一个维度元素的数据表,构成所述数据表集合;在不存在同时包含所述指标元素和所述至少一个维度元素的数据表的情况下,从所述多张数据表中获取包含指标元素或任意一个维度元素的一组数据表,并从所述一组数据表中提取具有表连接关系的数据表构成所述数据表集合。3.根据权利要求2所述的方法,其特征在于,在从所述一组数据表中提取具有表连接关系的数据表构成所述数据表集合之前,所述方法还包括:获取所述一组数据表中每个数据表的连接键值;根据所述每个数据表的连接键值,将所述一组数据表进行连接,得到所述具有表连接关系的数据表。4.根据权利要求1至3中任意一项所述的方法,其特征在于,从所述数据表集合中提取自定义指标满足预设条件的会话,得到筛选后的会话包括:读取所述数据表集合中每个会话包含的所述至少一个维度元素对应的数据;判断任意一个会话包含的所述至少一个维度元素中每一个维度元素对应的数据是否大于等于预设的阀值;在所述任意一个会话包含的所述至少一个维度元素中所述每一个维度元素对应的数据都大于等于所述预设的阀值的情况下,所述任意一个会话为所述筛选后的会话。5.根据权利要求4所述的方法,其特征在于,读取所述数据表集合中每个会话包含的所述至少一个维度元素对应的数据包括:提取所述数据表集合中所述至少一个维度元素中所述每一个维度元素对应的数据;根据所述每一个维度元素的聚合类型,将所述每一个维度元素对应的数据进行聚合运算,得到所述至少一个维度元素对应的数据...

【专利技术属性】
技术研发人员:洪超
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1