基于过滤会话实现提取页面信息的方法及装置制造方法及图纸

技术编号:21477814 阅读:22 留言:0更新日期:2019-06-29 04:51
本发明专利技术公开了一种基于过滤会话实现提取页面信息的方法及装置,涉及互联网技术领域,提高分析用户访问行为的工作效率,本发明专利技术的主要技术方案为:当接收到向会话信息表发起的查询请求时,解析查询请求中包含的查询条件,其中,会话信息表中包含多个用于存储会话属性信息的属性列以及一个用于存储会话身份标识ID的标识信息列;根据查询条件,从会话信息表中获取与查询条件匹配的会话信息,会话信息中包含会话属性信息以及会话ID;根据会话信息中包含的会话ID,从页面信息表中提取与会话ID匹配的会话所包含的多个页面的页面信息,其中,页面信息表中包含多个用于存储页面属性信息的属性列以及一个用于存储会话ID的标识信息列。

【技术实现步骤摘要】
基于过滤会话实现提取页面信息的方法及装置
本专利技术涉及互联网
,尤其涉及一种基于过滤会话实现提取页面信息的方法及装置。
技术介绍
随着互联网技术的迅速发展,人们的日常生活越来越离不开网络,比如访问网站实现购物、理财、阅读等等网络消费行为,其都将使得日常生活中的琐事变得更加简单、便捷。有鉴于此,网站通常会利用采集到的用户访问路径数据分析用户在浏览网站时所发生的用户访问行为,以便于网站可以根据分析结果对网站的内容以及布局等做出更好的规划。目前,一般采用网站分析系统的路径导航功能对采集到的访问路径数据进行聚合,并将聚合结果呈现在路径导航界面上,以便网站工作人员根据路径导航界面所显示的信息分析用户访问行为。对于路径导航界面所能呈现的聚合结果进行分析,当在路径导航界面上查询一个网页时,该路径导航界面上显示的信息包括:该网页的页面浏览量、该网页的前置页面(在访问路径中当以某个网页为根节点时,该根节点的前置节点所指示的页面是前置页面)的网址以及前置页面的页面浏览量、该网页的后置页面(在访问路径中当以某个网页为根节点时,该根节点的后置节点所指示的页面是后置页面)的网址以及后置页面的页面浏览量。例如,采集最近10天网站被访问所产生的访问路径数据并利用路径导航功能对访问路径数据进行聚合处理,当在路径导航界面查询网页A时,该路径导航界面显示的信息包括:网页A的页面浏览量1000次、网页A的前置页面B以及B的页面浏览量300次、网页A的前置页面C以及C的页面浏览量700次、网页A的后置页面D以及D的页面浏览量200次,据此,路径导航界面所显示的以上信息表明:存在访问序列B-A-D和C-A-D,并且网页A被访问1000次,其中300次是由页面B跳转至网页A,700次是由页面C跳转至网页A,此外,页面D被访问的200次是由网页A跳转至页面D的。根据路径导航界面显示的信息,网站工作人员可以对网站中发生的用户访问行为进行分析。然而,路径导航界面所显示的信息仅是在访问序列中网页的页面浏览量、网页前置或后置页面的页面浏览量的数据信息,当网站工作人员根据这些数据信息锁定待分析的数据范围时,仍然需要在待分析的数据范围中浏览每个网页并分析网页的相关内容信息,比如网页的主题信息、网页的IP地址、打开网页的浏览器名称及版本信息等等,在待分析的数据范围内提取出与分析用户访问行为相关的数据,而后再根据提取出的相关数据来分析用户的访问行为,由于待分析的数据范围所包含的数据量仍然是很大的,并且需要人工浏览数据范围内的每个网页而筛选出与分析用户访问行为相关的数据,所以网站工作人员在分析用户访问行为的过程中需要消耗很大的人工工作量,进而导致分析网站中用户访问行为的效率是比较低的。
技术实现思路
有鉴于此,本专利技术提供一种基于过滤会话实现提取页面信息的方法及装置,主要目的在于优化提取用于分析用户访问行为所需数据的过程,减少待分析的访问路径数据量,提高分析用户访问行为的工作效率。为了解决上述问题,本专利技术主要提供如下技术方案:一方面,本专利技术提供了一种基于过滤会话实现提取页面信息的方法,该方法包括:当接收到向会话信息表发起的查询请求时,解析所述查询请求中包含的查询条件,其中,所述会话信息表中包含多个用于存储会话属性信息的属性列以及一个用于存储会话身份标识ID的标识信息列;根据所述查询条件,从所述会话信息表中获取与所述查询条件匹配的会话信息,所述会话信息中包含会话属性信息以及会话ID;根据所述会话信息中包含的会话ID,从页面信息表中提取与所述会话ID匹配的会话所包含的多个页面的页面信息,其中,所述页面信息表中包含多个用于存储页面信息的属性列以及一个用于存储会话ID的标识信息列。优选的,所述根据所述会话信息中包含的会话ID,从页面信息表中提取与所述会话ID匹配的会话所包含的多个页面的页面信息包括:从会话信息中获取会话ID;利用所述会话ID查找页面信息表中标识信息列;判断所述标识信息列中是否存在所述会话ID;若存在,则提取所述会话ID对应的会话所包含的页面信息。优选的,所述根据所述查询条件,从所述会话信息表中获取与所述查询条件匹配的会话信息包括:解析所述查询条件中包含的会话属性信息;确定所述会话属性信息在会话信息表中所对应的属性列;从所述属性列中提取与所述查询条件中包含的会话属性信息相匹配的会话属性信息;确定所述会话属性信息所归属的会话所对应的会话ID;从所述会话信息表中提取所述会话ID对应的会话所包含的会话信息;将所述会话信息存储在中间结果表里。优选的,所述当接收到向会话信息表发起的查询请求时,解析所述查询请求中包含的查询条件包括:当接收到向会话信息表发起的查询请求时,解析所述查询请求中包含的关键字信息;判断所述会话信息表的属性列中是否存在与所述关键字信息对应的会话属性;若存在,则根据所述会话属性确定所述查询请求中包含的查询条件。优选的,在所述当接收到向会话信息表发起的查询请求时,解析所述查询请求中包含的查询条件之前,所述方法还包括:根据预置时间周期采集用户访问网站所产生的访问数据,所述访问数据中包含用户访问网站所建立的多个会话,所述会话中包含一序列按照用户浏览网页顺序排列的页面;根据预置会话属性将所述访问数据中的会话所包含的会话属性信息存储在会话信息表中;根据预置页面属性将所述访问数据中页面所包含的页面属性信息存储在页面信息表中。为了实现上述目的,根据本专利技术的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的基于过滤会话实现提取页面信息的方法。为了实现上述目的,根据本专利技术的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的基于过滤会话实现提取页面信息的方法。另一方面,本专利技术还提供了一种基于过滤会话实现提取页面信息的装置,该装置包括:解析单元,用于当接收到向会话信息表发起的查询请求时,解析所述查询请求中包含的查询条件,其中,所述会话信息表中包含多个用于存储会话属性信息的属性列以及一个用于存储会话身份标识ID的标识信息列;获取单元,用于根据所述解析单元解析的查询条件,从所述会话信息表中获取与所述查询条件匹配的会话信息,所述会话信息中包含会话属性信息以及会话ID;提取单元,用于根据所述获取单元获取的会话信息中包含的会话ID,从页面信息表中提取与所述会话ID匹配的会话所包含的多个页面的页面信息,其中,所述页面信息表中包含多个用于存储页面信息的属性列以及一个用于存储会话ID的标识信息列。优选的,所述提取单元包括:获取模块,用于从会话信息中获取会话ID;查找模块,用于利用所述获取模块获取的会话ID查找页面信息表中标识信息列;判断模块,用于判断所述查找模块查找的标识信息列中是否存在所述会话ID;提取模块,用于当所述判断模块判断所述标识信息列中存在所述会话ID时,则提取所述会话ID对应的会话所包含的页面信息。优选的,所述获取单元包括:解析模块,用于解析所述查询条件中包含的会话属性信息;第一确定模块,用于确定所述解析模块解析的会话属性信息在会话信息表中所对应的属性列;第一提取模块,用于从所述第一确定模块确定的属性列中提取与所述查询条件中包含的会话属性信息相匹配的会话属性信本文档来自技高网
...

【技术保护点】
1.一种基于过滤会话实现提取页面信息的方法,其特征在于,所述方法包括:当接收到向会话信息表发起的查询请求时,解析所述查询请求中包含的查询条件,其中,所述会话信息表中包含多个用于存储会话属性信息的属性列以及一个用于存储会话身份标识ID的标识信息列;根据所述查询条件,从所述会话信息表中获取与所述查询条件匹配的会话信息,所述会话信息中包含会话属性信息以及会话ID;根据所述会话信息中包含的会话ID,从页面信息表中提取与所述会话ID匹配的会话所包含的多个页面的页面信息,其中,所述页面信息表中包含多个用于存储页面信息的属性列以及一个用于存储会话ID的标识信息列。

【技术特征摘要】
1.一种基于过滤会话实现提取页面信息的方法,其特征在于,所述方法包括:当接收到向会话信息表发起的查询请求时,解析所述查询请求中包含的查询条件,其中,所述会话信息表中包含多个用于存储会话属性信息的属性列以及一个用于存储会话身份标识ID的标识信息列;根据所述查询条件,从所述会话信息表中获取与所述查询条件匹配的会话信息,所述会话信息中包含会话属性信息以及会话ID;根据所述会话信息中包含的会话ID,从页面信息表中提取与所述会话ID匹配的会话所包含的多个页面的页面信息,其中,所述页面信息表中包含多个用于存储页面信息的属性列以及一个用于存储会话ID的标识信息列。2.根据权利要求1所述的方法,其特征在于,所述根据所述会话信息中包含的会话ID,从页面信息表中提取与所述会话ID匹配的会话所包含的多个页面的页面信息包括:从会话信息中获取会话ID;利用所述会话ID查找页面信息表中标识信息列;判断所述标识信息列中是否存在所述会话ID;若存在,则提取所述会话ID对应的会话所包含的页面信息。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述查询条件,从所述会话信息表中获取与所述查询条件匹配的会话信息包括:解析所述查询条件中包含的会话属性信息;确定所述会话属性信息在会话信息表中所对应的属性列;从所述属性列中提取与所述查询条件中包含的会话属性信息相匹配的会话属性信息;确定所述会话属性信息所归属的会话所对应的会话ID;从所述会话信息表中提取所述会话ID对应的会话所包含的会话信息;将所述会话信息存储在中间结果表里。4.根据权利要求1-3中任一项所述的方法,其特征在于,所述当接收到向会话信息表发起的查询请求时,解析所述查询请求中包含的查询条件包括:当接收到向会话信息表发起的查询请求时,解析所述查询请求中包含的关键字信息;判断所述会话信息表的属性列中是否存在与所述关键字信息对应的会话属性;若存在,则根据所述会话属性确定所述查询请求中包含的查询条件。5.根据权利要求1所述的方法,其特征在于,在所述当接收到向会话信息表发起的查询请求时,解析所述查询请求中包含的查询条件之前,所述方法还包括:根据预置时间周期采集用户访问网站所产生的访问数据,所述访问数据中包含用户访问网站所建立的多个会话,所述会话中包含一序列按照用户浏览网页顺序排列的页面;根据预置会话属性将所述访问数据中的会话...

【专利技术属性】
技术研发人员:文锃
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1