当前位置: 首页 > 专利查询>东华大学专利>正文

一种用于Web会话聚合的关键Cookies识别方法技术

技术编号:10255374 阅读:138 留言:0更新日期:2014-07-24 21:48
通过Cookie识别进行会话合并是Web日志预处理的关键步骤,直接影响后续的Web日志的挖掘。针对传统的会话合并存在的效率不高、准确率不高的问题,本发明专利技术提出了一种用于Web会话聚合的关键Cookies识别方法。该方法用于识别用户相关的user-Cookies和用户浏览网站终端的terminal-Cookies。该方法不仅结合的前人提出的CookiePicker系统实现了识别user-Cookies,并且利用top-k的思想识别terminal-Cookies。最终将两者结合起来形成最终的key-Cookies。本方法的优点是可以快速地识别出用户相关的Cookie信息,从而很好地应用于会话合并。

【技术实现步骤摘要】

本专利技术涉及一种可用于Web会话合并的关键Cookies识别方法,属于Web日志预处理领域。
技术介绍
Web日志挖掘是指将关联规则、聚类分析、预测等挖掘技术应用于Web服务器日志文件,以发现隐藏在其中的用户访问Web页面的模式。Web日志预处理是在Web日志挖掘前,对Web日志进行清理、过滤以及重新组合的过程。Web日志挖掘的数据预处理部分结果的准确性直接影响了Web日志挖掘的效率与准确性。识别用户会话是Web日志预处理中最重要的部分。有时候,单纯的依靠URL(英文全称为Uniform Resource Locator)识别的用户会话并不全面。这个时候需要依靠Cookie中的信息判断若干不完整的用户会话是否属于同一个用户。换句话说,就是将识别出来的不完整的用户会话进行合并。会话合并是将识别出的不完整的会话中所有的Cookies项都取出来比较。每一个用户会话都拥有很多网站,每个网站都有很多Cookies项。Cookie是指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常这些Cookies是经过加密)。基于HTTP的请求模式,Cookie的存储形式为name=value。这里的name是网站自定义的。这里的value是网站根据自身信息和用户信息给定的。由此可知,各个网站的各个不同的Cookie项的含义各不相同。CookiePicker是自动利用Cookie信息来帮助Web用户制定决策的系统,该系统包括几个特点:自动制定决策;高准确性;较低的运行开销,其内容具体见如下参考文献:Chuan Yue,Mengjun Xie,Haining Wang,“Automatic Cookie Usage Setting with CookiePicker”,37th Annual IEEE/IFIP International Conference on Dependable Systems and Networks(DSN′07),ISBN:0-7695-2855-4。
技术实现思路
本专利技术的目的是识别出不同网站的key-Cookies,通过这些key-Cookies可使会话合并的效率明显提升,key-Cookies为用于识别用户的个人信息和用户的上网终端的信息的Cookies信息。为了达到上述目的,本专利技术的技术方案是提供了一种用于Web会话聚合的关键Cookies识别方法,其特征在于,步骤为:步骤1、获取Web日志文件,提取出Web日志文件中每条记录的站点名称Site;步骤2、以站点名称Site为分组依据将Web日志文件中的所有记录分组,使得同一站点名称Site的记录都合并到一个组,并建立其与相应站点名称Site的对应关系,第i个站点名称Sitei对应记录组List[Record]i;步骤3、在步骤2得到的各个记录组中提取所有包含用户信息的Cookie项的名称,并保存至不同的用户信息Cookie项名称列表,第i个站点名称Sitei对应用户信息Cookie项名称列表list[user-Cookies]i;步骤4、在步骤2得到的各个记录组中提取所有包含浏览网站的终端信息的Cookie项的名称,并保存至不同的终端信息Cookie项名称列表,第i个站点名称Sitei对应终端信息Cookie项名称列表list[terminal-Cookies]i;步骤5、将步骤3得到的各用户信息Cookie项名称列表与步骤4得到的各终端信息Cookie项名称列表以站点名称Site作为等值连接的条件进行连接操作,得到各个站点名称Site的关键Cookie项名称列表,第i个站点名称Sitei对应关键Cookie项名称列表list[key-Cookies]i。优选地,所述步骤3包括:步骤3.1、利用正则表达式匹配同一记录组的所有Cookie项中是否有满足条件的邮箱信息,若有,则将包含该邮箱信息的Cookie项的名称放入与当前站点名称Site对应的用户信息Cookie项名称列表中,并进入步骤3.2,若无,直接进入步骤3.2,其中,所使用的正则表达式为:″^([a-zA-Z0-9_\\.\\-])+\\\\@(([a-zA-Z0-9\\-])+\\.)+([a-zA-Z]{2,4本文档来自技高网
...
一种用于Web会话聚合的关键Cookies识别方法

【技术保护点】
一种用于Web会话聚合的关键Cookies识别方法,其特征在于,步骤为:步骤1、获取Web日志文件,提取出Web日志文件中每条记录的站点名称Site;步骤2、以站点名称Site为分组依据将Web日志文件中的所有记录分组,使得同一站点名称Site的记录都合并到一个组,并建立其与相应站点名称Site的对应关系,第i个站点名称Sitei对应记录组List[Record]i;步骤3、在步骤2得到的各个记录组中提取所有包含用户信息的Cookie项的名称,并保存至不同的用户信息Cookie项名称列表,第i个站点名称Sitei对应用户信息Cookie项名称列表list[user‑Cookies]i;步骤4、在步骤2得到的各个记录组中提取所有包含浏览网站的终端信息的Cookie项的名称,并保存至不同的终端信息Cookie项名称列表,第i个站点名称Sitei对应终端信息Cookie项名称列表list[terminal‑Cookies]i;步骤5、将步骤3得到的各用户信息Cookie项名称列表与步骤4得到的各终端信息Cookie项名称列表以站点名称Site作为等值连接的条件进行连接操作,得到各个站点名称Site的关键Cookie项名称列表,第i个站点名称Sitei对应关键Cookie项名称列表list[key‑Cookies]i。...

【技术特征摘要】
1.一种用于Web会话聚合的关键Cookies识别方法,其特征在于,步骤为:
步骤1、获取Web日志文件,提取出Web日志文件中每条记录的站点名称
Site;
步骤2、以站点名称Site为分组依据将Web日志文件中的所有记录分组,使
得同一站点名称Site的记录都合并到一个组,并建立其与相应站点名称Site的对
应关系,第i个站点名称Sitei对应记录组List[Record]i;
步骤3、在步骤2得到的各个记录组中提取所有包含用户信息的Cookie项
的名称,并保存至不同的用户信息Cookie项名称列表,第i个站点名称Sitei对
应用户信息Cookie项名称列表list[user-Cookies]i;
步骤4、在步骤2得到的各个记录组中提取所有包含浏览网站的终端信息的
Cookie项的名称,并保存至不同的终端信息Cookie项名称列表,第i个站点名
称Sitei对应终端信息Cookie项名称列表list[terminal...

【专利技术属性】
技术研发人员:陈德华沈昌干潘乔罗昕
申请(专利权)人:东华大学上海云屹信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1