一种跨域用户关联方法及信息推送方法技术

技术编号:12134386 阅读:68 留言:0更新日期:2015-09-30 15:11
本发明专利技术公开了一种跨域用户关联方法及信息推送方法。本方法为:1)从网络中收集HTTP包,并按照设定的时间窗口对采集的包划分;2)对每一窗口内的包,根据FixCookie列表进行聚类,将同一用户的一次请求聚在一起,然后将各窗口内相同用户的用户组集合合并为一个用户组集合;3)对采集的包进行聚类,将主机名、cookie名和值相同的包聚为一组,将同一组内的包对应的用户组集合合并;4)对采集的包进行聚类,将主机名、cookie名和值相同且不存在fixCookie冲突的包聚为一组,将同一组内的包对应的用户组集合合并;5)将位于4)中同一用户组集合内的用户判定为不同域中的同一用户。本方法准确率高,聚类效果好。

【技术实现步骤摘要】

本专利技术设及一种基于Cookie聚类分析的跨域用户关联方法及信息推送方法,属 于互联网用户行为关联分析领域。
技术介绍
一般情况下,网站或者广告联盟都会非常想要一种技术方式可W在网络上精确定 位到每一个个体,该样可W通过收集该些个体的数据,通过分析后更加精准的去推送广告 信息或其他有针对性的一些活动。Cookie技术是非常受欢迎的一种。当用户访问一个网站 时,网站可W在用户当前的浏览器Cookie中永久植入一个含有唯一标识符扣UID)的信息, 并通过该个信息将用户所有行为(浏览了哪些页面?捜索了哪些关键字?对什么感兴趣? 点了哪些按钮?用了哪些功能?看了哪些商品?把哪些放入了购物车等等)关联起来。 用户唯一标识体系 在互联网中,我们有着许多标识唯一用户的技术手段,其中,最为常见的就是 Cookie 了。简单的多,Cookie具备几个特征; >唯一性,一个Cookie是唯一存在于一个域名下的; >归属权,一个Cookie必须属于某一个域名,且相互不能访问使用; >持久性,一个Cookie可W持久的存在于一个浏览器中。[000引 正因为Cookie具备上述几个特征,也就衍生出Cookie在使用上的一些特点了,我 们W A. COM(购物平台),B. COM(游戏平台),C. COM(数据管理平台)为例,存在W下结论: > A. COM, B. COM, C. COM都存在各自的用户标识体系(各自定义的唯一 ID标识); >用户化er在上述S个产品的ID分别是al,bl,cl,且相互不能访问使用。 > A. COM,B. COM, C. COM都可W唯一的标识出用户User,但并不能相互读取标识信 [001引 息。 共享用户特征 由于业务的需要,A. COM, B. COM, C. COM均有不同的业务; >广告主使用A. COM进行广告投放,并且用户化er点击了游戏广告; >用户化er主动使用了 C. COM提供的浏览器购物比价插件服务; >用户化er点击过位于交易平台B. COM上的职业学习、求职类广告; 存在该种情况,A. COM识别出了化er喜欢玩游戏特征,C. COM识别出了化er是男 性用户,B. COM识别出了化er是个年轻人。此时由于A,B,CS方的数据并不共享,因此对于 业务人员而言,仅知道al喜欢玩游戏,bl是年轻人,cl是男性用户。并不能直接知道化er 是个喜爱玩游戏的年轻男性。 广告系统的目标是要能够识别用户化er玩游戏的时候给他进行产品的推荐,此 时产品的推荐依赖于用户曾经在C. COM, B. COM上购买过产品或浏览过一些信息。最终目标 将不同业务体系中的用户特征合并绑到同一个用户上来,然而现有方法无法将不同业务体 系中的用户特征合并绑到同一个用户上来。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种基于Cookie聚类 分析的跨域用户关联方法及信息推送方法。本专利技术利用用户时序行为和第S方Cookie 对不同域名用户进行聚类关联,专利在聚类过程中采用了 次加法聚类、=次减法排除" 的方法。首先在时间窗口内对用户一次访问进行聚类,在聚类过程中通过FixCookie进 行排除,然后利用FixCookie进行第二次聚类,最后利用An厂Cookie进行S次聚类,用 FixCookie进行排除。专利聚类方法不依赖任何第S方设备或程序对不同域名下的Cookie 做Mapping映射(物理或程序),而是对网络中HTTP包进行聚类分析,算法准确率高,聚类 效果好。 本专利技术的技术方案为: 一种跨域用户关联方法,其步骤为: 1)捜索域名的 FixCookie,建立一 FixCookie 列表; 。从网络中收集HTTP包,并按照设定的时间窗口对采集的HTTP包进行划分;其 中,该时间窗口为划分用户访问关联第S方的界限; 3)对每一时间窗口内的HTTP包,根据FixCookie列表采用用户时序聚类分析器进 行聚类,将同一用户的一次请求聚在一起,得到多个用户组集合;然后将各个时间窗口内相 同用户的用户组集合合并为一个用户组集合; 4)采用FixCookie聚类分析器对采集的HTTP包进行聚类,将主机名相同且 cookie名、cookie值相同的HTTP包聚为一组,如果同一组内的HTTP包位于步骤3)合并后 不同的用户组集合内,则再将对应的用户组集合合并为一个用户组集合; 5)采用anyCookie聚类分析器对采集的HTTP包进行聚类,将主机名、cookie名、 cookie值相同且不存在fixCookie冲突的HTTP包聚为一组,如果同一组内的HTTP包位于 步骤4)合并后不同的用户组集合内,则再将对应的用户组集合合并为一个用户组集合; [002引 6)将位于步骤5)中同一用户组集合内的用户判定为不同域中的同一用户。 进一步的,所述不存在fixCookie冲突的HTTP包为具有相同主机名、都含有相同 的cookie属性,且cookie_name相等但cookie_value不相等。 进一步的,所述步骤2)中,首先对从网络中收集HTTP包进行预处理,然后对采集 的HTTP包进行划分;其中预处理方法为;[003U 31)对收集的HTTP包进行过滤,去掉无Cookie的HTTP包和无浏览器标识UA的 HTTP 包; 32)将过滤后的HTTP包规整为键值对格式,然后按时间对进行排序; 33)将排序后的HTTP数据转化为JS0N格式形式存储。 进一步的,所述HTTP包信息包括;用户IP、出口 IP、端口号、主机、路径、时间、浏览 器柄识UA、引用和Cookie。 一种信息推送方法,其步骤为: 1)捜索域名的 FixCookie,建立一 FixCookie 列表;。从网络中收集HTTP包,并按照设定的时间窗口对采集的HTTP包进行划分;其 中,该时间窗口为划分用户访问关联第s方的界限;[003引 3)对每一时间窗口内的HTTP包,根据FixCookie列表采用用户时序聚类分析器进 行聚类,将同一用户的一次请求聚在一起,得到多个用户组集合;然后将各个时间窗口内相 同用户的用户组集合合并为一个用户组集合; 4)采用FixCookie聚类分析器对采集的HTTP包进行聚类,将主机名相同且 cookie名、cookie值相同的HTTP包聚为一组,如果同一组内的HTTP包位于步骤3)合并后 不同的用户组集合内,则将对应的用户组集合合并为一个用户组集合; 5)采用anyCookie聚类分析器对采集的HTTP包进行聚类,将主机名、cookie名、 cookie值相同且不存在fixCookie冲突的HTTP包聚为一组,如果同一组内的HTTP包位于 步骤4)合并后不同的用户组集合内,则将对应的用户组集合合并为一个用户组集合; 6)将位于步骤5)中同一用户组集合内的用户判定为不同域中的同一用户; 7)根据步骤6)的结果提取同一用户在不同域中的特征信息,向具有相同特征的 用户发送设定信息。 进一步的,所述不存在fixCookie冲突的HTTP包为具有相同主机名、都含有相同 的 cookie 属性,且 cookie_name 相等但 c本文档来自技高网
...
一种跨域用户关联方法及信息推送方法

【技术保护点】
一种跨域用户关联方法,其步骤为:1)搜索域名的FixCookie,建立一FixCookie列表;2)从网络中收集HTTP包,并按照设定的时间窗口对采集的HTTP包进行划分;其中,该时间窗口为划分用户访问关联第三方的界限;3)对每一时间窗口内的HTTP包,根据FixCookie列表采用用户时序聚类分析器进行聚类,将同一用户的一次请求聚在一起,得到多个用户组集合;然后将各个时间窗口内相同用户的用户组集合合并为一个用户组集合;4)采用FixCookie聚类分析器对采集的HTTP包进行聚类,将主机名相同且cookie名、cookie值相同的HTTP包聚为一组,如果同一组内的HTTP包位于步骤3)合并后不同的用户组集合内,则再将对应的用户组集合合并为一个用户组集合;5)采用anyCookie聚类分析器对采集的HTTP包进行聚类,将主机名、cookie名、cookie值相同且不存在fixCookie冲突的HTTP包聚为一组,如果同一组内的HTTP包位于步骤4)合并后不同的用户组集合内,则再将对应的用户组集合合并为一个用户组集合;6)将位于步骤5)中同一用户组集合内的用户判定为不同域中的同一用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:管洋洋牛温佳张博毛志李倩谭建龙郭莉
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1