一种基于AI的跨设备上网用户识别方法技术

技术编号:19480663 阅读:19 留言:0更新日期:2018-11-17 10:36
本发明专利技术公开了一种基于AI的跨设备上网用户识别方法,所述方法包括:提取不同屏下的每个用户上网的URL数据和时间戳数据,并针对每条数据添加该用户的身份id;分别统计该用户的上网意向特征、强识别URL特征及上网时间特征;根据统计完成的上述三个特征中的一种或者多种建立该用户的基础模型,并通过梯度增强回归树算法对上述每个特征进行权重训练,得到该用户最终的上网行为模型;通过形成的所述上网行为模型,识别出跨屏用户身份。本发明专利技术所述的基于AI的跨设备上网用户识别方法,统计与分析了上网意向、强识别url和上网时间等特征,通过使用多种构造特征对样本检测和学习,使用在线学习对识别错的样本加入训练集更新模型,保证了识别率和准确率。

【技术实现步骤摘要】
一种基于AI的跨设备上网用户识别方法
本专利技术属于网络安全及互联网大数据领域,更具体来说,涉及一种基于AI的跨设备上网用户识别方法。
技术介绍
目前已经有基于用户账号pin检测跨屏用户身份的方法,当前研究的热点是能够在不使用用户账号pin的情况下识别出跨屏用户身份的基于数据挖掘和机器学习的检测技术。现有技术方案中,常采用“基于用户账号pin检测跨屏用户身份的方法”来进行检测;但是,在上述方法,存在如下缺点:1、漏检率较高;2、在缺乏用户账号pin的情况下很难识别出用户身份;3、识别效率较低。基于对用户上网行为的机器学习算法检测跨屏用户身份的方法,是目前一种新型的检测方法,并且该方法在识别的准确率方面有较大提升。
技术实现思路
本专利技术所要解决的问题就是在缺乏用户账号pin的情况下如何准确并高效识别出跨屏用户的身份。为解决上述技术问题,本专利技术所采用的技术方案如下:一种基于AI的跨设备上网用户识别方法,所述方法包括:步骤S1、提取不同屏下的每个用户上网的URL数据和时间戳数据,并针对每条数据添加该用户的身份id;步骤S2、分别统计该用户的上网意向特征、强识别URL特征及上网时间特征;步骤S3、根据统计完成的上述三个特征中的一种或者多种建立该用户的基础模型,并通过梯度增强回归树算法对上述每个特征进行权重训练,得到该用户最终的上网行为模型;步骤S4、通过形成的所述上网行为模型,识别出跨屏用户身份。进一步地,在所述步骤S2中,所述上网意向特征的获取方法包括:通过相似度计算,对用户上网的URL进行归并,将子级URL网址同归到其上一级URL网址,并作为一个上网意向特征。进一步地,在所述步骤S2中,所述强识别URL特征的获取方法包括:检测用户不同屏下是否出现相同的URL,如果是,且该URL均指向同一用户,则从该URL提取数据集作为强识别URL特征。进一步地,在所述步骤S2中,所述上网时间特征的获取方法包括:检测用户在不同的设备上的上网时间分布规律。进一步地,所述方法还包括:根据每次的识别结果,对模型的权重进行相应的更新。进一步地,所述上网意向特征的获取方法还包括:统计用户在不同设备下的访问意愿是否存在相似点;根据不同的用户不同的访问意愿,对用户的上网行为进行切分;通过对每次上网行为所访问的上网意向进行一次权重匹配,计算出每一个用户的每一个上网意向的权重;将计算的权重作为用户基础模型的一个特征。进一步地,所述对用户的上网行为进行切分的方法包括:每间隔一段时间就对用户的上网行为进行一次记录。进一步地,所述权重匹配通过TF-IDF进行。进一步地,所述梯度增强回归树算法为GBRT梯度增强回归树算法,通过权重训练得到每个权重的最佳值。进一步地,所述基础模型由所述用户的上网意向特征、强识别URL特征及上网时间特征三种特征综合判断并建立。与现有技术相比,本专利技术所述的基于AI的跨设备上网用户识别方法,统计与分析了上网意向、强识别url和上网时间等特征,通过使用多种构造特征对样本检测和学习,使用在线学习对识别错的样本加入训练集更新模型,保证了识别率和准确率。附图说明图1为本专利技术实施例所述的基于AI的跨设备上网用户识别方法的原理示意图。具体实施方式以下结合附图对本专利技术作进一步详细说明,但不作为对本专利技术的限定。本专利技术所要解决的问题就是在缺乏用户账号pin的情况下如何识别出跨屏用户的身份。参照图1所示,一种基于AI的跨设备上网用户识别方法,所述方法包括:步骤S1、提取不同屏下的每个用户上网的URL数据和时间戳数据,并针对每条数据添加该用户的身份id;步骤S2、分别统计该用户的上网意向特征、强识别URL特征及上网时间特征;步骤S3、根据统计完成的上述三个特征中的一种或者多种建立该用户的基础模型,并通过梯度增强回归树算法对上述每个特征进行权重训练,得到该用户最终的上网行为模型;步骤S4、通过形成的所述上网行为模型,识别出跨屏用户身份。首先对跨屏用户在不同屏幕上网产生的URL和时间戳进行提取,并且每条数据都标注上用户身份id。然后通过URL和时间戳样本提取出用户上网过程中的各项特征,例如常用上网时间、浏览数据集群等。然后使用梯度增强回归树算法进行特征的权重训练,训练出每一个特征的权重,然后形成每个用户的上网行为模型。最终达到通过互联网数据识别出跨屏用户身份的目的。最后根据每次的识别结果,对模型的权重进行相应的更新。其中,URL(UniformResourceLocator,统一资源定位符)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。下面来对本专利技术的流程作如下详细说明。1、提取出用户上网的URL和时间戳,并且标注出每条数据的用户身份id。2、通过对相似度计算,对URL进行归并,统计出用户的上网意愿。由于URL存在多级现象,就像文件目录一样,一个上级URL下可以有多个子级URL。例如某URL为aaa/bbb/ccc/ddd,则其上级URL可以是aaa、aaa/bbb、aaa/bbb/ccc这三种,将这一系列网址都归为1个网站或者一个上网意向。此外,由于用户在不同设备下的访问意愿多数情况下都有相似点,例如在手机上登录QQ的同时在电脑上也登录QQ,这样每个用户都有不同的上网意向。最后将用户的上网行为切分,例如每30分钟就记录为一次上网行为。然后通过对每次上网行为所访问的上网意向通过TF-IDF进行一次权重匹配,计算出每个用户的每一个上网意向的权重,然后将这个数据集作为用户模型的一个特征。3、检测用户不同屏下是否出现相同的URL,如果是,且该URL均指向同一用户,则从该URL提取数据集作为强识别URL特征。某些URL对比普通的URL具有更强烈的用户身份特征,暂时称其为强势别URL。如果不同屏下的都出现了强识别URL,并且都指向同一用户,那么对识别用户身份就会有很高的参考价值。例如手机上出现aaaaa/mail/123456@11.com、电脑上也出现aaaaa/mail/123456@11.com。那么这个aaaaa/mail/就是一个强识别URL,则提取出该数据集作为用户模型的另一个特征。4、检测用户在不同的设备上的上网时间分布规律。部分用户在不同的设备上的上网时间是有固定时间段的。举个例子,某互联网职员,周一到周五的工作日从上网9点到下午6点利用公司的电脑进行上网行为,然后下午6点到下午7点这段时间在回家路上利用手机产生上网行为,最后晚上8点到晚上10点这段时间利用平板电脑产生上网行为。每个用户的上网模式都会有细微的区别,通过这些区别能够了解不同的用户产生上网行为的时间段分布规律,这部分数据集也可以作为用户模型的一个特征。5、综合上述三个特征参数,建立出一个基础的用户模型,然后通过梯度增强回归树算法对每个特征进行权重训练。通常来说,三个特征中,强识别url的特征占比权重是较高的,因为用户通常不会轻易的去改变自己的账号id或者昵称,其次用户的上网意向和上网时间特征的权重相对权重相对较低,需要通过训练来得出权重。例如对于喜欢猎奇或者生活圈较大的用户而言,其上网意向可能会有时间段的变化,例如新出了一款App——A,某用本文档来自技高网...

【技术保护点】
1.一种基于AI的跨设备上网用户识别方法,其特征在于,所述方法包括:步骤S1、提取不同屏下的每个用户上网的URL数据和时间戳数据,并针对每条数据添加该用户的身份id;步骤S2、分别统计该用户的上网意向特征、强识别URL特征及上网时间特征;步骤S3、根据统计完成的上述三个特征中的一种或者多种建立该用户的基础模型,并通过梯度增强回归树算法对上述每个特征进行权重训练,得到该用户最终的上网行为模型;步骤S4、通过形成的所述上网行为模型,识别出跨屏用户身份。

【技术特征摘要】
1.一种基于AI的跨设备上网用户识别方法,其特征在于,所述方法包括:步骤S1、提取不同屏下的每个用户上网的URL数据和时间戳数据,并针对每条数据添加该用户的身份id;步骤S2、分别统计该用户的上网意向特征、强识别URL特征及上网时间特征;步骤S3、根据统计完成的上述三个特征中的一种或者多种建立该用户的基础模型,并通过梯度增强回归树算法对上述每个特征进行权重训练,得到该用户最终的上网行为模型;步骤S4、通过形成的所述上网行为模型,识别出跨屏用户身份。2.如权利要求1所述的跨设备上网用户识别方法,其特征在于,在所述步骤S2中,所述上网意向特征的获取方法包括:通过相似度计算,对用户上网的URL进行归并,将子级URL网址同归到其上一级URL网址,并作为一个上网意向特征。3.如权利要求1所述的跨设备上网用户识别方法,其特征在于,在所述步骤S2中,所述强识别URL特征的获取方法包括:检测用户不同屏下是否出现相同的URL,如果是,且该URL均指向同一用户,则从该URL提取数据集作为强识别URL特征。4.如权利要求1所述的跨设备上网用户识别方法,其特征在于,在所述步骤S2中,所述上网时间特征的获取方法包括:检测用户...

【专利技术属性】
技术研发人员:唐一枭崔渊博阿曼太王宇金红杨满智刘长永
申请(专利权)人:恒安嘉新北京科技股份公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1