用户识别方法和装置制造方法及图纸

技术编号:12817182 阅读:55 留言:0更新日期:2016-02-07 10:00
本申请公开了用户识别方法和装置。所述方法的一具体实施方式包括:获取多组用户行为数据;将任意两组用户行为数据共同作为样本集合中的一个训练样本;使用样本集合进行模型训练,并通过训练后的模型确定两组待识别的用户行为数据是否对应于同一用户。该实施方式实现了准确的用户识别。

【技术实现步骤摘要】

本申请涉及计算机
,具体涉及互联网
,尤其涉及用户识别方法和装置
技术介绍
在对用户的网络访问行为进行研究时,通常会将一个用户ID (Identity,身份标识号码),例如用户账号,对应的用户行为日志作为一个数据样本,然后进行特征提取和机器学习。这种做法的优点是特征提取方便,样本数量相对较少,计算效率较高。但是,由于一个用户通常可以在同一或不同网络平台中注册多个用户账号,因此现有技术会将这多个账号对应的网络行为数据作为多个样本而不是作为同一个用户的样本进行学习。另外,用户在访问某些网络资源时,很有可能不需要登陆任何用户账号,此时现有技术就没办法对这部分数据进行学习。由此可见,现有技术中获取的样本特征总是与用户ID相对应,缺乏泛化能力,其通过机器学习得到的数据模型难以针对用户进行识别。
技术实现思路
本申请的目的在于提出一种用户识别方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种用户识别方法,所述方法包括:获取多组用户行为数据;将任意两组所述用户行为数据共同作为样本集合中的一个训练样本;使用所述样本集合进行模型训练,并通过训练后的模型确定两组待识别的用户行为数据是否对应于同一用户。在一些实施例中,所述将任意两组所述用户行为数据共同作为样本集合中的一个训练样本,包括:将任意两组所述用户行为数据中相应特征之间的相似度值,作为所述训练样本的特征值。在一些实施例中,一组所述用户行为数据包括以下至少一个特征:用户地址、访问时间、访问地址、搜索词和终端标识。在一些实施例中,还包括:判断所述任意两组所述用户行为数据是否具有相同的终端标识;若是,将所述训练样本确定为正例训练样本,否则,将所述训练样本确定为负例训练样本。在一些实施例中,所述任意两组所述用户行为数据包括:具有相同用户地址的两组所述用户行为数据。在一些实施例中,还包括:确定每组所述用户行为数据对应的用户标识;判断所述任意两组所述用户行为数据是否对应同一所述用户标识;若是,将所述训练样本作为正例训练样本,否则,将所述训练样本作为负例训练样本。在一些实施例中,还包括:若通过所述训练后的模型确定出所述两组待识别的用户行为数据对应于同一用户,则将所述两组待识别的用户行为数据对应的两个用户标识均确定为该用户的用户标识。第二方面,本申请提供了一种用户识别装置,所述装置包括:获取模块,用于获取多组用户行为数据;提取模块,用于将任意两组所述用户行为数据共同作为样本集合中的一个训练样本;识别模块,用于使用所述样本集合进行模型训练,并通过训练后的模型确定两组待识别的用户行为数据是否对应于同一用户。在一些实施例中,所述提取模块进一步用于:将任意两组所述用户行为数据中相应特征之间的相似度值,作为所述训练样本的特征值。在一些实施例中,一组所述用户行为数据包括以下至少一个特征:用户地址、访问时间、访问地址、搜索词和终端标识。在一些实施例中,还包括:第一判断模块,用于判断所述任意两组所述用户行为数据是否具有相同的终端标识;所述提取模块进一步用于:若是,将所述训练样本确定为正例训练样本,否则,将所述训练样本确定为负例训练样本。在一些实施例中,所述任意两组所述用户行为数据包括:具有相同用户地址的两组所述用户行为数据。在一些实施例中,还包括:确定模块,用于确定每组所述用户行为数据对应的用户标识;第二判断模块,用于判断所述任意两组所述用户行为数据是否对应同一所述用户标识;所述提取模块进一步用于:若是,将所述训练样本作为正例训练样本,否则,将所述训练样本作为负例训练样本。在一些实施例中,还包括:标识确定模块,用于若通过所述训练后的模型确定出所述两组待识别的用户行为数据对应于同一用户,则将所述两组待识别的用户行为数据对应的两个用户标识均确定为该用户的用户标识。本申请提供的用户识别方法和装置,可以将两组用户行为数据共同作为一个训练样本来进行模型训练,从而提高了样本的泛化能力,使得训练后的模型能够准确的确定出两组待识别的用户行为数据是否对应于同一用户,从而实现了对用户的准确识别。【附图说明】通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的用户识别方法的一个实施例的流程图;图3是根据本申请的用户识别方法的又一个实施例的流程图;图4是根据本申请的用户识别装置的一个实施例的结构示意图;图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。【具体实施方式】下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的用户识别方法或用户识别装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、购物类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是具有显示屏并且支持网页浏览和搜索的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExperts Group Aud1 Layer III,动态影像专家压缩标准音频层面3)、MP4 (MovingPicture Experts Group Aud1 Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的网页和当前第1页1 2 3 4 本文档来自技高网...
用户识别方法和装置

【技术保护点】
一种用户识别方法,其特征在于,所述方法包括:获取多组用户行为数据;将任意两组所述用户行为数据共同作为样本集合中的一个训练样本;使用所述样本集合进行模型训练,并通过训练后的模型确定两组待识别的用户行为数据是否对应于同一用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄跃峰顾立瑞
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1