查找相关联的用户标识的方法和装置制造方法及图纸

技术编号:12583051 阅读:130 留言:0更新日期:2015-12-23 23:18
本申请公开了一种查找相关联的用户标识的方法和装置。所述方法的一具体实施方式包括:获取至少两个用户标识对应的属性信息,其中,所述属性信息中的每一项具有根据其历史记录生成的重要度系数;基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组;判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识。该实施方式可以提高查找相关联的用户标识的有效性。

【技术实现步骤摘要】

本申请涉及计算机
,具体涉及信息匹配
,尤其涉及一种查找相关联的用户标识的方法和装置
技术介绍
随着互联网技术的发展,各种网络平台,例如网络社交平台(如QQ社交平台)、搜索平台(如必应搜索平台)、网上交易平台(如京东商城)等等,逐渐成为人们生活的重要组成部分。用户可以通过相同或不同的身份标识(identificat1n,ID)访问各种网络平台。对这些ID之间的关联性进行分析,具有应用于各种领域的重要意义,例如网页广告推送、网络社交平台中的好友推荐、犯罪分子追踪等等。现有的ID之间的关联性分析方法中,通常将ID两两之间的属性信息相匹配查找相关联的ID。然而,在这种匹配方法中,大量属性信息相差较大的ID之间的属性信息匹配是没有意义的,而且计算量较大,导致匹配效率较低。同时,这种匹配方法不考虑不同属性对匹配结果的影响,导致匹配结果准确度不高。因此,这种匹配方法存在着网络信息相关数据利用不足,查找相关联的ID的有效性不高的问题。
技术实现思路
本申请的目的在于提出一种改进的查找相关联的用户标识的方法和装置,来解决以上
技术介绍
部分提到的技术问题。—方面,本申请提供了一种查找相关联的用户标识的方法,所述方法包括:获取至少两个用户标识对应的属性信息,其中,所述属性信息中的每一项具有根据其历史记录生成的重要度系数;基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出相似度最高的属性信息,生成相似属性信息组;判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识。在一些实施例中,所述基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组之前,还包括:对于所述属性信息中的每一项,将其重要度系数与重要度阈值相比较;如果所述重要度系数小于所述重要度阈值,则从所述属性信息中删除该项。在一些实施例中,所述属性信息中的每一项还具有通过预设的预测模型获取的预测系数,其中,所述预测系数包括该项属性信息相同的不同用户标识属于同一用户的概率,所述预测模型通过多个用户标识的属性信息组成的样本集训练获得。在一些实施例中,所述基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组包括:基于所述预测系数与所述重要度系数获得判断系数;基于所述判断系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组。在一些实施例中,所述基于所述预测系数与所述重要度系数获得判断系数包括:对于所述属性信息中的每一项,将其预测系数与预测阈值相比较;如果所述预测系数小于所述预测阈值,则从所述属性信息中删除该项;对于所述属性信息中剩余的每一项,基于所述预测系数与所述重要度系数获得判断系数。在一些实施例中,所述判断系数为所述预测系数与所述重要度系数的乘积。在一些实施例中,所述属性信息包括以下至少一项:所述用户标识接入网络的地理位置信息、所述用户标识所关联的终端访问的页面的网址、所述用户标识所关联的终端接入互联网的互联网协议地址以及所述用户标识所关联的终端的搜索特征。在一些实施例中,所述属性信息中的每一项的历史记录包括:所述用户标识接入网络的地理位置信息的历史记录包括:所在地理位置和处于该地理位置的时间;所述用户标识所关联的终端访问的页面的网址的历史记录包括:对每个网址的访问次数和/或访问时长;所述用户标识所关联的终端接入互联网的互联网协议地址的历史记录包括:接入互联网的每个协议地址的时间和/或时长;以及,所述用户标识所关联的终端的搜索特征的历史记录包括:使用的搜索词及使用每个搜索词进行搜索的次数。第二方面,本申请提供了一种查找相关联的用户标识的装置,所述装置包括:获取模块,配置用于获取至少两个用户标识对应的属性信息,其中,所述属性信息中的每一项具有根据其历史记录生成的重要度系数;匹配模块,配置用于基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出相似度最高的属性信息,生成相似属性信息组;查找模块,配置用于判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识。在一些实施例中,所述匹配模块之前,还包括比较模块,所述比较模块配置用于:对于所述属性信息中的每一项,将其重要度系数与重要度阈值相比较;以及,如果所述重要度系数小于所述重要度阈值,则从所述属性信息中删除该项。在一些实施例中,所述属性信息中的每一项还具有通过预设的预测模型获取的预测系数,其中,所述预测系数包括该项属性信息相同的不同用户标识属于同一用户的概率,所述预测模型通过多个用户标识的属性信息组成的样本集训练获得。在一些实施例中,所述匹配模块包括:计算单元,配置用于基于所述预测系数与所述重要度系数获得判断系数;匹配单元,配置用于基于所述判断系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组。在一些实施例中,所述计算单元包括:比较子单元,配置用于对于所述属性信息集合中的每一项,将其预测系数与预测阈值相比较;以及,如果所述预测系数小于所述预测阈值,则从所述属性信息集合中删除该项;所述计算单元配置用于对于所述属性信息集合中剩余的每一项,基于所述预测系数与所述重要度系数获得判断系数。在一些实施例中,所述判断系数为所述预测系数与所述重要度系数的乘积。在一些实施例中,所述属性信息包括以下至少一项:所述用户标识接入网络的地理位置信息、所述用户标识所关联的终端访问的页面的网址、所述用户标识所关联的终端接入互联网的互联网协议地址以及所述用户标识所关联的终端的搜索特征。在一些实施例中,所述属性信息中的每一项的历史记录包括:所述用户标识接入网络的地理位置信息的历史记录包括:所在地理位置和处于该地理位置的时间;所述用户标识所关联的终端访问的页面的网址的历史记录包括:对每个网址的访问次数和/或访问时长;所述用户标识所关联的终端接入互联网的互联网协议地址的历史记录包括:接入互联网的每个协议地址的时间和/或时长;以及,所述用户标识所关联的终端的搜索特征的历史记录包括:使用的搜索词及使用每个搜索词进行搜索的次数。本申请提供的查找相关联的用户标识的方法和装置,通过获取至少两个用户标识对应的属性信息,其中,属性信息中的每一项具有根据其历史记录生成的重要度系数,接着基于重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组,接着判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识,由于引入了属性信息中的每一项的重要度系数,从而体现出不同用户标识对应的不同属性信息的重要性,提高了查找相关联的用户标识的有效性。【附本文档来自技高网...

【技术保护点】
一种查找相关联的用户标识的方法,其特征在于,所述方法包括:获取至少两个用户标识对应的属性信息,其中,所述属性信息中的每一项具有根据其历史记录生成的重要度系数;基于所述重要度系数,对不同用户标识所对应的属性信息进行相互匹配,查找出与每个用户标识所对应的属性信息相似度最高的属性信息,分别生成相似属性信息组;判断各相似属性信息组中不同用户标识对应的属性信息的相似度是否大于预设相似度阈值,若是,查找出相似属性信息组所对应的用户标识作为相关联的用户标识。

【技术特征摘要】

【专利技术属性】
技术研发人员:叶青
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1