用户标识匹配方法和装置制造方法及图纸

技术编号:13331112 阅读:157 留言:0更新日期:2016-07-11 22:31
本申请公开了用户标识匹配方法和装置。所述用户标识匹配方法的一具体实施方式包括:对预存的用户操作信息集合进行分析,获取所述用户操作信息集合中记录的各个网络协议IP地址所分布的至少一个定位区域以及各个定位区域的权重,其中,所述用户操作信息集合中的用户操作信息包括以下信息:用户标识、IP地址、定位点坐标;根据用户标识所关联的IP地址所分布的定位区域以及各个定位区域的权重,获取待匹配用户标识与各个所述用户操作信息集合中记录的其它用户标识之间的定位信息相似度;根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识。该实施方式实现了准确可靠地对用户标识进行匹配。

【技术实现步骤摘要】

本申请涉及计算机
,具体涉及用户画像
,尤其涉及用户标识匹配方法和装置
技术介绍
随着互联网的蓬勃发展,通过用户画像数据精准分析每个用户的属性以及关系的需求越来越明确。用户画像是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型。通过用户调研去了解用户,根据他们的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,就形成了一个用户画像数据。用户画像使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。目前,一些大型互联网企业通常拥有多条产品线,每条产品线都有各自的用户信息。为了更准确地提取用户画像数据,需要将多个产品线中的用户标识进行匹配,以确定各个产品线用户标识是不是属于同一个用户。现有的用户标识匹配的方法通常是单独基于用户标识所关联的IP(InternetProtocol,网络协议)地址来对用户标识进行匹配,或者单独根据用户标识所关联的定位信息来对用户标识进行匹配。然而,由于各个通信运营商的IP地址分配机制不同,且通常是随机分配,因此单独基于IP地址来对用户标识进行匹配的方案的可靠性较低。同时,由于用户在访问互联网服务时通常会选择屏蔽不必要的定位请求,因此用户的定位信息通常存在缺失,从而难以根据部分缺失的定位信息准确地对用户标识进行匹配。
技术实现思路
本申请的目的在于提出一种用户标识匹配方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种用户标识匹配方法,所述方法包括:对预存的用户操作信息集合进行分析,获取所述用户操作信息集合中记录的各个网络协议IP地址所分布的至少一个定位区域以及各个定位区域的权重,其中,所述用户操作信息集合中的用户操作信息包括以下信息:用户标识、IP地址、定位点坐标;根据用户标识所关联的IP地址所分布的定位区域以及各个定位区域的权重,获取待匹配用户标识与各个所述用户操作信息集合中记录的其它用户标识之间的定位信息相似度;根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识。在一些实施例中,所述对预存的用户操作信息集合进行分析,获取所述用户操作信息集合中记录的各个网络协议IP地址所分布的至少一个定位区域以及各个定位区域的权重,包括:获取所述用户操作信息集合中记录的各个IP地址所关联的定位点坐标集合;针对每个所述IP地址,对所述IP地址所关联的定位点坐标集合进行聚类分析,得到所对应的至少一个聚类,作为所述IP所分布的定位区域;针对每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重。在一些实施例中,所述针对每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重,包括:将所分布的定位区域个数大于预设数量阈值或者定位区域中的定位点坐标与中心点坐标的距离平均值大于预设距离阈值的IP地址删除;针对剩余的每个所述IP地址,确定所述IP地址所分布的各个定位区域的权重。在一些实施例中,所述确定所述IP地址所分布的各个定位区域的权重,包括:根据所述IP地址所分布的各个定位区域中的定位点坐标的个数和范围,确定各个定位区域的初始权重;将用户标识所关联的IP地址所分布的各个定位区域的中心点坐标作为用户标识对应的中心点坐标,对所述用户操作信息集合中记录的用户标识对应的中心点坐标根据地理布局进行网格化,生成至少两个网格;获取所述用户操作信息集合中记录的每个用户标识对应的在每个所述网格中的中心点坐标所在定位区域的初始权重之和,作为每个网格与每个用户标识对应的频次,并获取每个网格中的中心点坐标所在定位区域的初始权重之和,作为每个网格对应的总用户频次;基于所述频次,通过TF-IDF算法计算各个定位区域的权重。在一些实施例中,所述方法还包括:计算所述待匹配用户标识与各个其它用户标识之间的IP地址相似度;以及所述根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识,包括:根据所述待匹配用户标识与各个其它用户标识之间的定位信息相似度和IP地址相似度,确定与所述待匹配用户标识匹配的其它用户标识。在一些实施例中,所述根据所述待匹配用户标识与各个其它用户标识之间的定位信息相似度和IP地址相似度,确定与所述待匹配用户标识匹配的其它用户标识,包括:获取所述待匹配用户标识和每个其它用户标识对应的特征信息,所述特征信息包括:所述待匹配用户标识和其它用户标识之间的IP地址相似度、定位信息相似度;基于所述待匹配用户标识和各个其它用户标识对应的特征信息,通过预先训练的排序模型,获取待匹配用户标识和各个其它用户标识匹配的概率;确定对应的所述概率大于预定的阈值的其它用户标识与所述待匹配用户标识匹配。在一些实施例中,所述用户操作信息集合中的用户操作数据信息还包括:终端型号信息、操作系统信息;以及所述特征信息还包括以下信息中的至少一个:所述待匹配用户标识和其它用户标识之间的相同IP地址数量、对应的中心点坐标重合数量,所述待匹配用户标识和其它用户标识所关联的终端型号信息、操作系统信息。在一些实施例中,所述用户操作信息集合中记录的用户标识包括第一用户标识和第二用户标识,所述待匹配用户标识和所述各个其它用户标识分别属于第一用户标识和第二用户标识。在一些实施例中,在获取待匹配用户标识与各个所述用户操作信息集合中记录的其它用户标识之间的定位信息相似度之后,所述方法还包括:按照与所述待匹配用户标识之间的定位信息相似度从大到小的顺序,在所述用户操作信息集合中记录的第二用户标识中依次选取预定数量个第二用户标识,得到候选第二用户标识集合;以及所述根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识,包括:根据所述待匹配用户标识与所述候选第二用户标识集合中的各个第二用户标识之间的定位信息相似度,确定与所述待匹配第一用户标识匹配的第二用户标识。在一些实施例中,在根据所述待匹配用户标识与所述候选第二用户标识集合中的各个第二用户标识之间的定位信息相似度,确定与所述待匹配第一用户标识匹配的第二用户标识之前,所述方法还包括:针对所述候选第二用户标识集合中的每个第二用户标识,获取所述第二用户标识与各个第一用户标识之间的定位信息相似度;按照与所述第二用户标识之本文档来自技高网
...

【技术保护点】
一种用户标识匹配方法,其特征在于,所述方法包括:对预存的用户操作信息集合进行分析,获取所述用户操作信息集合中记录的各个网络协议IP地址所分布的至少一个定位区域以及各个定位区域的权重,其中,所述用户操作信息集合中的用户操作信息包括以下信息:用户标识、IP地址、定位点坐标;根据用户标识所关联的IP地址所分布的定位区域以及各个定位区域的权重,获取待匹配用户标识与各个所述用户操作信息集合中记录的其它用户标识之间的定位信息相似度;根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用户标识。

【技术特征摘要】
1.一种用户标识匹配方法,其特征在于,所述方法包括:
对预存的用户操作信息集合进行分析,获取所述用户操作信息集
合中记录的各个网络协议IP地址所分布的至少一个定位区域以及各
个定位区域的权重,其中,所述用户操作信息集合中的用户操作信息
包括以下信息:用户标识、IP地址、定位点坐标;
根据用户标识所关联的IP地址所分布的定位区域以及各个定位
区域的权重,获取待匹配用户标识与各个所述用户操作信息集合中记
录的其它用户标识之间的定位信息相似度;
根据定位信息相似度,确定与所述待匹配用户标识匹配的其它用
户标识。
2.根据权利要求1所述的方法,其特征在于,所述对预存的用户
操作信息集合进行分析,获取所述用户操作信息集合中记录的各个网
络协议IP地址所分布的至少一个定位区域以及各个定位区域的权重,
包括:
获取所述用户操作信息集合中记录的各个IP地址所关联的定位
点坐标集合;
针对每个所述IP地址,对所述IP地址所关联的定位点坐标集合
进行聚类分析,得到所对应的至少一个聚类,作为所述IP所分布的定
位区域;
针对每个所述IP地址,确定所述IP地址所分布的各个定位区域
的权重。
3.根据权利要求2所述的方法,其特征在于,所述针对每个所述
IP地址,确定所述IP地址所分布的各个定位区域的权重,包括:
将所分布的定位区域个数大于预设数量阈值或者定位区域中的定
位点坐标与中心点坐标的距离平均值大于预设距离阈值的IP地址删
除;
针对剩余的每个所述IP地址,确定所述IP地址所分布的各个定
位区域的权重。
4.根据权利要求2所述的方法,其特征在于,所述确定所述IP
地址所分布的各个定位区域的权重,包括:
根据所述IP地址所分布的各个定位区域中的定位点坐标的个数
和范围,确定各个定位区域的初始权重;
将用户标识所关联的IP地址所分布的各个定位区域的中心点坐
标作为用户标识对应的中心点坐标,对所述用户操作信息集合中记录
的用户标识对应的中心点坐标根据地理布局进行网格化,生成至少两
个网格;
获取所述用户操作信息集合中记录的每个用户标识对应的在每个
所述网格中的中心点坐标所在定位区域的初始权重之和,作为每个网
格与每个用户标识对应的频次,并获取每个网格中的中心点坐标所在
定位区域的初始权重之和,作为每个网格对应的总用户频次;
基于所述频次,通过TF-IDF算法计算各个定位区域的权重。
5.根据权利要求1-4任一所述的方法,其特征在于,所述方法还
包括:
计算所述待匹配用户标识与各个其它用户标识之间的IP地址相
似度;以及
所述根据定位信息相似度,确定与所述待匹配用户标识匹配的其
它用户标识,包括:
根据所述待匹配用户标识与各个其它用户标识之间的定位信息相
似度和IP地址相似度,确定与所述待匹配用户标识匹配的其它用户标
识。
6.根据权利要求5所述的方法,其特征在于,所述根据所述待匹
配用户标识与各个其它用户标识之间的定位信息相似度和IP地址相
似度,确定与所述待匹配用户标识匹配的其它用户标识,包括:
获取所述待匹配用户标识和每个其它用户标识对应的特征信息,
所述特征信息包括:所述待匹配用户标识和其它用户标识之间的IP地
址相似度、定位信息相似度;
基于所述待匹配用户标识和各个其它用户标识对应的特征信息,
通过预先训练的排序模型,获取待匹配用户标识和各个其它用户标识
匹配的概率;
确定对应的所述概率大于预定的阈值的其它用户标识与所述待匹
配用户标识匹配。
7.根据权利要求6所述的方法,其特征在于,所述用户操作信息
集合中的用户操作数据信息还包括:终端型号信息、操作系统信息;
以及
所述特征信息还包括以下信息中的至少一个:所述待匹配用户标
识和其它用户标识之间的相同IP地址数量、对应的中心点坐标重合数
量,所述待匹配用户标识和其它用户标识所关联的终端型号信息、操
作系统信息。
8.根据权利要求1-4任一所述的方法,其特征在于,所述用户操
作信息集合中记录的用户标识包括第一用户标识和第二用户标识,所
述待匹配用户标识和所述各个其它用户标识分别属于第一用户标识和
第二用户标识。
9.根据权利要求8所述的方法,其特征在于,在获取待匹配用户
标识与各个所述用户操作信息集合中记录的其它用户标识之间的定位
信息相似度之后,所述方法还包括:
按照与所述待匹配用户标识之间的定位信息相似度从大到小的顺
序,在所述用户操作信息集合中记录的第二用户标识中依次选取预定
数量个第二用户标识,得到候选第二用户标识集合;
以及
所述根据定位信息相似度,确定与所述待匹配用户标识匹配的其

\t它用户标识,包括:
根据所述待匹配用户标识与所述候选第二用户标识集合中的各个
第二用户标识之间的定位信息相似度,确定与所述待匹配第一用户标
识匹配的第二用户标识。
10.根据权利要求9所述的方法,其特征在于,在根据所述待匹
配用户标识与所述候选第二用户标识集合中的各个第二用户标识之间
的定位信息相似度,确定与所述待匹配第一用户标识匹配的第二用户
标识之前,所述方法还包括:
针对所述候选第二用户标识集合中的每个第二用户标识,获取所
述第二用户标识与各个第一用户标识之间的定位信息相似度;
按照与所述第二用户标识之间的定位信息相似度从大到小的顺序
依次选取预定数量个第一用户标识,得到候选第一用户标识集合;
如果所述待匹配用户标识不在所述候选第一用户标识集合中,则
将所述第二用户标识从所述候选第二用户标识集合中删除。
11.一种用户标识匹配装置,其特征在于,所述装置包括:
定位信息获取单元,用于对预存的用户操作信息集合进行分析,...

【专利技术属性】
技术研发人员:程允胜吴海山周景博
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1