【技术实现步骤摘要】
一种基于知识图谱的用户识别方法及装置
本申请涉及计算机
,尤其是涉及一种基于知识图谱的用户识别方法及装置。
技术介绍
随着互联网技术的发展,电脑、智能手机、Pad、智能电视以及移动可穿戴设备等多种电子设备的出现,用户访问的社交平台越来越多,各个社交平台之间的信息互不相同,这就导致无法识别哪些设备的用户为同一用户,从而在资源分配或信息投放时,为同一用户的多个设备重复分配资源或者投放信息,从而导致资源信息的浪费。
技术实现思路
有鉴于此,本申请的目的在于提供一种基于知识图谱的用户识别方法及装置。第一方面,本申请实施例提供了一种基于知识图谱的用户识别方法,包括:获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;基于所述候选设备对之间的相 ...
【技术保护点】
1.一种基于知识图谱的用户识别方法,其特征在于,包括:/n获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;/n对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;/n基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;/n将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;/n基于所述候选设备对之间的相似度,构建用于表示所述候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对,所述目标设备对属于同一用户。/n
【技术特征摘要】
1.一种基于知识图谱的用户识别方法,其特征在于,包括:
获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;
对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;
基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;
将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;
基于所述候选设备对之间的相似度,构建用于表示所述候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对,所述目标设备对属于同一用户。
2.根据权利要求1所述的方法,其特征在于,所述访问日志中还携带有设备访问的网络互连协议IP地址;
对所述待识别的设备集合进行预处理,确定设备子集,包括:
基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数、以及每一个设备对应的IP集合,所述私密度参数用于表示所述IP地址的私密程度,所述每一个设备对应的IP集合为该设备访问的IP地址的集合;
基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度;
将所述相似度满足第二预设相似度条件的两个设备划分至所述设备子集中。
3.根据权利要求2所述的方法,其特征在于,所述基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数,包括:
针对每一个IP地址,基于所述设备集合中的每一个设备的访问日志,确定IP地址被每个设备访问的访问次数、以及IP地址被不同设备访问的总次数;
将不同设备访问所述IP地址的访问次数由大到小进行排序,将前N个访问次数对应的设备确定为选定设备,N为正整数;
将所述选定设备对所述IP地址的访问次数进行求和运算,并将求和结果与所述总次数之间的比值确定为所述IP地址对应的私密度参数。
4.根据权利要求3所述的方法,其特征在于,所述基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度,包括:
对每个IP地址被每个设备访问的访问次数进行归一化处理;
基于归一化处理后的访问次数、设备的标识、以及所述设备对应的IP集合中包含的IP地址,构建所述设备对应的IP集合的特征向量;
基于任意两个IP集合的特征向量,计算该两个设备对应的IP集合之间的相似度。
5.根据权利要求1所述的方法,其特征在于,所述设备子集中的设备对之间的属性特征包括以下特征中的至少一种:
第一设备以及第二设备异地与否的标识、第一设备以及第二设备访问的IP地址的数量、第一设备以及第二设备访问的媒体数量、第一设备以及第二设备访问的媒体类型数量、第一设备和第二设备共同访问的IP地址的数量、第一设备和第二设备共同访问的IP地址的重要度、第一设备和第二设备共同访问的媒体数量、第一设备和第二设备共同访问的媒体类型的数量、第一设备和第二设备共同访问的媒体的相似度特征值、第一设备和第二设备共同访问的媒体类型的相似度特征值、第一设备和第二设备在不同时间区...
【专利技术属性】
技术研发人员:付金伟,丁若谷,
申请(专利权)人:秒针信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。