一种基于知识图谱的用户识别方法及装置制造方法及图纸

技术编号:24010852 阅读:22 留言:0更新日期:2020-05-02 01:41
本申请提供了一种基于知识图谱的用户识别方法及装置,包括:获取待识别的设备集合以及设备集合中的每一个设备的访问日志;对待识别的设备集合进行预处理,确定设备子集,设备子集中包括至少一个设备对;基于设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定设备子集中的每一个设备对的相似度向量;将设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到设备子集中的候选设备对、以及候选设备对之间的相似度;基于候选设备对之间的相似度,构建相似度图,并基于相似度图确定属于同一用户的目标设备对,目标设备对属于同一用户。

A method and device of user identification based on Knowledge Map

【技术实现步骤摘要】
一种基于知识图谱的用户识别方法及装置
本申请涉及计算机
,尤其是涉及一种基于知识图谱的用户识别方法及装置。
技术介绍
随着互联网技术的发展,电脑、智能手机、Pad、智能电视以及移动可穿戴设备等多种电子设备的出现,用户访问的社交平台越来越多,各个社交平台之间的信息互不相同,这就导致无法识别哪些设备的用户为同一用户,从而在资源分配或信息投放时,为同一用户的多个设备重复分配资源或者投放信息,从而导致资源信息的浪费。
技术实现思路
有鉴于此,本申请的目的在于提供一种基于知识图谱的用户识别方法及装置。第一方面,本申请实施例提供了一种基于知识图谱的用户识别方法,包括:获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;基于所述候选设备对之间的相似度,构建用于表示所述候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对,所述目标设备对属于同一用户。一种可能的实施方式中,所述访问日志中还携带有设备访问的网络互连协议IP地址;对所述待识别的设备集合进行预处理,确定设备子集,包括:基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数、以及每一个设备对应的IP集合,所述私密度参数用于表示所述IP地址的私密程度,所述每一个设备对应的IP集合为该设备访问的IP地址的集合;基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度;将所述相似度满足第二预设相似度条件的两个设备划分至所述设备子集中。一种可能的实施方式中,所述基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数,包括:针对每一个IP地址,基于所述设备集合中的每一个设备的访问日志,确定IP地址被每个设备访问的访问次数、以及IP地址被不同设备访问的总次数;将不同设备访问所述IP地址的访问次数由大到小进行排序,将前N个访问次数对应的设备确定为选定设备,N为正整数;将所述选定设备对所述IP地址的访问次数进行求和运算,并将求和结果与所述总次数之间的比值确定为所述IP地址对应的私密度参数。一种可能的实施方式中,所述基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度,包括:对每个IP地址被每个设备访问的访问次数进行归一化处理;基于归一化处理后的访问次数、设备的标识、以及所述设备对应的IP集合中包含的IP地址,构建所述设备对应的IP集合的特征向量;基于任意两个IP集合的特征向量,计算该两个设备对应的IP集合之间的相似度。一种可能的实施方式中,所述设备子集中的设备对之间的属性特征包括以下特征中的至少一种:第一设备以及第二设备异地与否的标识、第一设备以及第二设备访问的IP地址的数量、第一设备以及第二设备访问的媒体数量、第一设备以及第二设备访问的媒体类型数量、第一设备和第二设备共同访问的IP地址的数量、第一设备和第二设备共同访问的IP地址的重要度、第一设备和第二设备共同访问的媒体数量、第一设备和第二设备共同访问的媒体类型的数量、第一设备和第二设备共同访问的媒体的相似度特征值、第一设备和第二设备共同访问的媒体类型的相似度特征值、第一设备和第二设备在不同时间区间内出现在同一ip下的次数。一种可能的实施方式中,所述基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,包括:将所述设备对的属性特征的每一个特征值确定为所述设备对的相似度向量的元素值。一种可能的实施方式中,所述相似度图中的节点为所述候选设备;所述基于所述相似度图确定属于同一用户的目标设备对,包括:基于图聚类算法对所述相似度图中的节点进行聚类;将属于同一类的所述候选设备确定为所述目标设备对。一种可能的实施方式中,按照以下方法训练得到所述神经网络模型:获取样本设备集合,所述样本集合中包括第一设备和第二设备,属于同一用户的第一设备和第二设备设置有同一用户的用户标签;对所述样本设备集合进行预处理,得到样本设备子集;所述样本设备子集包括至少一个样本设备对,每个样本设备对包括第一设备以及第二设备,所述每个样本设备对中的第一设备与第二设备之间具有关联关系;确定所述样本设备子集中的每一个样本设备对之间的属性特征,并基于所述每一个样本设备对的属性特征,构建知识图谱;基于构建的知识图谱,确定所述样本设备子集中每一个样本设备对的相似度向量,所述相似度向量用于表示所述样本设备对中的两个设备之间的关联关系;将所述样本设备子集中的所有样本设备对的相似度向量输入至待训练的神经网络模型中,输出所述样本设备子集中的候选设备对、以及所述候选设备对之间的相似度;基于所述候选设备对之间的相似度,构建用于表示候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对;基于所述目标设备对的用户标签,确定本次训练过程中的损失值,并基于所述损失值,对神经网络模型进行训练。第二方面,本申请实施例还提供一种基于知识图谱的用户识别装置,包括:获取模块,用于获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;预处理模块,用于对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;确定模块,用于基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;预测模块,用于将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;识别模块,用于基于所述候选设备对之间的相似度,构建用于表示所述候选设备本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的用户识别方法,其特征在于,包括:/n获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;/n对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;/n基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;/n将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;/n基于所述候选设备对之间的相似度,构建用于表示所述候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对,所述目标设备对属于同一用户。/n

【技术特征摘要】
1.一种基于知识图谱的用户识别方法,其特征在于,包括:
获取待识别的设备集合以及所述设备集合中的每一个设备的访问日志,所述访问日志中携带有设备的标识信息,所述设备为第一设备或第二设备;
对所述待识别的设备集合进行预处理,确定设备子集,所述设备子集中包括至少一个设备对,其中每个设备对中包括第一设备以及第二设备,所述每个设备对中的第一设备与第二设备之间具有关联关系;
基于所述设备子集中的设备对之间的属性特征,构建知识图谱,并基于构建的知识图谱确定所述设备子集中的每一个设备对的相似度向量,所述相似度向量用于描述该设备对中两个设备之间的关联关系;
将所述设备子集中的所有设备对的相似度向量输入至预先训练好的神经网络模型中,输出得到所述设备子集中的候选设备对、以及所述候选设备对之间的相似度;所述候选设备对之间的相似度满足第一预设相似度条件;
基于所述候选设备对之间的相似度,构建用于表示所述候选设备对中的候选设备之间相似度关系的相似度图,并基于所述相似度图确定属于同一用户的目标设备对,所述目标设备对属于同一用户。


2.根据权利要求1所述的方法,其特征在于,所述访问日志中还携带有设备访问的网络互连协议IP地址;
对所述待识别的设备集合进行预处理,确定设备子集,包括:
基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数、以及每一个设备对应的IP集合,所述私密度参数用于表示所述IP地址的私密程度,所述每一个设备对应的IP集合为该设备访问的IP地址的集合;
基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度;
将所述相似度满足第二预设相似度条件的两个设备划分至所述设备子集中。


3.根据权利要求2所述的方法,其特征在于,所述基于所述设备集合中的每一个设备的访问日志,确定所述设备集合访问的每一个IP地址对应的私密度参数,包括:
针对每一个IP地址,基于所述设备集合中的每一个设备的访问日志,确定IP地址被每个设备访问的访问次数、以及IP地址被不同设备访问的总次数;
将不同设备访问所述IP地址的访问次数由大到小进行排序,将前N个访问次数对应的设备确定为选定设备,N为正整数;
将所述选定设备对所述IP地址的访问次数进行求和运算,并将求和结果与所述总次数之间的比值确定为所述IP地址对应的私密度参数。


4.根据权利要求3所述的方法,其特征在于,所述基于所述IP地址对应的私密度参数,确定所述设备集合中的任意两个设备对应的IP集合之间的相似度,包括:
对每个IP地址被每个设备访问的访问次数进行归一化处理;
基于归一化处理后的访问次数、设备的标识、以及所述设备对应的IP集合中包含的IP地址,构建所述设备对应的IP集合的特征向量;
基于任意两个IP集合的特征向量,计算该两个设备对应的IP集合之间的相似度。


5.根据权利要求1所述的方法,其特征在于,所述设备子集中的设备对之间的属性特征包括以下特征中的至少一种:
第一设备以及第二设备异地与否的标识、第一设备以及第二设备访问的IP地址的数量、第一设备以及第二设备访问的媒体数量、第一设备以及第二设备访问的媒体类型数量、第一设备和第二设备共同访问的IP地址的数量、第一设备和第二设备共同访问的IP地址的重要度、第一设备和第二设备共同访问的媒体数量、第一设备和第二设备共同访问的媒体类型的数量、第一设备和第二设备共同访问的媒体的相似度特征值、第一设备和第二设备共同访问的媒体类型的相似度特征值、第一设备和第二设备在不同时间区...

【专利技术属性】
技术研发人员:付金伟丁若谷
申请(专利权)人:秒针信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1