基于知识图谱的相似用户识别方法、装置、设备及介质制造方法及图纸

技术编号:27531956 阅读:16 留言:0更新日期:2021-03-03 11:11
本发明专利技术公开了一种基于知识图谱的相似用户识别方法、装置、设备及介质。方法包括:计算不同用户之间共同关注的目标群组数量或者目标账号数量;将不同用户之间的兴趣爱好衡量度大于第一阈值的不同用户确定为相似用户;对兴趣爱好衡量度小于或等于第一阈值的不同用户进行关键词打标;根据不同用户之间的共同标签数量,计算不同用户之间的标签重合度,将标签重合度大于第一阈值的不同用户确定为相似用户;对标签重合度小于或等于第一阈值的不同用户进行用户知识图谱构建;根据计算得到用户知识图谱,计算不同用户之间的欧氏距离,将欧氏距离大于第二阈值的不同用户确定为相似用户。本发明专利技术能够准确且快速高效地找到相似用户,可广泛应用于互联网技术领域。广泛应用于互联网技术领域。广泛应用于互联网技术领域。

【技术实现步骤摘要】
基于知识图谱的相似用户识别方法、装置、设备及介质


[0001]本专利技术涉及互联网
,尤其是一种基于知识图谱的相似用户识别方法、装置、设备及介质。

技术介绍

[0002]目前进行互联网相似用户发现的过程一般首先是自动、手动、半自动或与第三方合作的方式获得某些社交应用上用户的信息,包括用户的基本信息、行为信息、发送的内容等;然后对这些信息进行抽取,包括用户名、手机或邮箱号、地址、性别、关注好友或群组、发送消息等;然后对这些内容进行字符串的相似性计算和聚类计算等;最后找出观点或兴趣相似的用户以支撑后续的应用。
[0003]由于社交网络应用的种类多样,用户在网络上行为习惯、观点情感的不同,以及用户数据量巨大而庞杂,导致网络上用户信息呈现出数据维数高、稀疏、多噪声的特点,现有技术虽然能对这些用户进行一定程度的分析,但由于这些方法更适合于结构简单规范、数据维数较低的场景,且未综合考虑各类信息,所以存在计算结果不够精确、计算效率较低的问题,面对日益增长且变化较快的各类用户信息,不能快速有效的发现相似的用户。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种准确且高效的,基于知识图谱的相似用户识别方法、装置、设备及介质。
[0005]本专利技术的第一方面提供了一种基于知识图谱的相似用户识别方法,包括:
[0006]统计用户关注的目标群组和目标账号;
[0007]计算不同用户之间共同关注的目标群组数量或者目标账号数量;
[0008]根据所述共同关注的目标群组数量或者目标账号数量,计算不同用户之间的兴趣爱好衡量度,将所述兴趣爱好衡量度大于第一阈值的不同用户确定为相似用户;对所述兴趣爱好衡量度小于或等于所述第一阈值的不同用户进行关键词打标;
[0009]根据所述关键词打标的结果,计算不同用户之间的共同标签数量;
[0010]根据所述共同标签数量,计算不同用户之间的标签重合度,将所述标签重合度大于第一阈值的不同用户确定为相似用户;对所述标签重合度小于或等于所述第一阈值的不同用户进行用户知识图谱构建;
[0011]根据计算得到用户知识图谱,计算不同用户之间的欧氏距离,将所述欧氏距离大于第二阈值的不同用户确定为相似用户;将所述欧氏距离小于或等于所述第二阈值的不同用户确定为不相似用户。
[0012]在一些实施例中,所述统计用户关注的目标群组和目标账号,包括:
[0013]根据用户在不同群组的发言次数,以及通过不同帐号进行发言的次数,确定群组的重要性排名和账号的重要性排名;
[0014]根据所述重要性排名的结果,选取排名topN的群组作为目标群组,以及选取排名
topN的账号作为目标账号。
[0015]在一些实施例中,所述根据所述共同关注的目标群组数量或者目标账号数量,计算不同用户之间的兴趣爱好衡量度,包括:
[0016]通过jaccard系数将不同用户之间的相同兴趣爱好转化到第一区间,得到兴趣爱好衡量度;
[0017]所述转化的公式为:
[0018][0019]其中,表示a和b用户的第一兴趣爱好重合度;A表示a用户关注的目标群组或目标账号的集合,B表示b用户关注的目标群组或目标账号的集合。
[0020]在一些实施例中,所述对所述兴趣爱好衡量度小于或等于所述第一阈值的不同用户进行关键词打标,包括:
[0021]获取用户发送的消息集合;
[0022]对所述消息集合中的关键词进行抽取,得到目标关键词,将所述目标关键词作为用户标签。
[0023]在一些实施例中,所述对所述消息集合中的关键词进行抽取,得到目标关键词,包括:
[0024]通过正则匹配法、tf-idf算法或LDA算法,对所述消息集合中的关键词进行挖掘;
[0025]根据预设的关键词标签,对挖掘得到的关键词进行分词处理,得到目标关键词。
[0026]在一些实施例中,所述根据所述共同标签数量,计算不同用户之间的标签重合度中,所述标签重合度的计算公式为:
[0027][0028]其中,tag(a,b)表示a和b用户的标签重合度,A

表示a用户标签的集合,B

表示b用户标签的集合。
[0029]在一些实施例中,所述用户知识图谱构建,包括:
[0030]获取不同用户的属性信息;
[0031]根据所述不同用户中共同拥有的相同属性,将不同用户进行节点相连;
[0032]通过TransR模型对不同用户之间的关系建立关系空间;
[0033]将每个用户的属性信息映射到对应的关系空间,得到所述属性信息在当前关系空间中的表示向量;
[0034]通过变换矩阵将每个用户的头尾实体的表示向量映射到关系空间,得到每个用户的向量化表示。
[0035]本专利技术的另一方面提供了基于知识图谱的相似用户识别装置,包括:
[0036]统计模块,用于统计用户关注的目标群组和目标账号;
[0037]计算模块,用于计算不同用户之间共同关注的目标群组数量或者目标账号数量;
[0038]兴趣爱好衡量度确定模块,用于根据所述共同关注的目标群组数量或者目标账号数量,计算不同用户之间的兴趣爱好衡量度,将所述兴趣爱好衡量度大于第一阈值的不同用户确定为相似用户;对所述兴趣爱好衡量度小于或等于所述第一阈值的不同用户进行关
键词打标;
[0039]标签数量计算模块,用于根据所述关键词打标的结果,计算不同用户之间的共同标签数量;
[0040]标签重合度确定模块,用于根据所述共同标签数量,计算不同用户之间的标签重合度,将所述标签重合度大于第一阈值的不同用户确定为相似用户;对所述标签重合度小于或等于所述第一阈值的不同用户进行用户知识图谱构建;
[0041]欧氏距离计算模块,用于根据计算得到用户知识图谱,计算不同用户之间的欧氏距离,将所述欧氏距离大于第二阈值的不同用户确定为相似用户;将所述欧氏距离小于或等于所述第二阈值的不同用户确定为不相似用户。
[0042]本专利技术的另一方面提供了一种电子设备,包括处理器以及存储器;
[0043]所述存储器用于存储程序;
[0044]所述处理器执行所述程序实现如前面所述的方法。
[0045]本专利技术的另一方面提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
[0046]本专利技术的实施例通过计算不同用户之间的兴趣爱好衡量度、标签重合度或者知识图谱,来识别相似用户,能够准确且快速高效地找到相似用户。
附图说明
[0047]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0048]图1为本专利技术实施例提供的相似用户识别方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于知识图谱的相似用户识别方法,其特征在于,包括:统计用户关注的目标群组和目标账号;计算不同用户之间共同关注的目标群组数量或者目标账号数量;根据所述共同关注的目标群组数量或者目标账号数量,计算不同用户之间的兴趣爱好衡量度,将所述兴趣爱好衡量度大于第一阈值的不同用户确定为相似用户;对所述兴趣爱好衡量度小于或等于所述第一阈值的不同用户进行关键词打标;根据所述关键词打标的结果,计算不同用户之间的共同标签数量;根据所述共同标签数量,计算不同用户之间的标签重合度,将所述标签重合度大于第一阈值的不同用户确定为相似用户;对所述标签重合度小于或等于所述第一阈值的不同用户进行用户知识图谱构建;根据计算得到用户知识图谱,计算不同用户之间的欧氏距离,将所述欧氏距离大于第二阈值的不同用户确定为相似用户;将所述欧氏距离小于或等于所述第二阈值的不同用户确定为不相似用户。2.根据权利要求1所述的基于知识图谱的相似用户识别方法,其特征在于,所述统计用户关注的目标群组和目标账号,包括:根据用户在不同群组的发言次数,以及通过不同帐号进行发言的次数,确定群组的重要性排名和账号的重要性排名;根据所述重要性排名的结果,选取排名topN的群组作为目标群组,以及选取排名topN的账号作为目标账号。3.根据权利要求1所述的基于知识图谱的相似用户识别方法,其特征在于,所述根据所述共同关注的目标群组数量或者目标账号数量,计算不同用户之间的兴趣爱好衡量度,包括:通过jaccard系数将不同用户之间的相同兴趣爱好转化到第一区间,得到兴趣爱好衡量度;所述转化的公式为:其中,hobby(a,b)表示a和b用户的第一兴趣爱好重合度;A表示a用户关注的目标群组或目标账号的集合,B表示b用户关注的目标群组或目标账号的集合。4.根据权利要求1所述的基于知识图谱的相似用户识别方法,其特征在于,所述对所述兴趣爱好衡量度小于或等于所述第一阈值的不同用户进行关键词打标,包括:获取用户发送的消息集合;对所述消息集合中的关键词进行抽取,得到目标关键词,将所述目标关键词作为用户标签。5.根据权利要求4所述的基于知识图谱的相似用户识别方法,其特征在于,所述对所述消息集合中的关键词进行抽取,得到目标关键词,包括:通过正则匹配法、tf-idf算法或LDA算法,对所述消息集合中的关键词进行挖掘;根据预设...

【专利技术属性】
技术研发人员:谭庆丰陈小龙谭润楠
申请(专利权)人:东莞智盾信息安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1