数据处理方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:39430314 阅读:11 留言:0更新日期:2023-11-19 16:15
本申请公开了一种数据处理方法、装置、设备和计算机可读存储介质,属于计算机技术领域,可应用于云数据等场景。可获取网络数据结构中具有多阶路径关系的第一数据节点和第二数据节点;根据多阶路径关系对应的多个路径权重,计算第一数据节点与第二数据节点之间的目标相似权重;根据节点间的路径权重分布关系,确定目标相似权重对应的目标相似概率;根据节点间的向量相似关系确定第一数据节点与第二数据节点之间的初始相似概率;根据目标相似概率与初始相似概率之间的差异构建目标损失函数,并根据目标损失函数对待训练模型进行训练;通过训练得到的目标模型对网络数据结构中的数据节点之间的关联度进行相似权重识别。以此,可提高网络表示的效果。可提高网络表示的效果。可提高网络表示的效果。

【技术实现步骤摘要】
数据处理方法、装置、设备和计算机可读存储介质


[0001]本申请涉及计算机
,具体涉及一种数据处理方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]网络(network或graph)是指节点和边的数据结构,能够将现实世界的信息进行表达;网络表示学习(network embedding)将复杂化的网络数据映射到向量空间,并保持节点之间的关联强度。为了实现对网络中的数据进行网络表示学习,相关技术一般通过空间拓扑近邻相似的网络表示学习方式,可对直接连接的一阶近邻相似进行表征,以及根据二阶上下文的相似来实现表征计算。
[0003]在对现有技术的研究和实践过程中,本申请的专利技术人发现相关技术在通过空间拓扑近邻相似的网络表示学习方式时,对于存在二阶关系的两个节点,其相似度主要是根据上下文和节点到上下文的概率分布来计算的,当上下文的数量较少时,将无法准确表达二阶关系的两个节点之间的相似度,影响了网络表示学习的效果。

技术实现思路

[0004]本申请实施例提供一种数据处理方法、装置、设备和计算机可读存储介质,可准确表达两个节点之间的相似度,提升了网络表示的效果。
[0005]本申请实施例提供一种数据处理方法,包括:
[0006]获取网络数据结构中的待处理的目标数据节点对,所述目标数据节点对包含具有多阶路径关系的第一数据节点和第二数据节点;
[0007]根据所述多阶路径关系对应的多个路径权重,计算所述第一数据节点与所述第二数据节点之间的目标相似权重;
[0008]根据节点间的路径权重分布关系,确定所述目标相似权重对应的目标相似概率;
[0009]根据节点间的向量相似关系确定所述第一数据节点与所述第二数据节点之间的初始相似概率;
[0010]根据所述目标相似概率与所述初始相似概率之间的差异构建目标损失函数,并根据所述目标损失函数对待训练模型进行训练;
[0011]通过训练得到的目标模型对所述网络数据结构中的数据节点之间的关联度进行相似权重识别。
[0012]相应的,本申请实施例提供一种数据处理装置,包括:
[0013]获取单元,用于获取网络数据结构中的待处理的目标数据节点对,所述目标数据节点对包含具有多阶路径关系的第一数据节点和第二数据节点;
[0014]计算单元,用于根据所述多阶路径关系对应的多个路径权重,计算所述第一数据节点与所述第二数据节点之间的目标相似权重;
[0015]第一确定单元,用于根据节点间的路径权重分布关系,确定所述目标相似权重对
应的目标相似概率;
[0016]第二确定单元,用于根据节点间的向量相似关系确定所述第一数据节点与所述第二数据节点之间的初始相似概率;
[0017]训练单元,用于根据所述目标相似概率与所述初始相似概率之间的差异构建目标损失函数,并根据所述目标损失函数对待训练模型进行训练;
[0018]识别单元,用于通过训练得到的目标模型对所述网络数据结构中的数据节点之间的关联度进行相似权重识别。
[0019]在一些实施方式中,多阶路径关系包括二阶路径关系,所述计算单元,还用于:
[0020]确定所述二阶路径关系中对应的第一阶路径的第一阶路径权重,以及第二阶路径的第二阶路径权重;
[0021]根据所述第一阶路径权重与所述第二阶路径权重之间的权重乘积,确定所述第一数据节点与所述第二数据节点之间的目标相似权重。
[0022]在一些实施方式中,所述二阶路径关系包含多个二阶子路径关系,所述计算单元,还用于:
[0023]确定每个二阶子路径关系中的第一阶路径的第一阶路径权重,以及第二阶路径的第二阶路径权重;
[0024]对所述每个二阶子路径关系对应的第一阶路径权重与第二阶路径权重进行乘积,得到所述每个二阶子路径关系对应的路径相似度;
[0025]对多个所述路径相似度进行累加,得到所述第一数据节点与所述第二数据节点之间的目标相似权重。
[0026]在一些实施方式中,所述计算单元,还用于:
[0027]基于节点间的路径权重分布关系,获取所述第一数据节点与第三数据节点之间的一阶路径权重,所述第三数据节点为与所述第一数据节点相邻连接的任意一个数据节点;
[0028]对所述一阶路径权重进行求和,得到目标路径权重值;
[0029]则所述第一确定单元,还用于根据所述目标相似权重与所述目标路径权重值之间的比值,确定所述第一数据节点与所述第二数据节点之间的目标相似概率。
[0030]在一些实施方式中,所述第一数据节点与所述第二数据节点之间还包含一阶路径关系,所述数据处理装置还包括融合单元,用于:
[0031]获取所述一阶路径关系对应的一阶路径的目标一阶相似权重;
[0032]将所述目标相似权重与所述目标一阶相似权重进行融合,并根据融合结果对所述目标相似权重进行更新,得到更新后的目标相似权重;
[0033]则所述第一确定单元,还用于根据所述更新后的目标相似权重确定所述第一数据节点与所述第二数据节点之间的目标相似概率。
[0034]在一些实施方式中,所述融合单元,还用于:
[0035]确定所述一阶路径关系对应的第一融合权重,并根据所述第一融合权重确定所述目标一阶相似权重对应的一阶融合权重;
[0036]确定所述二阶路径关系对应的第二融合权重,并根据所述第二融合权重确定所述目标相似权重对应的二阶融合权重;
[0037]对所述一阶融合权重与所述二阶融合权重进行融合。
[0038]在一些实施方式中,所述第二确定单元,还用于:
[0039]分别将所述第一数据节点和所述第二数据节点进行向量表示,得到第一向量和第二向量;
[0040]对所述第一向量与所述第二向量之间的点积进行指数函数计算,得到预测向量相似值;
[0041]确定所述第一数据节点与相邻连接的第三数据节点之间的目标向量相似值;
[0042]根据所述预测向量相似值与所述目标向量相似值之间的比值,确定所述第一数据节点与所述第二数据节点之间的初始相似概率。
[0043]在一些实施方式中,所述多阶路径关系为大于二阶的路径关系,所述计算单元,还用于:
[0044]确定所述多阶路径关系对应的多阶路径,并确定每阶路径对应的一阶路径权重;
[0045]对所述每阶路径对应的一阶路径权重之间进行乘积,得到所述第一数据节点与所述第二数据节点之间的目标相似权重。
[0046]在一些实施方式中,所述数据处理装置还包括生成单元,用于:
[0047]获取目标时段对应的待处理业务数据;
[0048]从所述待处理业务数据中提取业务对象和所述业务对象对应的业务关系数据;
[0049]根据所述业务对象生成的数据节点,以及根据所述业务关系数据生成所述数据节点之间的数据节点连接边;
[0050]根据所述数据节点和对应的数据节点连接边,生成网络数据结构。...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取网络数据结构中的待处理的目标数据节点对,所述目标数据节点对包含具有多阶路径关系的第一数据节点和第二数据节点;根据所述多阶路径关系对应的多个路径权重,计算所述第一数据节点与所述第二数据节点之间的目标相似权重;根据节点间的路径权重分布关系,确定所述目标相似权重对应的目标相似概率;根据节点间的向量相似关系确定所述第一数据节点与所述第二数据节点之间的初始相似概率;根据所述目标相似概率与所述初始相似概率之间的差异构建目标损失函数,并根据所述目标损失函数对待训练模型进行训练;通过训练得到的目标模型对所述网络数据结构中的数据节点之间的关联度进行相似权重识别。2.根据权利要求1所述的方法,其特征在于,所述多阶路径关系包括二阶路径关系,所述根据所述多阶路径关系对应的多个路径权重,计算所述第一数据节点与所述第二数据节点之间的目标相似权重,包括:确定所述二阶路径关系中对应的第一阶路径的第一阶路径权重,以及第二阶路径的第二阶路径权重;根据所述第一阶路径权重与所述第二阶路径权重之间的权重乘积,确定所述第一数据节点与所述第二数据节点之间的目标相似权重。3.根据权利要求2所述的方法,其特征在于,所述二阶路径关系包含多个二阶子路径关系,所述确定所述二阶路径关系中对应的第一阶路径的第一阶路径权重,以及第二阶路径的第二阶路径权重,包括:确定每个二阶子路径关系中的第一阶路径的第一阶路径权重,以及第二阶路径的第二阶路径权重;则所述根据所述第一阶路径权重与所述第二阶路径权重之间的权重乘积,确定所述第一数据节点与所述第二数据节点之间的目标相似权重,包括:对所述每个二阶子路径关系对应的第一阶路径权重与第二阶路径权重进行乘积,得到所述每个二阶子路径关系对应的路径相似度;对多个所述路径相似度进行累加,得到所述第一数据节点与所述第二数据节点之间的目标相似权重。4.根据权利要求1所述的方法,其特征在于,所述根据节点间的路径权重分布关系,确定所述目标相似权重对应的目标相似概率,包括:基于节点间的路径权重分布关系,获取所述第一数据节点与第三数据节点之间的一阶路径权重,所述第三数据节点为与所述第一数据节点相邻连接的任意一个数据节点;对所述一阶路径权重进行求和,得到目标路径权重值;根据所述目标相似权重与所述目标路径权重值之间的比值,确定所述第一数据节点与所述第二数据节点之间的目标相似概率。5.根据权利要求1

4任一项所述的方法,其特征在于,所述第一数据节点与所述第二数据节点之间还包含一阶路径关系,则所述根据所述多阶路径关系对应的多个路径权重,计
算所述第一数据节点与所述第二数据节点之间的目标相似权重之后,还包括:获取所述一阶路径关系对应的一阶路径的目标一阶相似权重;将所述目标相似权重与所述目标一阶相似权重进行融合,并根据融合结果对所述目标相似权重进行更新,得到更新后的目标相似权重;则所述根据所述目标相似权重确定所述第一数据节点与所述第二数据节点之间的目标相似概率,包括:根据所述更新后的目标相似权重确定所述第一数据节点与所述第二数据节点之间的目标相似概率。6.根据权利要求5所述的方法,其特征在于,所述将所述目标相似权重与所述目标一阶相似权重进行融合,包括:确定所述一阶路径关系对应的第一融合权重,并根据所述第一融合权重确定所述目标一阶相似权重对应的一阶融合权重;确定所述二阶路径关系对应的第二融合权重,并根据所述第二融合权重确定所述目标相似权重对应的二阶融合权重;...

【专利技术属性】
技术研发人员:陈信欢李友焕
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1