模型训练和目标群体识别方法、装置、终端及存储介质制造方法及图纸

技术编号:36066570 阅读:9 留言:0更新日期:2022-12-24 10:33
本发明专利技术提供了模型训练和目标群体识别方法、装置、终端及存储介质,网络模型训练方法包括获取训练样本集;通过构建的初始神经网络模型对第一样本关系图和第二样本关系图分别进行特征提取,预测得到第一样本关系图中各节点分别对应的第一特征信息和第二样本关系图中各节点分别对应的第二特征信息;第一样本关系图中的节点和第二样本关系图中的节点组成的节点对,基于节点对中两个节点分别对应的第一特征信息和第二特征信息构建损失函数;基于损失函数对初始神经网络模型进行迭代训练,得到图对比学习网络。图对比学习网络考虑了关系图的拓扑结构和节点属性,提取到群体中各目标对应的具有更丰富的语义信息的特征向量,提高目标群体识别的准确率。标群体识别的准确率。标群体识别的准确率。

【技术实现步骤摘要】
模型训练和目标群体识别方法、装置、终端及存储介质


[0001]本专利技术涉及机器学习
,特别是涉及一种模型训练和目标群体识别方法、装置、终端及计算机可读存储介质。

技术介绍

[0002]目前,目标群体识别的主要技术路线是先基于目标人群的关系图谱进行聚类,然后利用业务经验从聚类中找出可疑的目标群体。其中,聚类的质量在很大程度上决定了目标群体识别的准确率。传统方法采用社区发现算法对关系图谱进行聚类,然而由于缺乏对节点属性的考虑,导致聚类质量不佳。基于深度学习的方法需要大量的标注数据,然而数据标注费时费力。此外,与正常数据相比特定的目标群体数据本身数量比较少,导致深度学习模型性能低下。

技术实现思路

[0003]本专利技术主要解决的技术问题是提供一种模型训练和目标群体识别方法、装置、终端及计算机可读存储介质,解决现有技术中目标群体识别的准确率低的问题。
[0004]为解决上述技术问题,本专利技术采用的第一个技术方案是:提供一种网络模型训练方法,网络模型训练方法包括:获取训练样本集,训练样本集包括多个第一样本关系图和多个第二样本关系图,第一样本关系图和第二样本关系图对应为同一群体的群体关系图;群体关系图包括多个节点和节点之间的边;群体包含的目标作为节点,目标之间的关联关系作为节点之间的边;通过构建的初始神经网络模型对第一样本关系图和第二样本关系图分别进行特征提取,预测得到第一样本关系图中各节点分别对应的第一特征信息和第二样本关系图中各节点分别对应的第二特征信息;第一样本关系图中的节点和第二样本关系图中的节点组成的节点对,基于节点对中两个节点分别对应的第一特征信息和第二特征信息构建损失函数;基于损失函数对初始神经网络模型进行迭代训练,得到图对比学习网络。
[0005]其中,获取训练样本集,训练样本集包括多个第一样本关系图和多个第二样本关系图,第一样本关系图和第二样本关系图为同一群体的群体关系图;群体关系图包括多个节点和节点之间的边;群体包含的目标作为节点,目标之间的关联关系作为节点之间的边,包括:获取各群体对应的群体关系图;根据结构增强方法和属性增强方法对群体关系图依次进行数据增强处理;得到群体关系图对应的第一样本关系图和第二样本关系图;多个群体分别对应的第一样本关系图和第二样本关系图组成训练样本集。
[0006]其中,根据结构增强方法和属性增强方法对群体关系图依次进行数据增强处理;得到群体关系图对应的第一样本关系图和第二样本关系图,包括:分别通过删除群体关系图中的任意边、删除群体关系图中的任意节点或提取群体关系图中的局部关系图,得到群体关系图对应的两个结构增强图;分别遮挡两个结构增强图中的节点的任意属性信息,得到群体关系图对应的第一样本关系图和第二样本关系图。
[0007]其中,基于节点对中两个节点分别对应的第一特征信息和第二特征信息构建损失
函数,包括:损失函数如公式1所示:
[0008][0009]其中,基于节点对中两个节点分别对应的第一特征信息和第二特征信息构建损失函数,包括:公式1中的l(u
i
,v
i
)通过公式2得到:
[0010][0011]其中,sim表示求两节点的特征向量的余弦相似性,τ为温度系数, N为第一样本关系图和第二样本关系图的节点数量。
[0012]其中,通过构建的初始神经网络模型对第一样本关系图和第二样本关系图分别进行特征提取,预测得到第一样本关系图中各节点分别对应的第一特征信息和第二样本关系图中各节点分别对应的第二特征信息,之前包括:构建初始神经网络模型;其中,初始神经网络模型包括依次级联的初始特征提取模块和初始多层神经网络模块。
[0013]其中,通过初始神经网络模型对第一样本关系图和第二样本关系图分别进行特征提取,预测得到第一样本关系图中各节点分别对应的第一特征信息和第二样本关系图中各节点分别对应的第二特征信息,包括:通过初始特征提取模块对第一样本关系图和第二样本关系图分别进行特征提取,预测得到第一样本关系图中各节点分别对应的初始第一特征信息和第二样本关系图中各节点分别的对应的初始第二特征信息;通过初始多层神经网络模块对第一样本关系图中各节点分别对应的初始第一特征信息和第二样本关系图中各节点分别的对应的初始第二特征信息分别进行非线性变换,得到第一样本关系图中各节点分别对应的第一特征信息和第二样本关系图中各节点分别对应的第二特征信息;第一特征信息和第二特征信息分别包括对应节点的图结构特征向量和节点的属性特征向量。
[0014]其中,基于损失函数对初始神经网络模型进行迭代训练,得到图对比学习网络,包括:基于损失函数对初始特征提取模型和初始多层神经网络模块中的参数进行修正,得到特征提取模型和多层神经网络模块;去除多层神经网络模块,保留特征提取模型作为图对比学习网络。
[0015]其中,初始特征提取模块包括GCN编码器;通过初始特征提取模块对第一样本关系图和第二样本关系图分别进行特征提取,预测得到第一样本关系图中各节点分别对应的初始第一特征信息和第二样本关系图中各节点分别的对应的初始第二特征信息,包括:基于公式3计算得到初始第一特征信息和初始第二特征信息;
[0016][0017]公式3中:i表示GCN的第i层,ReLU是非线性激活函数,H
i
为第i层输出的节点特征矩阵,H0为属性信息矩阵;A是GCN 的输入图的邻接矩阵,I
N
为矩阵对角线上的值为1而其余值为0;W
i
是 GCN的第i层参数。
[0018]为解决上述技术问题,本专利技术采用的第二个技术方案是:提供一种目标群体识别方法,目标群体识别方法包括:基于获取的待识别群体中各目标对象的基础信息,构建待识别群体对应的待识别关系图;通过图对比学习网络对待识别关系图进行特征提取,得到待
识别关系图中各目标对象的图结构特征和目标对象的属性特征;图对比学习网络通过上述的网络模型训练方法得到;根据目标对象的图结构特征和属性特征,确定待识别群体对应的目标群体识别结果。
[0019]其中,基于获取的待识别群体中各目标对象的基础信息,构建待识别群体对应的待识别关系图,包括:在预设数据库中获取各目标对象的基础信息;其中,基础信息包括各目标对象之间的关联关系和各目标对象的属性信息;基于各目标对象之间的关联关系,确定待识别群体对应的待识别关系图。
[0020]其中,根据目标对象的图结构特征和属性特征,确定待识别群体对应的目标群体识别结果,包括:根据目标对象的图结构特征和属性特征,对目标对象进行聚类,得到至少一个目标群体候选集;基于目标群体候选集包含的目标对象之间的连接紧密度、关系亲密度和目标对象的属性特征,确定目标群体候选集对应的评估值;响应于目标群体候选集的评估值大于预设评估值,则判定评估值对应的目标群体候选集为目标群体。
[0021]其中,基于目标群体候选集包含的目标对象之间的连接紧密度、关系亲密度和目标对象的属性特征,确定目标群体候选集对应的评估值,包括:基于公式4本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络模型训练方法,其特征在于,所述训练方法包括:获取训练样本集,所述训练样本集包括多个第一样本关系图和多个第二样本关系图,所述第一样本关系图和所述第二样本关系图对应为同一群体的群体关系图;所述群体关系图包括多个节点和所述节点之间的边;所述群体包含的目标作为所述节点,所述目标之间的关联关系作为所述节点之间的边;通过构建的初始神经网络模型对所述第一样本关系图和所述第二样本关系图分别进行特征提取,预测得到所述第一样本关系图中各节点分别对应的第一特征信息和所述第二样本关系图中各节点分别对应的第二特征信息;所述第一样本关系图中的所述节点和所述第二样本关系图中的所述节点组成的节点对,基于所述节点对中两个所述节点分别对应的所述第一特征信息和所述第二特征信息构建损失函数;基于所述损失函数对所述初始神经网络模型进行迭代训练,得到图对比学习网络。2.根据权利要求1所述的网络模型训练方法,其特征在于,所述获取训练样本集,所述训练样本集包括多个第一样本关系图和多个第二样本关系图,所述第一样本关系图和所述第二样本关系图为同一群体的群体关系图;所述群体关系图包括多个节点和所述节点之间的边;所述群体包含的目标作为所述节点,所述目标之间的关联关系作为所述节点之间的边,包括:获取各群体对应的群体关系图;根据结构增强方法和属性增强方法对所述群体关系图依次进行数据增强处理;得到所述群体关系图对应的第一样本关系图和第二样本关系图;多个所述群体分别对应的所述第一样本关系图和所述第二样本关系图组成所述训练样本集。3.根据权利要求2所述的网络模型训练方法,其特征在于,所述根据结构增强方法和属性增强方法对所述群体关系图依次进行数据增强处理;得到所述群体关系图对应的第一样本关系图和第二样本关系图,包括:分别通过删除所述群体关系图中的任意边、删除所述群体关系图中的任意节点或提取所述群体关系图中的局部关系图,得到所述群体关系图对应的两个结构增强图;分别遮挡两个所述结构增强图中的所述节点的任意属性信息,得到所述群体关系图对应的所述第一样本关系图和所述第二样本关系图。4.根据权利要求1所述的网络模型训练方法,其特征在于,所述基于所述节点对中两个所述节点分别对应的所述第一特征信息和所述第二特征信息构建损失函数,包括:所述损失函数如公式1所示:。5.根据权利要求4所述的网络模型训练方法,其特征在于,所述基于所述节点对中两个所述节点分别对应的所述第一特征信息和所述第二特征信息构建损失函数,包括:公式1中的l(u
i
,v
i
)通过公式2得到:
其中,sim表示求两节点的特征向量的余弦相似性,τ为温度系数,N为所述第一样本关系图和所述第二样本关系图的节点数量。6.根据权利要求1所述的网络模型训练方法,其特征在于,所述通过构建的初始神经网络模型对所述第一样本关系图和所述第二样本关系图分别进行特征提取,预测得到所述第一样本关系图中各节点分别对应的第一特征信息和所述第二样本关系图中各节点分别对应的第二特征信息,之前包括:构建所述初始神经网络模型;其中,所述初始神经网络模型包括依次级联的初始特征提取模块和初始多层神经网络模块。7.根据权利要求6所述的网络模型训练方法,其特征在于,所述通过初始神经网络模型对所述第一样本关系图和所述第二样本关系图分别进行特征提取,预测得到所述第一样本关系图中各节点分别对应的第一特征信息和所述第二样本关系图中各节点分别对应的第二特征信息,包括:通过所述初始特征提取模块对所述第一样本关系图和所述第二样本关系图分别进行特征提取,预测得到所述第一样本关系图中各所述节点分别对应的初始第一特征信息和所述第二样本关系图中各所述节点分别的对应的初始第二特征信息;通过所述初始多层神经网络模块对所述第一样本关系图中各所述节点分别对应的所述初始第一特征信息和所述第二样本关系图中各所述节点分别的对应的所述初始第二特征信息分别进行非线性变换,得到所述第一样本关系图中各所述节点分别对应的所述第一特征信息和所述第二样本关系图中各节点分别对应的所述第二特征信息;所述第一特征信息和所述第二特征信息分别包括对应所述节点的图结构特征向量和所述节点的属性特征向量。8.根据权利要求1所述的网络模型训练方法,其特征在于,所述基于所述损失函数对所述初始神经网络模型进行迭代训练,得到图对比学习网络,包括:基于所述损失函数对所述初始特征提取模型和所述初始多层神经网络模块中的参数进行修正,得到特征提取模型和多层神经网络模块;去除所述多层神经网络模块,保留所述特征提取模型作为所述图对比学习网络。9.根据权利要求1所述的网络模型训练方法,其特征在于,所述初始特征提取模块包括GCN编码器;所述通过所述初始特征提取模块对所述第一样本关系图和所述第二样本关系图分别进行特征提取,预测得到所述第一样本关系图中各所述节点分别对应的初始第一特征信息和所述第二样本关系图中各所述节点分别的对应...

【专利技术属性】
技术研发人员:毛廷运刘伟棠陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1