【技术实现步骤摘要】
一种模型训练方法、装置及电子设备
[0001]本公开涉及计算机
,尤其涉及深度学习领域,具体涉及一种模型训练方法、装置及电子设备。
技术介绍
[0002]图结构是一种用节点和边表示相互关系的数学模型。现实中,图结构可广泛应用于社交网络、单词共存网络和通信网络等场景中。通过对图结构进行分析,可以深入了解社会结构、语言和不同的交流模式,因此,图一直是学界研究的热点。
[0003]然而,在实际应用中,在训练图结构对应的图嵌入模型时,需要对训练样本进行标注,而通常训练样本包括无标签样本和标签样本,而无标签数据占比多,因此,需要对无标签数据进行标注。现有技术,通过人工标注的方式对无标签数据进行标注,该方式增加了标注人员的工作量,而且,人工标注还会存在标注错误的问题。
[0004]由此可见,采用现有的标注方式标注后的训练样本降低了模型训练的精度,进而降低了模型分析数据的准确度。
技术实现思路
[0005]本公开提供了一种用于模型训练方法、装置以及电子设备。
[0006]根据本公开的一方面,提供了一种模型训练方法,包括:获取标签样本和无标签样本,并基于标签样本对无标签样本进行标记,得到标记后的无标签样本;对标签样本和标记后的无标签样本进行组合处理,得到初始标签样本;基于初始标签样本中多个样本数据之间的样本距离,以及不同标签类型的样本数据之间的权重比值,计算得到半监督损失函数的损失值;更新权重比值,并基于更新后的权重比值更新初始标签样本,直至损失值小于预设数值时,基于更新后的初始标签样本 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,包括:获取标签样本和无标签样本,并基于所述标签样本对所述无标签样本进行标记,得到标记后的无标签样本;对所述标签样本和标记后的无标签样本进行组合处理,得到初始标签样本;基于所述初始标签样本中多个样本数据之间的样本距离,以及不同标签类型的样本数据之间的权重比值,计算得到半监督损失函数的损失值;更新所述权重比值,并基于更新后的权重比值更新所述初始标签样本,直至所述损失值小于预设数值时,基于更新后的初始标签样本得到目标标签样本;基于所述目标标签样本对预设模型进行训练,得到图嵌入模型,其中,所述图嵌入模型用于确定待分析对象的图嵌入特征,所述图嵌入特征表征所述待分析对象的风险程度。2.根据权利要求1所述的方法,其中,基于所述标签样本对所述无标签样本进行标记,得到标记后的无标签样本,包括:计算所述无标签样本中的至少一个样本数据与所述标签样本中的至少一个样本数据的标签相似度;基于所述标签相似度对所述无标签样本中的样本数据进行标记,得到所述标记后的无标签样本。3.根据权利要求1所述的方法,所述方法还包括:计算所述初始标签样本中具有相同标签的样本数据之间的平均距离,得到第一平均距离;计算所述初始标签样本中具有不同标签的样本数据之间的平均距离,得到第二平均距离;基于所述第一平均距离和所述第二平均距离得到所述样本距离。4.根据权利要求3所述的方法,所述初始标签样本的标签类型至少包括正样本类型和负样本类型,所述方法还包括:获取所述初始标签样本中,所述标签类型为所述正样本类型的样本数据的数量,得到第一样本数量;获取所述初始标签样本中,所述标签类型为所述负样本类型的样本数据的数量,得到第二样本数量;计算所述第二样本数量与所述第一样本数量之间的比值,得到所述权重比值。5.根据权利要求3所述的方法,其中,基于所述初始标签样本中多个样本数据之间的样本距离,以及不同标签类型的样本数据之间的权重比值,计算得到半监督损失函数的损失值,包括:计算所述第一平均距离与所述第二平均距离的比值,得到目标平均距离;计算所述权重比值与所述目标平均距离之间的乘积,得到所述损失值。6.根据权利要求3所述的方法,其中,更新所述权重比值,并基于更新后的权重比值更新所述初始标签样本,包括:更新所述权重比值,得到所述更新后的权重比值;基于所述更新后的权重比值调整所述标记后的无标签样本中的样本数据所对应的标签,得到更新后的无标签样本;
基于所述更新后的无标签样本对所述初始标签样本进行更新,得到所述目标标签样本。7.根据权利要求1所述的方法,所述方法还包括:获取所述待分析对象的对象信息;基于所述图嵌入模型对所述对象信息进行分析,确定所述待分析对象所对应的图嵌入特征,其中,所述图嵌入模型由多个节点和多个边组成,所述多个边连接在所述多个节点之间,所述多个节点存储有多个对象的特征信息,所述多个边表征了所述多个对象之间的关联关系;基于所述图嵌入特征确定所述待分析对象的对象类型,其中,所述对象类型表征了所述待分析对象具有风险的程度。8.一种模型训练装置,包括:获取模块,用于获取标签样本和无标签样本,并基于所述标签样本对所述无标签样本进行标记,得到标记后的无标签样本;组合模块,用于对所述标签样本和标记后的无标签样本进行组合处理,得到初始标签样本;计算模块,用于基于所述初始标签样本中多个样本数据之间的样本距离,以及不同标签类型的样本数据之间的权重比值,计算得到...
【专利技术属性】
技术研发人员:许林丰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。