【技术实现步骤摘要】
风险识别模型训练方法及装置
[0001]本申请涉及人工智能
,尤其涉及一种风险识别模型训练方法及装置。
技术介绍
[0002]随着技术的发展,电子设备接收到的数据可能是会给用户带来风险的数据,给用户造成损失。为了减轻用户的损失,可采用规则引擎和机器学习模型来识别这些风险。其中,对于机器学习模型,主要采用的是传统有监督算法、聚类算法和图挖掘算法。使用这些算法要依靠大量数据,但是由于大量数据都是无标签数据,只有少部分数据是有标签的,在这种情况下,传统有监督学习会受到极大的限制。所以针对这种情况,聚类算法和图挖掘算法开始广泛应用于各个场景中,但是由于聚类算法和图挖掘算法一般用于事后分析,具有滞后性,无法做到实时预测。
[0003]除此之外,还有自监督学习,即用有标签数据训练初始分类器,对无标签数据进行预测,将分类置信度较高的文本加入到有标签数据中,重新训练分类器。但该方法如果在早期存在错误标签,则会在迭代中逐渐被放大、导致错误累积。而添加对抗噪声或使用其它数据增强技术进行一致性训练,对无标签数据添加对抗噪声或对有标签 ...
【技术保护点】
【技术特征摘要】
1.一种风险识别模型训练方法,其特征在于,所述方法包括:获取第一无标签数据集,所述第一无标签数据集包括无标签数据;对所述无标签数据进行转换,生成多个待预测数据;利用标签生成模型对所述待预测数据进行预测,得到每个待预测数据对应的概率标签;将每个待预测数据对应的概率标签求权重平均得到所述无标签数据对应的概率标签;将所述无标签数据对应的概率标签添加至所述第一无标签数据集,生成第二无标签数据集;获取有标签数据集;利用所述有标签数据集和所述第二无标签数据集生成混合数据集;利用所述混合数据集对风险识别模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述利用所述混合数据集对风险识别模型进行训练,包括:从所述混合数据集中随机抽取两个样本;利用所述两个样本对风险识别模型进行训练;其中,若所述两个样本均来自于所述有标签数据集或分别来自于所述有标签数据集和所述第二无标签数据集,则训练目标函数为监督损失函数;若所述两个样本均来自于所述第二无标签数据集,则训练目标函数为一致性损失函数;利用所述监督损失函数和一致性损失函数计算得到风险识别模型损失函数。3.根据权利要求1所述的方法,其特征在于,所述对所述无标签数据进行转换,生成多个待预测数据,包括:通过随机打乱序列顺序的方式对所述无标签数据进行转换,生成多个待预测数据。4.根据权利要求1所述的方法,其特征在于,所述标签生成模型为基于熵最小化损失训练生成的模型。5.根据权利要求1所述的方法,其特征在于,所述风险识别模型为机器学习模型或深度学习模型。6.一种风险识别模型训练装置,其特征在于,所述装置包括:获取单元,用于获取第一无标签数据集,所述第一无标签数据集包括无标签数据;转换单元,用于对所述无标签数据进行转换,生成多个待预测数据;预测单元,用于利用标签生成模型对所述待预测数据...
【专利技术属性】
技术研发人员:郭翊麟,蔡准,孙悦,郭晓鹏,
申请(专利权)人:北京芯盾时代科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。