一种标签预测方法、装置、设备及存储介质制造方法及图纸

技术编号:40417164 阅读:19 留言:0更新日期:2024-02-20 22:34
本申请实施例提供了一种标签预测方法、装置、设备及存储介质,涉及计算机技术领域,包括:获取当前时间窗口的待预测交易网络,待预测交易网络包含至少一个黑样本节点和多个未知节点,黑样本节点指标注有黑样本标签的交易节点,未知节点指没有标注样本标签的交易节点;从多个未知节点中划分出与黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签;通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值;基于获得的每个目标概率值,对相应未知节点标注相应的样本标签,实现了对样本数据的深层次挖掘,有效提高了标签预测的准确性。

【技术实现步骤摘要】

本申请实施例涉及计算机,尤其涉及一种标签预测方法、装置、设备及存储介质


技术介绍

1、当前,电信网络安全已成为社会痛点问题,如何通过数据挖掘方法,发现电信网络安全中存在的风险交易银行卡,及潜在的受害者用户,同时挖掘潜在的团伙化风险社群已成为热点议题。在风险侦测等场景中,普遍存在黑名单样本难以利用,新场景样本标签稀缺的情况下难以侦测的问题。

2、针对样本标签稀缺的问题,相关技术下,基于未标记政策语料库对wobert进行连续的预训练,获得政策领域专用的语言模型。利用政策领域专用的语言模型,从未标记政策语料库中学习与标签名称语义相关的种子词,并为每个类别种子词构建种子词汇表,利用种子词汇表中的类别种子词信息,为未标记的政策生成伪标签,并将带有伪标签的政策添加到伪训练集中,利用伪训练集对政策领域专用的语言模型进行训练,再利用训练好的政策领域专用的语言模型为政策进行编码操作,完成多标签政策分类。

3、上述基于机器学习算法框架的分类和聚类计算算法,主要是针对文本等非结构化信息的采样处理提出算法模型。然而,在风险侦测等场景中,数据样本标签分布不本文档来自技高网...

【技术保护点】

1.一种标签预测方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值,包括:

3.如权利要求1所述的方法,其特征在于,所述从所述多个未知节点中划分出与所述黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签之后,还包括:

4.如权利要求3所述的方法,其特征在于,所述获取前一个时间窗口的历史交易网络,以及所述历史交易网络中各个交易节点的样本标签,包括:

5.如权利要求1所述的方法,其特征在于,...

【技术特征摘要】

1.一种标签预测方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值,包括:

3.如权利要求1所述的方法,其特征在于,所述从所述多个未知节点中划分出与所述黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签之后,还包括:

4.如权利要求3所述的方法,其特征在于,所述获取前一个时间窗口的历史交易网络,以及所述历史交易网络中各个交易节点的样本标签,包括:

5.如权利要求1所述的方法,其特征在于,所述基于获得的每个目标概率值,对相应未知节点标注相应的样本标签之后,还包括:

6.如权利要求1...

【专利技术属性】
技术研发人员:顾河建汤韬赵金涛高鹏飞杨燕明郑建宾
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1