多标签处理任务训练样本构建方法、设备及介质技术

技术编号:26651244 阅读:31 留言:0更新日期:2020-12-09 00:52
本发明专利技术公开了一种多标签处理任务训练样本构建方法、设备及介质,该方法包括:获取样本数据在多个预设类别上的真实概率分布,并确定其预测概率分布;根据两者确定样本数据在多个预设类别上的损失列表;对损失列表进行掩码过滤,得到掩码概率分布,并根据掩码概率分布和真实概率分布,确定掩码列表;根据掩码列表和损失列表,确定样本数据的多个正向类别损失和多个负向类别损失,并根据两者确定样本数据在多个预设类别中归属的多个正向类别和多个负向类别;进而分别构建多个预设类别的正负向样本。本发明专利技术通过构建多个预设类别上的正负向样本,使得多标签分类任务中各预设类别均包含多项正负向样本,有利于各预设类别之间样本数据的均衡。

【技术实现步骤摘要】
多标签处理任务训练样本构建方法、设备及介质
本专利技术涉及金融科技(Fintech)
,尤其涉及一种多标签处理任务训练样本构建方法、设备及介质。
技术介绍
随着金融科技(Fintech),尤其是互联网科技金融的不断发展,越来越多的技术(如人工智能、大数据、云存储等)应用在金融领域,但金融领域也对各类技术提出了更高的要求,如要求人工智能中的样本数据更为均衡。目前,对于多标签分类任务,直接将收集到的各类别数据,作为多标签分类任务的样本数据,但不同类别所收集的数据数量通常难以均衡,对于涉及隐私、或者冷门的类别所收集的数据数量较少,而对于热门的类别所收集的数量数量则较多。如此一来,在依据不均衡样本执行多标签分类任务时,样本数量少的类别的准确率低。因此,在多标签分类任务中,如何构建均衡的样本,以确保多标签分类任务的准确性,是当前亟待解决的技术问题。
技术实现思路
本专利技术的主要目的在于提供一种多标签处理任务训练样本构建方法、装置、系统及介质,旨在解决现有技术在多标签分类任务中,如何构建均衡的样本的技术问题。...

【技术保护点】
1.一种多标签处理任务训练样本构建方法,其特征在于,所述多标签处理任务训练样本构建方法包括以下步骤:/n获取样本数据在多个预设类别上的真实概率分布,并确定所述样本数据在多个预设类别上的预测概率分布;/n根据所述真实概率分布和所述预测概率分布,确定所述样本数据在多个预设类别上的损失列表;/n对所述损失列表进行掩码过滤,得到掩码概率分布,并根据所述掩码概率分布和所述真实概率分布,确定掩码列表;/n根据所述掩码列表和所述损失列表,确定所述样本数据的多个正向类别损失和多个负向类别损失,并根据多个所述正向类别损失和多个所述负向类别损失,确定所述样本数据在多个预设类别中归属的多个正向类别和多个负向类别;/...

【技术特征摘要】
1.一种多标签处理任务训练样本构建方法,其特征在于,所述多标签处理任务训练样本构建方法包括以下步骤:
获取样本数据在多个预设类别上的真实概率分布,并确定所述样本数据在多个预设类别上的预测概率分布;
根据所述真实概率分布和所述预测概率分布,确定所述样本数据在多个预设类别上的损失列表;
对所述损失列表进行掩码过滤,得到掩码概率分布,并根据所述掩码概率分布和所述真实概率分布,确定掩码列表;
根据所述掩码列表和所述损失列表,确定所述样本数据的多个正向类别损失和多个负向类别损失,并根据多个所述正向类别损失和多个所述负向类别损失,确定所述样本数据在多个预设类别中归属的多个正向类别和多个负向类别;
根据多个所述正向类别和多个所述负向类别,分别构建多个预设类别的正负向样本,以基于多个预设类别的正负向样本生成多标签分类模型进行多标签分类。


2.如权利要求1所述的多标签处理任务训练样本构建方法,其特征在于,所述根据多个所述正向类别和多个所述负向类别,分别构建多个预设类别的正负向样本的步骤之后,所述方法还包括:
基于多个所述预设类别的正负项样本,对预设多标签模型进行训练,生成多标签分类模型;
当接收到待分类数据时,基于所述多标签分类模型对所述待分类数据进行多标签分类,确定所述待分类数据所归属的多个标签类别。


3.如权利要求1所述的多标签处理任务训练样本构建方法,其特征在于,所述对所述损失列表进行掩码过滤,得到掩码概率分布的步骤包括:
基于预设参数,对所述真实概率分布进行掩码处理,获得掩码参数;
根据所述掩码参数,对所述损失列表进行过滤,获得所述掩码概率分布。


4.如权利要求1所述的多标签处理任务训练样本构建方法,其特征在于,所述根据所述掩码概率分布和所述真实概率分布,确定掩码列表的步骤包括:
对所述掩码概率分布中的各数值进行排序,获得掩码概率序列,并从所述掩码概率序列中选取出排列在前预设位的目标概率;
确定各所述目标概率在所述损失列表中的排列位置,并根据所述排列位置,对所述掩码概率分布进行更新;
将更新后的所述掩码概率分布和所述真实概率分布进行加和运算,生成掩码列表。


5.如权利要求4所述的多标签处理任务训练样本构建方法,其特征在于,所述根据所述掩码列表和所述损失列表,确定所述样本数据的多个正向类别损失和多个负向类别损失的步骤包括:
对所述掩码列表和更...

【专利技术属性】
技术研发人员:张超吴海山殷磊
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1