【技术实现步骤摘要】
数据增强方法、欺诈识别方法及装置
[0001]本公开涉及数据处理领域,特别是涉及一种数据增强方法、欺诈识别方法及装置。
技术介绍
[0002]机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即预测结果。
[0003]在利用样本数据训练分类模型时通常存在这样一种情况:由于某个类别的样本数据的获取比较困难,导致该类别的样本数据稀少,进而导致训练出准的分类模型的质量不高。
[0004]因此,需要一种能够对分类场景中某个类别的样本数据进行增强的方案,以解决该类别的样本数据存在的数据稀缺问题。
技术实现思路
[0005]本公开的一个目的是提供一种能够对分类场景中某个类别的样本数据进行增强的方案,以解决该类别的样本数据存在的数据稀缺问题。
[000 ...
【技术保护点】
【技术特征摘要】
1.一种数据增强方法,包括:将样本集划分为训练样本集和第一测试样本集,所述第一测试样本集包括标签属于第一类别的第一测试样本和标签不属于第一类别的第二测试样本;针对所述第一测试样本集中的所述第一测试样本,基于对抗生成网络模型生成相同数量个符合所述第一测试样本的数据分布特征的合成样本;将第一测试样本集中的所述第一测试样本替换为所述合成样本,得到第二测试样本集;使用基于所述训练样本集训练得到的分类模型分别对所述第一测试样本集和所述第二测试样本集进行预测,得到所述第一测试样本集的第一预测结果和所述第二测试样本集的第二预测结果;基于所述第一预测结果和所述第二预测结果,从所述第二测试样本集中选取合成样本。2.根据权利要求1所述的方法,其中,基于所述第一预测结果和所述第二预测结果从所述第二测试样本集中选取合成样本的步骤包括:基于所述第一预测结果评估所述分类模型对所述第一测试样本集中的所述第一测试样本和所述第二测试样本的第一区分能力;基于所述第二预测结果评估所述分类模型对所述第二测试样本集中的所述合成样本和所述第二测试样本的第二区分能力;基于所述第一区分能力和所述第二区分能力之间的差异,从所述第二测试样本集中选取合成样本。3.根据权利要求2所述的方法,其中,基于所述第一区分能力和所述第二区分能力之间的差异从所述第二测试样本集中选取合成样本的步骤包括:若所述第二区分能力大于或等于所述第一区分能力,则选取所述第二测试样本集中的所有合成样本;以及/或者若所述第二区分能力小于所述第一区分能力,则从所述第二测试样本集中选取部分合成样本。4.根据权利要求1所述的方法,还包括:将选取的合成样本添加到所述样本集,并迭代执行划分样本集的步骤、生成合成样本的步骤、构造第二测试样本集的步骤、对所述第一测试样本集和所述第二测试样本集进行预测的步骤、选取合成样本的步骤以及将选取的合成样本添加到所述样本集的步骤。5.一种欺诈识别方法,包括:基于客户的转账交易数据构造预测样本;使用预先训练好的欺诈识别模型判断所述预测样本是否属于欺诈交易,其...
【专利技术属性】
技术研发人员:梁大卫,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。