基于集成学习的多标签不平衡虚拟资产数据分类方法技术

技术编号:14056238 阅读:95 留言:0更新日期:2016-11-27 01:35
本发明专利技术公开了一种基于集成学习的多标签不平衡虚拟资产数据分类方法,包括以下步骤:在虚拟资产的分布式存储框架下,首先对虚拟资产数据进行有放回的随机抽样,之后,采用前馈神经网络对多标签数据进行学习,将标签之间的关联性隐含在训练好的神经网络连接权重中;与此同时,根据抽样数据中标签的分布情况选择使用SMOTE进行采样;最后,为提升分类器的泛化性能,采用集成学习法,将神经网络作为每一轮学习过程中的弱分类器;与现有技术相比,本发明专利技术以集成学习中的经典算法Bagging为框架,根据不平衡虚拟资产数据的特点,将前馈神经网络和SMOTE采样技术融合到集成学习框架中,可有效提高分类的精度。

【技术实现步骤摘要】

本技术属于网络与信息安全领域,涉及一种基于集成学习的多标签不平衡虚拟资产数据分类方法
技术介绍
互联网的迅猛发展为虚拟资产的产生及交易提供了广阔的平台,促进了网络交易的繁荣发展。但无论对于用户还是虚拟资产交易的提供商,都面临虚拟资产数据(包括虚拟资产商品信息、相关的虚拟资产交易数据以及虚拟资产操作日志等)庞杂的问题。对这些虚拟资产数据进行分类,可以帮助人们更好的管理并有效提高虚拟资产的使用效率。目前,我国已经开展了基于eID的网域空间虚拟资产管理与保全技术研究,实现对虚拟资产的规范统一管理。虚拟资产保全系统全面准确的记录了对虚拟资产商品本身以及与其相关的各种操作数据,但这些数据一方面种类多样,不同虚拟资产本身的信息各异,用户的操作行为模式更是千差万别,对这些虚拟资产数据进行分类面临诸多难题。此外,不同类别之间的虚拟资产数据量差别较大,如异常交易数据通常大大少于正常交易数据,而异常交易数据有多种可能的情形,如交易时间异常、交易金额异常以及交易频率异常等等。不同的异常可能会同时存在,即一条虚拟资产数据可能会属于多个类别或者被打上多个标签。针对多标签且类别之间数据量不平衡的情况,对虚拟资产数据进行分类面临诸多挑战。传统的分类问题中,每个样本只属于某一个类别或只有一个标签,属于单
标签学习问题。然而,如前所述,在虚拟资产数据中很多样本同时属于多个类别。可以将这类问题归结为多标签学习问题。其形式化定义为,假定数据集D={x1,x2,L,xn
基于集成学习的多标签不平衡虚拟资产数据分类方法

【技术保护点】
一种基于集成学习的多标签不平衡虚拟资产数据分类方法,其特征在于,包括以下步骤:虚拟资产数据存储架构的描述和多标签不平衡虚拟资产数据的处理和分类器的构建;其中多标签不平衡虚拟资产数据的处理和分类器的构建步骤包括:采用神经网络进行训练学习,并结合集成学习法,将神经网络作为每一轮学习过程中的弱分类器;与此同时,在集成学习的每一轮根据不同类别数据之间的不平衡比对数据进行采样。

【技术特征摘要】
1.一种基于集成学习的多标签不平衡虚拟资产数据分类方法,其特征在于,包括以下步骤:虚拟资产数据存储架构的描述和多标签不平衡虚拟资产数据的处理和分类器的构建;其中多标签不平衡虚拟资产数据的处理和分类器的构建步骤包括:采用神经网络进行训练学习,并结合集成学习法,将神经网络作为每一轮学习过程中的弱分类器;与此同时,在集成学习的每一轮根据不同类别数据之间的不平衡比对数据进行采样。2.根据权利要求1所述的基于集成学习的多标签不平衡虚拟资产数据分类方法,其特征在于,所述的多标签不平衡虚拟资产数据的处理和分类器的构建步骤包括:步骤一、前馈神经网络;步骤二、SMOTE采样法;步骤三、多标签不平衡数据集成学习。3.根据权利要求2所述的分类器构建,在所述的多标签不平衡数据集成学习步骤中,其特征在于,包括以下步骤:1)给定训练样本集合S后,通过多次随机放回采样后,每次从训练样本集合中抽取得到一个样本组成一个训练子集S’;2)统计训练子集中各标签的出现频率,依次计算各标签频率和最大频率之间的比值:如果该比值超过标签频率之间的最小比例阈值,则对包含各标签的样本进行过采样;如果某标签的出现频率为1,即包含该标签的样本数为1,则使用简单复制策略,得到复制集合;如果出现频率大于1,则采用SMOTE法对包含该
\t标签的样本进行采样,得到采样集合S′;最终将原始训练样...

【专利技术属性】
技术研发人员:李虎贾焰韩伟红李树栋李爱平周斌杨树强黄九鸣全拥邓璐朱伟辉傅翔
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1