基于衰减权重的数据分类方法技术

技术编号：21089551 阅读：46 留言：0更新日期：2019-05-11 09:57

本发明专利技术公开了一种基于衰减权重的数据分类方法，本发明专利技术主要解决现有传统的分类方法只能接受数值类型的数据集，忽略数据本身的时间特性，容易过拟合，分类准确率不高的问题。其实现步骤是：1、获取训练样本和预测样本；2、清洗数据；3、生成类型转化数据集；4、标准化处理；5、生成训练集和预测集；6、计算训练集中每个样本的衰减权重；7、利用特征选择方法训练极限梯度增强XGBoost的多分类器；8、对预测集中每个样本进行分类。本发明专利技术利用数据本身的时间特性信息赋予样本衰减权重，能够接受更多类型的数据，有效地提高了分类的准确率，可应用于复杂多变的业务场景下的数据分类。

Data Classification Method Based on Attenuation Weight

全部详细技术资料下载

【技术实现步骤摘要】
基于衰减权重的数据分类方法
本专利技术属于计算机
，更进一步涉及一种基于衰减权重的数据分类方法。本专利技术可用于对包含时间信息的数据，例如对生产流中不同时间采集的样本，进行预测分类。
技术介绍
分类属于有监督学习的范畴，可以从历史数据记录中把握规律从而推导出未来的数据的趋势，并进一步预测分类标号。数据分类具有广泛的应用，例如：缺陷检测、故障检测、信用卡系统的信用分级、图像识别等领域。分类的目的是学习一个分类器，用于把待分类的数据映射到某个特定类别中。同时在构建分类器之前还需要数据集，现实中很多用于生成数据集的数据包含了时间信息，例如用户购物信息、银行贷款信息、医院就诊信息等等，时间特性与数据紧密相连。人民搜索网络股份公司在其申请的专利文献“一种机器学习分类方法及装置”(申请号：201310384790.3公开号：CN1034260007B)中公开了一种普适的数据分类方法。该方法首先生成训练配置文件相关的数据格式定义、分类任务的任务参数等，然后对训练样本进行训练得到分类器模型，并根据分类拓补结构建立多级分类结构，接着将待分类数据导入分类器模型中，利用多级分类结...

【技术保护点】
1.一种基于衰减权重的数据分类方法，其特征在于，生成类型转化数据集，计算训练集中每个样本的衰减权重，利用特征选择方法训练极限梯度增强XGBoost的多分类器，该方法的步骤包括如下：(1)获取训练样本和预测样本：(1a)提取包含至少有两个类别且每个类别至少有一个样本的原始数据，组成初始训练集；并提取每个训练样本对应的标签数据；(1b)提取包含至少有一个类别且每个类别至少有一个样本的原始数据，组成初始预测集；(2)清洗数据：(2a)将初始训练集中每个训练样本和初始预测集中每个预测样本，按匹配列名合并成预处理数据集；(2b)去除数据集中全部为空值或超过90％为空值的列分量；(2c)去除数据集中取值全...

【技术特征摘要】
1.一种基于衰减权重的数据分类方法，其特征在于，生成类型转化数据集，计算训练集中每个样本的衰减权重，利用特征选择方法训练极限梯度增强XGBoost的多分类器，该方法的步骤包括如下：(1)获取训练样本和预测样本：(1a)提取包含至少有两个类别且每个类别至少有一个样本的原始数据，组成初始训练集；并提取每个训练样本对应的标签数据；(1b)提取包含至少有一个类别且每个类别至少有一个样本的原始数据，组成初始预测集；(2)清洗数据：(2a)将初始训练集中每个训练样本和初始预测集中每个预测样本，按匹配列名合并成预处理数据集；(2b)去除数据集中全部为空值或超过90％为空值的列分量；(2c)去除数据集中取值全部相同的列分量；(2d)去除数据集中冗余的列分量；(2e)去除数据集中数据无法数值化或离散化的列分量；(3)生成类型转化数据集：(3a)将清洗后的预处理数据集中每个列分量数据划分成五种类型：定性、客户地址、日期、手机号码和数值类型；(3b)采用类型转化法，将除数值类型外的其余四种类型的列分量数据，按类型转化为数值、离散整形或独热one-hot编码；(3c)将类型转化后的所有列分量中的每个元素和所有数值类型的列分量中的每个元素，按照其属性进行拼接，生成类型转化数据集；(4)标准化处理：利用零-均值标准化公式，计算类型转化数据集中每个训练样本和每个预测样本的每一维特征分量的标准化值，将所有训练样本和所有预测样本的全部特征分量组成标准化数据集；(5)生成训练集和预测集：将标准化数据集中的每个训练样本与其对应的标签进行合并，将合并后的所有训练样本组成训练集，将标准化数据集中的所有预测样本组成预测集；(6)计算训练集中每个样本的衰减权重：(6a)用训练集中每个样本业务流产生的时间减去训练集的生成时间，得到偏移时间差值；(6b)利用时间衰减公式，计算每个样本的衰减权重；(7)利用特征选择方法训练极限梯度增强XGBoost的多分类器：(7a)分别导入极限梯度增强XGBoost的数据集格式化函数、构造器函数、get_score函数；(7b)将训练集和训练集中所有样本的衰减权重，输入到极限梯度增强XGBoost的数据集格式化函数中，得到格式化好的训练集；(7c)设置交叉验证参数为0.3，迭代器类型参数为‘gbtree’，损失函数类型参数为‘multi:softprob’，最大树深度参数为4；(7d)将配置好的参数和格式化后的训练集，输入到极限梯度增强XGBoost的构造器函数中，得到训练好的多分类器；(7e)将多分类器中自身的所有特征，输入到极限梯度增强XGBoost的get_score函数中...

【专利技术属性】
技术研发人员：沈沛意，张亮，王嘉豪，朱光明，宋娟，张宇怀，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人