A sparse data processing method based on regularization and data augmentation, which processes data with different characteristics, classifies the sparse data to be processed according to attribute information, and then processes it with regularization and data augmentation after classification. According to whether the attributes in the dataset can be deleted, the data to be processed can be divided into two types. In order to prevent the final result from falling into the state of over fitting, a regularization algorithm is used to deal with the attribute which can not be deleted and a regularization term is added to the objective function. For a class of attributes that can be deleted, the algorithm of data augmentation is used to deal with them. First, the key position is found, and then the track is flipped, cropped, and partially enlarged based on the key position to expand the data, which can ensure that the availability of data will not decline. Make the data meet the service requirements, have good generalization performance, and provide data support for further work.
【技术实现步骤摘要】
一种基于正则化与数据增广的稀疏数据处理方法
本专利技术属于计算机信息安全
,涉及位置信息处理,机器学习正则化算法,具体涉及一种基于正则化与数据增广的稀疏数据处理方法。
技术介绍
在信息化大数据时代,数据的处理问题需要耗费极大的物力人力资源。面对庞大的数据,涌现出一大批解决问题的方法,近年来机器学习的方法展现出了强大的能力。机器学习的方法能够从庞大的数据集中挖掘出有效信息,并针对有效信息进行相应处理。但是在实际工作中,不可避免会出现一些数据稀疏的情况,例如,在位置信息的采集过程中,某一时段可能会出现设备故障,信号缺失等一系列问题导致最终采集到的数据不足以支撑学习的要求。在这样的情况下,采集到的数据量大大减少,不足以支撑机器学习的运行条件或运行结果缺乏可扩展性。这样的情况导致不能达到使用机器学习进行数据处理的目的,故这样的情况我们需要尽量避免。虽然我们希望尽量避免这种情况的发生,但是一旦出现这种问题,需要使用有效方法来解决这些问题。正则化方法是在训练数据不够多产生过拟合时,向原始模型引入额外信息,以便防止过拟合和提 ...
【技术保护点】
1.一种基于正则化与数据增广的稀疏数据处理方法,其特征在于,包括以下步骤:/n1)针对实验所需的具体的数据集如轨迹数据集,在这样的数据集中由于数据采集条件的限制,会产生不符合处理要求的样本,找出需要进行处理的稀疏数据;/n2)对步骤1)的稀疏数据,查询稀疏数据的基本属性,并根据基本属性进行分类,分类标准为基本属性中是否存在可删减属性,所述的可删减属性包括社交账号、身高、体重;/n3)将步骤2)中分类好的数据采用下述a、b两种方法进行处理:/na、若数据集基本属性无法进行删减,对其使用机器学习中的正则化算法,即通过加入正则项来防止数据过拟合;/n①由于存在大量基本属性,需要在 ...
【技术特征摘要】
1.一种基于正则化与数据增广的稀疏数据处理方法,其特征在于,包括以下步骤:
1)针对实验所需的具体的数据集如轨迹数据集,在这样的数据集中由于数据采集条件的限制,会产生不符合处理要求的样本,找出需要进行处理的稀疏数据;
2)对步骤1)的稀疏数据,查询稀疏数据的基本属性,并根据基本属性进行分类,分类标准为基本属性中是否存在可删减属性,所述的可删减属性包括社交账号、身高、体重;
3)将步骤2)中分类好的数据采用下述a、b两种方法进行处理:
a、若数据集基本属性无法进行删减,对其使用机器学习中的正则化算法,即通过加入正则项来防止数据过拟合;
①由于存在大量基本属性,需要在数据处理过程即代价函数计算过程中加入正则化项此时,代价函数如下:
其中C0为原始代价函数;n为数据集中样本数量;λ是正则项系数,用来权衡正则项与C0项的比重;
②做出上述...
【专利技术属性】
技术研发人员:王海,任哲,冯通,秦晨光,蒋阳,高岭,郑杰,杨旭东,
申请(专利权)人:西北大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。