【技术实现步骤摘要】
基于大数据实现数据加工下的筛选方法及系统
[0001]本专利技术涉及数据处理领域,尤其涉及一种基于大数据实现数据加工下的筛选方法及系统
。
技术介绍
[0002]数据加工是指对原始数据进行处理,以便更好地满足特定需求或提高数据质量的过程,数据加工可以帮助组织更好地管理和利用数据,提高数据的质量和价值,从而为企业决策和业务发展提供支持和参考
。
[0003]目前数据加工下的筛选方法主要是通过构建原始数据的筛选规则,通过筛选规则对原始数据进行筛选得到需要的数据,由于数据属性的多样化,这种方法只能筛选出符合特定条件的数据,而忽略掉其他可能也有用的数据
。
这可能会导致筛选结果不够全面,无法反映数据的真实情况,从而导致目前数据加工下的筛选效果不佳
。
技术实现思路
[0004]本专利技术提供一种基于大数据实现数据加工下的筛选方法及系统,其主要目的在于提高对数据进行数据加工下的筛选效果
。
[0005]为实现上述目的,本专利技术提供的一种基于大数据实现数据 ...
【技术保护点】
【技术特征摘要】
1.
一种基于大数据实现数据加工下的筛选方法,其特征在于,所述方法包括:获取原始数据,对所述原始数据进行数据清洗,得到清洗原始数据,构建所述清洗原始数据的内置过滤函数,通过所述内置过滤函数对所述清洗原始数据进行过滤,得到过滤原始数据;确定所述过滤原始数据的数据属性,根据所述数据属性,对所述过滤原始数据进行分层采集,得到分层样本集;计算所述分层样本集的样本集信息熵,识别所述分层样本集的样本集特征,计算所述样本集特征的特征条件熵,通过所述样本集信息熵和所述特征条件熵,计算所述样本集特征的信息增益,通过所述信息增益,确定所述样本集特征的目标特征;通过所述分层样本集和所述目标特征,计算预设的神经网络模型的函数输出,基于所述函数输出,计算所述神经网络模型对应初始化神经网络模型的函数梯度值,通过所述函数梯度值,计算所述初始化神经网络模型的更新模型参数;当所述更新模型参数达到预设的最大迭代次数,生成所述初始化神经网络模型的更新神经网络模型,计算所述更新神经网络模型的召回率,当所述召回率符合要求时,利用所述更新神经网络模型筛选出所述分层样本集中的目标信息
。2.
如权利要求1所述的基于大数据实现数据加工下的筛选方法,其特征在于,所述对所述原始数据进行数据清洗,得到清洗原始数据,包括:识别所述原始数据中的无效数据;将所述无效数据进行去除,得到有效原始数据;检索所述有效原始数据中的异常数据;对所述异常数据进行数据替换,得到正常原始数据;识别所述正常原始数据的不一致化数据;根据所述不一致化数据,制定所述正常原始数据的数据清洗规则;通过所述数据清洗规则,对所述不一致化数据进行数据清洗,得到所述清洗原始数据
。3.
如权利要求1所述的基于大数据实现数据加工下的筛选方法,其特征在于,所述根据所述数据属性,对所述过滤原始数据进行分层采集,得到分层样本集,包括:根据所述数据属性,确定所述过滤原始数据的分层特征;通过所述分层特征,确定所述过滤原始数据的分层级数;标记所述分层级数对应层级的层级采样数量;基于所述分层级数和层级采样数量,对所述过滤原始数据进行分层采集,得到所述分层样本集
。4.
如权利要求1所述的基于大数据实现数据加工下的筛选方法,其特征在于,所述计算所述分层样本集的样本集信息熵,包括:确定所述分层样本集的类别标签;识别所述类别标签在所述分层样本集的类别样本数量;通过所述类别样本数量,计算所述类别标签在所述分层样本集的类别比例;通过所述类别比例,计算所述分层样本集的样本集信息熵
。5.
如权利要求4所述的基于大数据实现数据加工下的筛选方法,其特征在于,所述通过所述类别比例,计算所述分层样本集的样本集信息熵,包括:
通过所述类别比例,利用下述公式计算所述分层样本集的样本集信息熵:其中,表示初始信息熵,表示分层样本集对应第个类别标签的类别比例,表示特征数据集的数据数量,表示将概率取对数后以2为底的对数,表示分层样本集对应第个类别标签,表示概率函数
。6.
如权利要求1所述的基于大数据实现数据加工下的筛选方法,其特征在于,所述计算所述样本集特征的特征条件熵,包括:计算所述样本集特征的样本集特征值...
【专利技术属性】
技术研发人员:杨峰,王纪元,
申请(专利权)人:深圳市吾股大数据科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。