企业冗余数据清理方法、装置及大数据平台制造方法及图纸

技术编号:24455733 阅读:24 留言:0更新日期:2020-06-10 15:29
本发明专利技术涉及数据处理技术领域,涉及一种企业冗余数据清理方法、装置及大数据平台。本发明专利技术加入了对于数据冗余评价特征的要素,通过数据冗余评价特征进行统计项目筛选后再进行冗余数据清理,从而可以在数据内容复杂、尤其是数据统计过程中数据业务更新较频繁的情况下提高冗余数据筛选的成功率和准确率。本发明专利技术通过将清理过程信息下发至企业数据终端,可以便于企业数据终端根据清理过程信息对企业统计数据的统计过程进行调整,以针对冗余数据的来源进行控制,避免非必要的计算资源浪费。

Cleaning methods, devices and big data platform of enterprise redundant data

【技术实现步骤摘要】
企业冗余数据清理方法、装置及大数据平台
本专利技术涉及数据处理
,具体而言,涉及一种企业冗余数据清理方法、装置及大数据平台。
技术介绍
为了确保后期对数据分析的准确性和可靠性,现有技术中,在提取各类企业统计数据进行分析之前,通常会清理掉各类企业统计数据中的冗余数据(例如错误数据或者无效数据)。传统方案中通常是基于设定的关键词或者设定的数据过滤策略来筛选冗余数据进行清理,但是由于关键词和数据过滤策略相对较为固定,难以在数据内容复杂、尤其是数据统计过程中数据业务更新较频繁的情况保证冗余数据筛选的成功率和准确率,并且无法针对冗余数据的来源进行控制,导致诸多非必要的计算资源浪费。
技术实现思路
为了至少克服现有技术中的上述不足,本申请的目的在于提供一种企业冗余数据清理方法、装置及大数据平台,以解决或者改善上述问题。第一方面,本申请提供一种企业冗余数据清理方法,应用于大数据平台,所述大数据平台包括服务器以及与所述服务器通信连接的至少一个企业数据终端,所述方法包括:所述服务器提取每个企业数据终端上传的企业统计数据中的数据冗余评价特征,并计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表,所述数据冗余评价特征用于表征在所述企业统计数据的各个统计项目中存在的数据的冗余情况;所述服务器获取所述企业统计数据所对应的数据业务的预设数据业务特征,并根据所述第一统计项目列表计算所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果;所述服务器根据所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果从所述第一统计项目列表中提取出对应的第二统计项目列表;所述服务器从所述企业统计数据中确定所述第二统计项目列表每个目标统计项目的项目统计数据,并根据所述数据冗余评价特征从每个目标统计项目的项目统计数据中清理对应的冗余数据,并将清理过程信息下发给所述企业数据终端;所述企业数据终端根据所述清理过程信息对企业统计数据的统计过程进行调整。在第一方面的一种可能的设计中,所述提取每个企业数据终端上传的企业统计数据中的数据冗余评价特征,并计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表的步骤,包括:对所述企业统计数据进行分量提取,得到分量提取特征,其中,所述分量提取特征用于表示所述企业统计数据中每个统计项目对应的分词向量;针对所述分量提取特征进行预设有效特征的过滤处理,得到第一目标分量提取特征,并获取所述第一目标分量提取特征中所有分词向量的关联特征节点,并根据所述所有分词向量的关联特征节点从所述第一目标分量提取特征中筛选掉关联特征节点大于设定节点数量的分词向量,得到第二目标分量提取特征;对所述第二目标分量提取特征进行结构化特征提取,得到第一提取向量集,并将所述第一提取向量集中向量特征数值大于设定值的分词向量进行过滤,得到第一筛选向量序列;根据所述第一筛选向量序列对所述第一提取向量集进行追溯,确定所述第二目标分量提取特征的结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度,其中,所述正向量方向和所述负向量方向为分词向量在预先构建的分词特征空间中相反分词特征量化度上的方向,所述分词特征量化度用于表示分词特征的频繁度;根据所述第二目标分量提取特征的结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度,分别得到第一正向量方向延伸度组以及第一负向量方向延伸度组;根据所述第一正向量方向延伸度组以及第一负向量方向延伸度组提取出所有的结构化特征向量方向的结构化特征关联节点;对所述第二目标分量提取特征做非结构化特征提取,得到第二提取向量集,并将所述第二提取向量集中向量特征数值大于设定值的分词向量进行过滤,得到第二筛选向量序列;根据所述第二筛选向量序列对所述第二提取向量集进行追溯,确定所述第二目标分量提取特征的非结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度,其中,所述正向量方向和所述负向量方向为分词向量在预先构建的分词特征空间中相反分词特征量化度上的方向,所述分词特征量化度用于表示分词特征的频繁度;根据所述第二目标分量提取特征的非结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度,分别得到第二正向量方向延伸度组以及第二负向量方向延伸度组;根据所述第二正向量方向延伸度组以及第二负向量方向延伸度组提取出所有的非结构化特征向量方向的非结构化特征关联节点;根据所述结构化特征关联节点和非结构化特征关联节点确定所有关联节点,并确定每个关联节点上所有关联特征节点的节点统计项目集合、节点统计次数集合以及节点统计等级集合;当确定所述节点统计项目集合、节点统计次数集合以及节点统计等级集合的中位数与平均数之比和平均数与中位数之比的两者中的最大值小于设定值时,确定所述关联特征节点为冗余关联特征节点的待定节点;对于一个关联节点中的每一个关联特征节点,确定该关联特征节点中各个非结构化特征相邻的关联特征节点间的非结构化特征的关联位置,根据所述关联位置确定与每个所述冗余关联特征节点的非结构化特征的关联位置;根据所述每个所述冗余关联特征节点的非结构化特征的关联位置确定出数据冗余评价特征;计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表。在第一方面的一种可能的设计中,所述获取所述企业统计数据所对应的数据业务的预设数据业务特征,并根据所述第一统计项目列表计算所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果的步骤,包括:获取所述企业统计数据所对应的数据业务的业务标识;根据所述业务标识从预设的数据业务特征库中获取包含所述数据业务的预设数据业务特征,其中,所述预设的数据业务特征库中包括业务标识与预设数据业务特征之间的对应关系,所述预设数据业务特征用于表征所述数据业务的统计过程的特征策略,并随着所述数据业务的变化而适应性变化;根据所述第一统计项目列表获取包含当前所述数据业务的待匹配统计项目,根据所述待匹配统计项目确定以所述预设数据业务特征为基准特征的参考业务特征,将所述待匹配统计项目以所述数据冗余评价特征为基准,依次划分为与参考业务特征对应的多个冗余业务特征,对每一冗余业务特征分别与所述参考业务特征进行比对得到对应的特征比对参考值范围,当特征比对参考值范围不满足设定的参考值范围时,记录所述特征比对参考值范围对应的冗余业务特征为第一业务特征,所述参考业务特征为第二业务特征,以得到由至少一个由所述第一业务特征和所述第二业务特征形成的业务特征组合;基于至少一个所述业务特征组合确定对应的第一特征比对空间,并以第一特征比对空间为基准,根据设置的空间大小对所述待匹配统计项目进行划分,分别得到与每一所述空间大小对应的多个包含第一特征比对空间的第二特征比对空间;对所述第二特征比对空间进行解析,得到所述第二特征比对空间中各业务特征组合的特征信息,并根据所述业务特征组合的特征信息确定业务特征组合的冗余量级以及对应的特征值本文档来自技高网...

【技术保护点】
1.一种企业冗余数据清理方法,其特征在于,应用于大数据平台,所述大数据平台包括服务器以及与所述服务器通信连接的至少一个企业数据终端,所述方法包括:/n所述服务器提取每个企业数据终端上传的企业统计数据中的数据冗余评价特征,并计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表,所述数据冗余评价特征用于表征在所述企业统计数据的各个统计项目中存在的数据的冗余情况;/n所述服务器获取所述企业统计数据所对应的数据业务的预设数据业务特征,并根据所述第一统计项目列表计算所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果;/n所述服务器根据所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果从所述第一统计项目列表中提取出对应的第二统计项目列表;/n所述服务器从所述企业统计数据中确定所述第二统计项目列表每个目标统计项目的项目统计数据,并根据所述数据冗余评价特征从每个目标统计项目的项目统计数据中清理对应的冗余数据,并将清理过程信息下发给所述企业数据终端;/n所述企业数据终端根据所述清理过程信息对企业统计数据的统计过程进行调整。/n

【技术特征摘要】
1.一种企业冗余数据清理方法,其特征在于,应用于大数据平台,所述大数据平台包括服务器以及与所述服务器通信连接的至少一个企业数据终端,所述方法包括:
所述服务器提取每个企业数据终端上传的企业统计数据中的数据冗余评价特征,并计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表,所述数据冗余评价特征用于表征在所述企业统计数据的各个统计项目中存在的数据的冗余情况;
所述服务器获取所述企业统计数据所对应的数据业务的预设数据业务特征,并根据所述第一统计项目列表计算所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果;
所述服务器根据所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果从所述第一统计项目列表中提取出对应的第二统计项目列表;
所述服务器从所述企业统计数据中确定所述第二统计项目列表每个目标统计项目的项目统计数据,并根据所述数据冗余评价特征从每个目标统计项目的项目统计数据中清理对应的冗余数据,并将清理过程信息下发给所述企业数据终端;
所述企业数据终端根据所述清理过程信息对企业统计数据的统计过程进行调整。


2.根据权利要求1所述的企业冗余数据清理方法,其特征在于,所述提取每个企业数据终端上传的企业统计数据中的数据冗余评价特征,并计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表的步骤,包括:
对所述企业统计数据进行分量提取,得到分量提取特征,其中,所述分量提取特征用于表示所述企业统计数据中每个统计项目对应的分词向量;
针对所述分量提取特征进行预设有效特征的过滤处理,得到第一目标分量提取特征,并获取所述第一目标分量提取特征中所有分词向量的关联特征节点,并根据所述所有分词向量的关联特征节点从所述第一目标分量提取特征中筛选掉关联特征节点大于设定节点数量的分词向量,得到第二目标分量提取特征;
对所述第二目标分量提取特征进行结构化特征提取,得到第一提取向量集,并将所述第一提取向量集中向量特征数值大于设定值的分词向量进行过滤,得到第一筛选向量序列;
根据所述第一筛选向量序列对所述第一提取向量集进行追溯,确定所述第二目标分量提取特征的结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度,其中,所述正向量方向和所述负向量方向为分词向量在预先构建的分词特征空间中相反分词特征量化度上的方向,所述分词特征量化度用于表示分词特征的频繁度;
根据所述第二目标分量提取特征的结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度,分别得到第一正向量方向延伸度组以及第一负向量方向延伸度组;
根据所述第一正向量方向延伸度组以及第一负向量方向延伸度组提取出所有的结构化特征向量方向的结构化特征关联节点;
对所述第二目标分量提取特征做非结构化特征提取,得到第二提取向量集,并将所述第二提取向量集中向量特征数值大于设定值的分词向量进行过滤,得到第二筛选向量序列;
根据所述第二筛选向量序列对所述第二提取向量集进行追溯,确定所述第二目标分量提取特征的非结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度,其中,所述正向量方向和所述负向量方向为分词向量在预先构建的分词特征空间中相反分词特征量化度上的方向,所述分词特征量化度用于表示分词特征的频繁度;
根据所述第二目标分量提取特征的非结构化特征向量方向的所有正向量方向以及所有负向量方向的延伸度,分别得到第二正向量方向延伸度组以及第二负向量方向延伸度组;
根据所述第二正向量方向延伸度组以及第二负向量方向延伸度组提取出所有的非结构化特征向量方向的非结构化特征关联节点;
根据所述结构化特征关联节点和非结构化特征关联节点确定所有关联节点,并确定每个关联节点上所有关联特征节点的节点统计项目集合、节点统计次数集合以及节点统计等级集合;
当确定所述节点统计项目集合、节点统计次数集合以及节点统计等级集合的中位数与平均数之比和平均数与中位数之比的两者中的最大值小于设定值时,确定所述关联特征节点为冗余关联特征节点的待定节点;
对于一个关联节点中的每一个关联特征节点,确定该关联特征节点中各个非结构化特征相邻的关联特征节点间的非结构化特征的关联位置,根据所述关联位置确定与每个所述冗余关联特征节点的非结构化特征的关联位置;
根据所述每个所述冗余关联特征节点的非结构化特征的关联位置确定出数据冗余评价特征;
计算所述企业统计数据中与所述数据冗余评价特征对应的第一统计项目列表。


3.根据权利要求1所述的企业冗余数据清理方法,其特征在于,所述获取所述企业统计数据所对应的数据业务的预设数据业务特征,并根据所述第一统计项目列表计算所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果的步骤,包括:
获取所述企业统计数据所对应的数据业务的业务标识;
根据所述业务标识从预设的数据业务特征库中获取包含所述数据业务的预设数据业务特征,其中,所述预设的数据业务特征库中包括业务标识与预设数据业务特征之间的对应关系,所述预设数据业务特征用于表征所述数据业务的统计过程的特征策略,并随着所述数据业务的变化而适应性变化;
根据所述第一统计项目列表获取包含当前所述数据业务的待匹配统计项目,根据所述待匹配统计项目确定以所述预设数据业务特征为基准特征的参考业务特征,将所述待匹配统计项目以所述数据冗余评价特征为基准,依次划分为与参考业务特征对应的多个冗余业务特征,对每一冗余业务特征分别与所述参考业务特征进行比对得到对应的特征比对参考值范围,当特征比对参考值范围不满足设定的参考值范围时,记录所述特征比对参考值范围对应的冗余业务特征为第一业务特征,所述参考业务特征为第二业务特征,以得到由至少一个由所述第一业务特征和所述第二业务特征形成的业务特征组合;
基于至少一个所述业务特征组合确定对应的第一特征比对空间,并以第一特征比对空间为基准,根据设置的空间大小对所述待匹配统计项目进行划分,分别得到与每一所述空间大小对应的多个包含第一特征比对空间的第二特征比对空间;
对所述第二特征比对空间进行解析,得到所述第二特征比对空间中各业务特征组合的特征信息,并根据所述业务特征组合的特征信息确定业务特征组合的冗余量级以及对应的特征值,并根据所述业务特征组合的冗余量级以及对应的特征值确定第一业务特征序列;
基于所述第一业务特征序列、业务特征组合的冗余量级以及对应的特征值确定满足设置条件的业务特征组合构成的空间向量,确定每一所述特征比对空间的第一空间向量和第二空间向量的其中一个,根据所述第一空间向量和所述第二空间向量的其中一个对每一所述特征比对空间进行筛选得到与每一所述特征比对空间对应的筛选后的特征比对空间;
基于每一所述特征比对空间对应的筛选后的特征比对空间得到第一空间向量和第二空间向量的其中另一个;
根据所述特征比对空间分别对应的第一空间向量得到第一空间向量集、以及根据所述特征比对空间分别对应的第二空间向量得到第二空间向量集;
确定所述第一空间向量集对应的第一参考空间向量和所述第二空间向量集对应的第二参考空间向量,并基于所述第一空间向量集与所述第一参考空间向量以及所述第二空间向量集与所述第二参考空间向量分别确定对应所述第一空间向量集的第一待比对向量以及对应所述第二空间向量集的第二待比对向量;
对所述第一空间向量集的第一待比对向量以及对应所述第二空间向量集的第二待比对向量进行比对,得到所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果。


4.根据权利要求1所述的企业冗余数据清理方法,其特征在于,所述根据所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果从第一统计项目列表提取出对应的第二统计项目列表的步骤,包括
根据所述数据冗余评价特征与所述预设数据业务特征之间的特征比对结果,确定出所述第一统计项目列表中存在与所述特征比对结果相匹配的统计项目;
根据与所述特征比对结果相匹配的统计项目从第一统计项目列表提取出对应的第二统计项目列表。


5.根据权利要求1所述的企业冗余数据清理方法,其特征在于,所述根据所述数据冗余评价特征从每个目标统计...

【专利技术属性】
技术研发人员:费红琳肖巧巧丁杰
申请(专利权)人:广州博士信息技术研究院有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1