一种异构大数据信息的过滤方法及装置制造方法及图纸

技术编号：19425002 阅读：42 留言：0更新日期：2018-11-14 10:35

本发明专利技术公开了一种异构大数据信息的过滤方法及装置，针对经常会面临异构数据的互相之间不兼容的操作问题。异构数据具有互不相同的数据结构类型。本发明专利技术读取异构大数据并按照数据结构拆分得到标准数据，计算标准数据的误差率，删除标准数据中误差率大于误差阈值的异常数据后得到过滤后的数据，将过滤后的数据按照误差率的大小排序，可以针对不同的数据结构，采用统一的异构数据处理方法，归一化了数据，降低了异构数据的误差率，提高了异构数据的逻辑兼容度。

全部详细技术资料下载

【技术实现步骤摘要】
一种异构大数据信息的过滤方法及装置
本公开涉及数据信息融合处理领域，具体涉及一种异构大数据信息的过滤方法及装置。
技术介绍
随着互联网技术的发展，使得大数据信息的应用越来越广泛，经常会面临异构数据的互相之间不兼容的操作问题。异构数据具有互不相同的数据结构类型。对于异构数据往往是针对同一种数据结构编写相应的相同处理代码，使得逻辑边界越来越不清晰，数据结构之间的相互调用也显得混乱，容易导致大量的逻辑错误问题。
技术实现思路
本公开的目的是针对现有技术的不足，提供一种异构大数据信息的过滤方法及装置，具体包括以下步骤：步骤1，读取异构大数据并按照数据结构拆分得到标准数据；步骤2，计算标准数据的误差率；步骤3，删除标准数据中误差率大于误差阈值的异常数据后得到过滤后的数据；步骤4，将过滤后的数据按照误差率的大小排序；步骤5，删除排序后的队列中首尾10％的数据得到过滤结果；步骤6，输出过滤结果。进一步地，在步骤1中，所述异构大数据的数据结构至少包括数组、队列、哈希表、树。进一步地，在步骤1中，所述按照数据结构拆分得到标准数据的步骤包括如下子步骤：步骤1.1，按照异构大数据的数据结构类型输入；步骤1.2，根据数据结构类型读取并拆分为带有关键字的元数据；步骤1.3，按照相同的关键字组合元数据获得标准数据；所述标准数据至少包括数据量值。进一步地，在步骤2中，所述计算标准数据的误差率的子步骤为：步骤2.1，设x1,x2,x3,…,xn为n个标准数据的数据量值,则算术平均值X'为步骤2.2，通过算术平均值X'标准数据的误差率s的公式为：其中，n为大于或等于0的正整数，取值范围不做限制...

【技术保护点】
1.一种异构大数据信息的过滤方法，其特征在于，所述过滤方法包括如下步骤：步骤1，读取异构大数据并按照数据结构拆分得到标准数据；步骤2，计算标准数据的误差率；步骤3，删除标准数据中误差率大于误差阈值的异常数据后得到过滤后的数据；步骤4，将过滤后的数据按照误差率的大小排序；步骤5，删除排序后的队列中首尾10％的数据得到过滤结果；步骤6，输出过滤结果。

【技术特征摘要】
1.一种异构大数据信息的过滤方法，其特征在于，所述过滤方法包括如下步骤：步骤1，读取异构大数据并按照数据结构拆分得到标准数据；步骤2，计算标准数据的误差率；步骤3，删除标准数据中误差率大于误差阈值的异常数据后得到过滤后的数据；步骤4，将过滤后的数据按照误差率的大小排序；步骤5，删除排序后的队列中首尾10％的数据得到过滤结果；步骤6，输出过滤结果。2.根据权利要求1所述的一种异构大数据信息的过滤方法，其特征在于，在步骤1中，所述异构大数据的数据结构至少包括数组、队列、哈希表、树。3.根据权利要求1所述的一种异构大数据信息的过滤方法，其特征在于，在步骤1中，所述按照数据结构拆分得到标准数据的步骤包括如下子步骤：步骤1.1，按照异构大数据的数据结构类型输入；步骤1.2，根据数据结构类型读取并拆分为带有关键字的元数据；步骤1.3，按照相同的关键字组合元数据获得标准数据；所述标准数据至少包括数据量值。4.根据权利要求1所述的一种异构大数据信息的过滤方法，其特征在于，在步骤2中，所述计算标准数据的误差率的子步骤为：步骤2.1...

【专利技术属性】
技术研发人员：欧阳永中，
申请(专利权)人：佛山科学技术学院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人