一种可配置的数据过滤方法技术

技术编号:24206949 阅读:25 留言:0更新日期:2020-05-20 15:04
本发明专利技术特别涉及一种可配置的数据过滤方法。该可配置的数据过滤方法,采用统一的存取格式,支持多客户端共享,通过配置需要过滤查询的数据源列,实现数据快速有效的查询方法;通过配置设定的需要过滤的数据源列范围,将数据池海量数据分类后提取出来。该可配置的数据过滤方法,配置方法简单、易维护,能够避免重复工作,减少录入时间,不仅提高了工作效率,还增强了用户使用软件的便捷性,降低了运维成本,有很好的推广应用价值。

A configurable data filtering method

【技术实现步骤摘要】
一种可配置的数据过滤方法
本专利技术涉及计算机
,特别涉及一种可配置的数据过滤方法。
技术介绍
大数据环境下数据量快速的积累,要想分析出海量数据所蕴含的价值,筛选出有价值的数据十分重要。而数据过滤在整个数据处理流程中处于至关重要的地位。数据过滤的目的是为了提高之前收集存储的相关数据的可用性,更利于后期数据分析。数据过滤包括数据抽取、数据清理、数据加载三个部分。数据的筛选在数学建模中占有很重要的地位。它是数学建模的第一步,技术人员只有得到好的数据才能保证得出的结果的真实性与准确性。而在实际的问题中遇到的数据量往往是巨大的。为了保证所用的方法能够在原始数据的支持下得以实现,技术人员必须要对数据进行筛选,使得解决方法简单化。同时,又要保证筛选出来的数据具有代表性,使得到的结果更加准确与真实。应用到计算机行业数据过滤的最终目的就是为数据挖掘做准备。大数据环境下的数据过滤与传统数据过滤最大区别在于巨大的数据量及复杂的数据结构。在传统数据过滤流程中,由于面向有限的数据量,通常采用性能较高的计算机或者简单联机分析就可以按照需求进行数据处理。但是在大数据环境下面向海量数据,传统联机分析遇到一系列问题。首先,联机分析的计算能力跟不上大数据的增长速度。大数据的海量数据是不断积累起来的,与此同时数据增长的速率越来越快,而联机分析的并行处理能力满足不了用户快速得到数据处理结果的需求,这就需要良好的系统来协调计算机工作,提升综合运算能力。其次,与巨大数据量同样难以处理的是复杂的数据结构,这些半结构化及非结构化的数据单个文件的大小远远大于结构化数据的大小,这种大文件的处理必然需要依据多台计算机共同处理,这就需要依据每台计算机的计算能力动态对数据进行分片,并将计算的结果进行统一。最后,虽然依据多台计算机协同处理海量数据虽然可以快速提升运算效率,但是这就需要提升大数据环境下数据库的读写能力,以匹配迅速提升的运算力。因此,针对大数据的存储与数据过滤是密不可分的,只有同时提升二者的能力,才能解决大数据环境下数据过滤与数据存储的问题。大数据中的海量数据潜藏着巨大的数据价值,但是大数据中数据可用效率并不高,这就增加算法选取的困难。由于数据量的巨大,每次针对大数据的筛选都会耗费巨大的资源。尤为重要的是在处理大数据的某些场景中数据需要实时分析,这就意味着仅存储数据分析的结果,仅能对数据进行一次分析,使得大数据中数据分析对算法选取有着更高的要求。首先,大数据环境下增加了算法训练的难度,在针对数据过滤中目标算法并不是一蹴而就的。算法需要适应当前数据环境,大数据环境下虽然有着充足的数据源但是算法训练时只能使用针对部分数据,如果出现数据分布不均匀的情况自然会影响分析结果的准确性。其次,大数据带来的海量数据问题同样增加验证分析结果准确性的难度,传统数据过滤由于数据量的有限性,通常会通过多次验证分析算法的准确性。但是大数据环境每次筛选的难度增加,限制了多次筛选验证结果的准确。最后,数据量的增加无论采用何种算法都难以得到一个准确的结果,由于数据源的多样性,多种角度分析可能会得到完全不同的结果。因此,大数据环境下通常只能通过数据分析实例的趋势而不是得到准确的定量分析结果。基于上述情况,为了解决现有技术中海量数据不能通过设定范围过滤和多用户不能设定独立的过滤方案的问题,本专利技术提出了一种可配置的数据过滤方法。
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的可配置的数据过滤方法。本专利技术是通过如下技术方案实现的:一种可配置的数据过滤方法,其特征在于:采用统一的存取格式,支持多客户端共享,通过配置需要过滤查询的数据源列,实现数据快速有效的查询方法;通过配置设定的需要过滤的数据源列范围,将数据池海量数据分类后提取出来。本专利技术可配置的数据过滤方法,包括以下步骤:第一步,配置具体查询功能;第二步,配置过滤数据列参数;第三步,客户端利用配置文件记录查询功能以及选择的过滤数据列;第四步,查询时通过解析配置文件中记录的配置参数,识别具体的查询功能以及过滤数据列信息,实现数据的过滤。所述第一步中,将各个查询功能进行分类,并记录具体查询功能的列名;所述查询功能是指实际业务操作中产生的业务记录查询汇总,包括入库单查询、出库单查询、收发存汇总和库存余额表;所述查询功能的列名包括单据编号和仓库名称信息。所述第二步中,将过滤共性处理方式提取出来进行参数配置,包括操作员、查询功能和查询列信息。所述第三步中,配置文件使用统一的结构化的可扩展标记语言,以数据表的方式将链接信息分段记录。所述第三步中,采用数据表记录查询功能的要素信息,包括操作员编号、查询功能号和过滤列。所述第四步中,数据查询时,读取配置文件中已有的链接信息,检查记录详细的过滤列,调用组件解析并记录查询功能的关联关系,根据数据表的对应关系组合过滤条件,实现数据的过滤。所述第四步中,可以根据需要随时修改配置的任何内容,调整后的配置信息立即生效,不影响数据过滤的正常运行。本专利技术的有益效果是:该可配置的数据过滤方法,配置方法简单、易维护,能够避免重复工作,减少录入时间,不仅提高了工作效率,还增强了用户使用软件的便捷性,降低了运维成本,有很好的推广应用价值。具体实施方式为了使本
的人员更好的理解本专利技术中的技术方案,下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。该可配置的数据过滤方法,采用统一的存取格式,支持多客户端共享,通过配置需要过滤查询的数据源列,实现数据快速有效的查询方法;通过配置设定的需要过滤的数据源列范围,将数据池海量数据分类后提取出来。该可配置的数据过滤方法,包括以下步骤:第一步,配置具体查询功能;第二步,配置过滤数据列参数;第三步,客户端利用配置文件记录查询功能以及选择的过滤数据列;第四步,查询时通过解析配置文件中记录的配置参数,识别具体的查询功能以及过滤数据列信息,实现数据的过滤。所述第一步中,将各个查询功能进行分类,并记录具体查询功能的列名;所述查询功能是指实际业务操作中产生的业务记录查询汇总,包括入库单查询、出库单查询、收发存汇总和库存余额表;所述查询功能的列名包括单据编号和仓库名称信息。所述第二步中,将过滤共性处理方式提取出来进行参数配置,包括操作员、查询功能和查询列信息。所述第三步中,配置文件使用统一的结构化的可扩展标记语言,以数据表的方式将链接信息分段记录。所述第三步中,采用数据表记录查询功能的要素信息,包括操作员编号、查询功能号和过滤列。所述第四步中,数据查询时,读取配置文件中已有的链接信息,检查记录详细的过滤列,调用组件解析并记录查询功能的关联本文档来自技高网
...

【技术保护点】
1.一种可配置的数据过滤方法,其特征在于:采用统一的存取格式,支持多客户端共享,通过配置需要过滤查询的数据源列,实现数据快速有效的查询方法;通过配置设定的需要过滤的数据源列范围,将数据池海量数据分类后提取出来。/n

【技术特征摘要】
1.一种可配置的数据过滤方法,其特征在于:采用统一的存取格式,支持多客户端共享,通过配置需要过滤查询的数据源列,实现数据快速有效的查询方法;通过配置设定的需要过滤的数据源列范围,将数据池海量数据分类后提取出来。


2.根据权利要求1所述的可配置的数据过滤方法,其特征在于,包括以下步骤:
第一步,配置具体查询功能;
第二步,配置过滤数据列参数;
第三步,客户端利用配置文件记录查询功能以及选择的过滤数据列;
第四步,查询时通过解析配置文件中记录的配置参数,识别具体的查询功能以及过滤数据列信息,实现数据的过滤。


3.根据权利要求2所述的可配置的数据过滤方法,其特征在于:所述第一步中,将各个查询功能进行分类,并记录具体查询功能的列名;所述查询功能是指实际业务操作中产生的业务记录查询汇总,包括入库单查询、出库单查询、收发存汇总和库存余额表;所述查询功能的列名包括单据编号和仓库名称信息。


4.根据权利要求2所述...

【专利技术属性】
技术研发人员:魏俊清
申请(专利权)人:山东浪潮通软信息科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1