一种数据采集调查及统计模型实现方法技术

技术编号:14552496 阅读:79 留言:0更新日期:2017-02-05 01:39
本发明专利技术涉及计算机数据采集与统计技术领域,尤其是一种面向大量数据调查采集及统计模型实现方法。本发明专利技术将多个数据采集因子构成数据采集模式,根据数据采集特征的不同,将采集分为不同的模式,进而支持合理复用;每个单独的采集都通过套用一个采集模式,决定采集的细节;在采集数据通过调查获取后,统计模块支持根据多维采集因子来过滤、计算、反映统计结果,从而从多个角度展现采集数据,支持上层决策。本发明专利技术解决了大量数据采集中定向数据调查及统计分析的灵活性等问题;为其提供一种思路及实现方法。

A method of data acquisition and statistical model

The invention relates to the technical field of computer data acquisition and statistics, in particular to a method for realizing a large amount of data collection and statistical model. In the invention, a plurality of data acquisition components data acquisition mode, according to the different characteristics of data acquisition, acquisition will be divided into different patterns, and thus support the reasonable reuse; each individual collection through applying a collection mode, the details of the acquisition decision; the data acquisition through the survey, statistical filtering, support module according to the results of statistical calculation, reflect the multidimensional collection of factors, so as to show data from multiple perspectives, to support the decision. The invention solves the problems of the flexibility of directional data investigation and statistical analysis in a large amount of data acquisition, and provides an idea and a realization method thereof.

【技术实现步骤摘要】

本专利技术涉及计算机数据采集与统计
,尤其是一种面向大量数据调查采集及统计模型实现方法。
技术介绍
随着信息技术的快速发展,当前社会各种数据资源迅速增长,数据格式多样化和非格式化数据的增加,造成原有的数据采集模型不能灵活的适应各种变化,使得在大数据中存在的不少数据噪音。在给数据采集带来干扰的同时,也不利于数据的后期统计处理。
技术实现思路
本专利技术解决的技术问题在于提供一种面向大量数据调查采集及统计模型实现方法;解决大量数据采集中定向数据调查及统计分析的灵活性等问题。本专利技术解决上述技术问题的技术方案是:所述的方法是将多个数据采集因子构成数据采集模式,根据数据采集特征的不同,将采集分为不同的模式,进而支持合理复用;每个单独的采集都通过套用一个采集模式,决定采集的细节;在采集数据通过调查获取后,统计模块支持根据多维采集因子来过滤、计算、反映统计结果,从而从多个角度展现采集数据,支持上层决策。所述的采集因子描述了采集过程中关注点的最小单位,可抽象化成一个问题或者一条属性等;每个采集因子都可以包括关注点描述(P),期待的结果集值域范围(R),采集类型呈现方式等其他属性集合(O);由此可以唯一确定一个采集因子的三元组特性结构<P,R,O>;其中O属性中可包含若干细节属性,如采集数据时的内容类型限制条件、长度限制条件等。根据采集需求灵活组织若干采集因子<P,R,O>,形成具有独特的采集特征的采集模式,采集模式可以在每次采集开始时由用户选择性的套用到当前的采集中;所谓采集模式的特征,在于描述该采集模式主要针对的采集条件、关注重点等采集细节,从而可根据其特征,形成可区分的模式集合。建立在已经采集到的针对某个采集模式的所有数据,根据需求组合多个采集因子,从而得到一系列属性或者条件,然后再筛选出符合条件的结果集,进一步通过统计代数集中的统计代数进行结果计算与统计;所述的统计代数集是一组可扩展的聚集函数,通过筛选满足自定义条件的结果,并根据聚集函数的处理函数体,将结果集中的数据通过计算,处理成需要的最终数据。具体实现步骤是:S1.通过定义三元组<P,R,O>来创建采集因子,作为数据采集任务过程中最小的采集任务单元;S2.将若干所需的采集因子结合,形成一个拥有一定特征的集合,即采集模式;S3.通过套用采集模式,使得数据调查采集任务拥有明确的采集目标和结果集值域;S4.数据采集过程,其中每个采集因子都可以对应多个采集结果,每个结果只对应一个采集因子;S5.完成采集后,可以通过选择若干采集因子及其满足的条件,对结果集中的数据进行筛选;S6.对筛选后的结果集,采用统计代数集中的聚集函数,计算所需相关结果。本专利技术使得数据采集的关注点集中表现成一个三元组,从而简化复杂的采集条件表示,清晰地呈现出每次数据采集的重点。另一方面,本专利技术支持灵活的变化能力,通过增加、组合采集因子来组成不同的采集模式,使得采集因子最大限度复用,且通过采集因子的组合完成过滤筛选,支持多维度的数据统计。本专利技术应用在数据调查采集和统计的技术当中,为其提供了一种思路及实现方法。附图说明下面附图对本专利技术进一步说明:图1是本专利技术系统架构示意图;图2是系统流程示意图。具体实施方式如图1、2所示,本专利技术所述的方法包括定向数据采集因子的设计方法,复合采集因子为采集模式的方法,采集数据多维统计呈现等技术。多个数据采集因子构成数据采集模式,根据数据采集特征的不同,将采集分为不同的模式,进而支持合理复用。每个单独的采集都通过套用一个采集模式,决定采集的细节;在采集数据通过调查获取后,统计模块支持根据多维采集因子来过滤、计算、反映统计结果,从而从多个角度展现采集数据,支持上层决策。采集因子描述了采集过程中关注点的最小单位,可具象化成一个问题或者一条属性等。每个采集因子都可以包括关注点描述(P),期待的结果集值域范围(R),采集类型呈现方式等其他属性集合(O)。由此可以唯一确定一个采集因子的三元组特性结构<P,R,O>;每个采集因子结构都是如此,其中O属性中可包含若干细节属性,如采集数据时的内容类型限制条件、长度限制条件等。根据采集需求灵活组织若干采集因子<P,R,O>,形成具有独特的采集特征的采集模式,采集模式可以在每次采集开始时由用户选择性的套用到当前的采集中。所谓采集模式的特征,在于描述该采集模式主要针对的采集条件、关注重点等采集细节,从而可根据其特征,形成可区分的模式集合。建立在已经采集到的针对某个采集模式的所有数据,根据需求组合多个采集因子,从而得到一系列属性或者条件,然后再筛选出符合条件的结果集,进一步通过统计代数集中的统计代数进行结果计算与统计。统计代数集是一组可扩展的聚集函数,通过筛选满足自定义条件的结果,并根据聚集函数的处理函数体,将结果集中的数据通过计算,处理成需要的最终数据。本专利技术的方法实现主要步骤分为六步,具体包括:S1.通过定义三元组<P,R,O>来创建采集因子,作为数据采集任务过程中最小的采集任务单元。S2.将若干所需的采集因子结合,形成一个拥有一定特征的集合,即采集模式。S3.通过套用采集模式,使得数据调查采集任务拥有明确的采集目标和结果集值域。S4.数据采集过程,其中每个采集因子都可以对应多个采集结果,每个结果只对应一个采集因子。S5.完成采集后,可以通过选择若干采集因子及其满足的条件,对结果集中的数据进行筛选。S6.对筛选后的结果集,采用统计代数集中的聚集函数,计算所需相关结果。具体流程如图2所示:创建数据调查任务,输入基本信息。从模式库中载入采集模式,如模式库已存在,则从模式库载入并保存。如不存在,则新建采集模式,载入采集因子。如采集因子已存在,则选择库中的因子载入,完毕后保存在模式至模式库中。如采集因子不存在,则创建、编辑新采集因子,并保存至因子库中后进行因子载入。本文档来自技高网...

【技术保护点】
一种数据调查采集及统计模型实现方法,其特征在于:所述的方法是将多个数据采集因子构成数据采集模式,根据数据采集特征的不同,将采集分为不同的模式,进而支持合理复用;每个单独的采集都通过套用一个采集模式,决定采集的细节;在采集数据通过调查获取后,统计模块支持根据多维采集因子来过滤、计算、反映统计结果,从而从多个角度展现采集数据,支持上层决策。

【技术特征摘要】
1.一种数据调查采集及统计模型实现方法,其特征在于:所述的方法是将多个数据采集因子构成数据采集模式,根据数据采集特征的不同,将采集分为不同的模式,进而支持合理复用;每个单独的采集都通过套用一个采集模式,决定采集的细节;在采集数据通过调查获取后,统计模块支持根据多维采集因子来过滤、计算、反映统计结果,从而从多个角度展现采集数据,支持上层决策。
2.根据权利要求1所述的数据调查采集及统计模型实现方法,其特征在于:所述的采集因子描述了采集过程中关注点的最小单位,可抽象化成一个问题或者一条属性等;每个采集因子都可以包括关注点描述(P),期待的结果集值域范围(R),采集类型呈现方式等其他属性集合(O);由此可以唯一确定一个采集因子的三元组特性结构<P,R,O>;其中O属性中可包含若干细节属性,如采集数据时的内容类型限制条件、长度限制条件等。
3.根据权利要求2所述的数据调查采集及统计模型实现方法,其特征在于:根据采集需求灵活组织若干采集因子<P,R,O>,形成其有独特的采集特征的采集模式,采集模式可以在每次采集开始时由用户选择性的套用到当前的采集中;所谓采集模式的特征,在于描述该采集模式主要针对的采集条件、关注重点等采集细节,从而可根据其特征,形成可区分的模式集合。
4.根据权利要求1、2或3所述的数据调查采集及统计模型实现方法,其特征在于:建立在已经采集到的针对某个采集模式的所有数据,根据需求组合多个采集因子,从而得到一系列属性或者条件,然后再筛选出符合条件的结果集,进一步通过统计代数集中的统计代数进行结果计算与统计;所述的统计代数集是一组可扩展的聚...

【专利技术属性】
技术研发人员:郭宇李勇波季统凯
申请(专利权)人:国云科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1