当前位置: 首页 > 专利查询>徐砚星专利>正文

流式分类统计方法技术

技术编号:2868564 阅读:222 留言:0更新日期:2012-04-11 18:40
流式分类统计方法,其特征在于:(1)在数据输入时,数据文件以文本文件形式存放,数据文件由若干组数据组成;(2)在统计时,统计程序会顺序扫描文件的每一行;遇到标题行时,首先看是否有上组已统计的数据,如果有则输出该组数据的统计结果并将该结果汇总到总结果中;对随后的参数行和数据行进行统计处理,直到遇到下一个标题行;程序不断重复以上过程,直到文件结束;最后输出各组数据的汇总结果。信息和数据的存放采用文本格式,不依赖于特定的软件就可以编辑和阅读,格式自由,可读性好,而且节省存储空间。信息记录原始性强。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术属于计算机信息处理的方法,具体地说是一种。
技术介绍
现在的信息时代,获得信息已不是什么难事,重要的是如何处理信息、统计信息和使用信息。IE浏览器等网络软件解决的是信息的获取问题。WORD、WPS等办公软件,解决的是编辑、排版等信息表达的形式问题。FOX、EXCEL、ORACLE等数据库软件,解决的是信息的组织、管理问题,采用的是“库”的思想,侧重的是状态管理,“库”有固定的格式,数据的录入也有固定的格式,数据录入后,数据即写入库结构的字段中,除字段记录的信息外,其他的历史性或个性化的痕迹就没有了。这里所称痕迹是指那些隐含的特征或属性,它与历史的阶段性或个人的习惯有关,这些痕迹的存在,会使人觉得有亲和力和可靠的感觉。比如,一篇报道,只凭内容你就能看出它是解放前的或文革时期的或是改革开放以后的;你自己的日记本,你打开以后,你就能确定这是自己写的日记,一般情况下你不怀疑你看到的这些内容是别人记的,你对它肯定是充满了亲切和信任。如果没有这些痕迹的存在,你可能会觉得不安全。库软件,采用的是“锅烩式”的“库”方法,“库”总是有满的时候,在一次统计中,处理的记录数目也必定是有限的。如DOS下的FOXBASE能处理的库的记录最大数只有几千个。如果某字段的数据出错,系统可能无法运行。库方法是一种集中式的方法,而日常工作和生活中的信息有往往是海量的、随机的、分散的、变化的、发展的、流水式的,用库方法来处理日常信息虽然可以使用,但肯定是蹩脚的。现在所用的办公信息管理系统、财务管理软件,也都是采用“库”的思想,注重的是状态管理,没有记载历史的痕迹,更谈不上有什么个性化。在计算机中存储的数据与人们有很大的距离感,备份起来的数据,离开专用软件的支持无法使用,人自己也无法解读。有些软件,如财务软件,可以打印输出供人查阅的资料,但这些资料又不能为计算机所识别。随着计算机的普及,计算机进入家庭已成不可逆转的趋势,计算机已经完全来到了我们身边,最大限度的保留输入信息的个性化痕迹,做到人和计算机在信息识别方面的高度统一,对于提高计算机软件与人的亲和力,消除人与计算机的距离感,进一步普及计算机的使用,是非常重要的。
技术实现思路
本专利技术的目的就是为了解决上述问题,而提供一种。,其特征在于(1)、在数据输入时数据文件以文本文件形式存放,数据文件由若干组数据组成,每一组数据可以包含标题行、参数行或数据行;标题行是本组数据的起始标志,也是上组数据的结束标志,它还包含着以后检索会用到的关键字或关键变量;参数行是对统计程序进行设置,以满足不同的统计需要。数据行是记录各种类型属性的符号描述;每一种类型有一个名称,同时具备两种属性数值和数量。在数据文件开始,没有标题行的数据(在文件开始在遇到标题行以前出现的数据)被认为是公共数据;有标题行,但标题内容为空的数据,也被作为公共数据来处理。在一组数据中,参数行或数据行,根据需要,可以有,也可以没有,可以是一行,也可以是多行。一个数据行,记录的可以是一个类型的数据,也可以是多个类型的数据,先后顺序不限。数量和数值可以用表达式给出。在表达式中可以使用数字、变量、类型的数值和数量。(2)、在对上述数据文件统计时统计程序会顺序扫描文件的每一行;遇到标题行时,首先看是否有上组已统计的数据,如果有则输出该组数据的统计结果并将该结果汇总到总结果中;然后判断该标题行是否满足指定的检索条件,如果没有指定检索条件则意味着统计所有数据,如果满足条件,就对随后的参数行和数据行进行统计处理,直到遇到下一个标题行;如果标题行不满足指定条件,则跳过随后扫描到的参数行和数据行,直到遇到下一个标题行。程序不断重复以上过程,直到文件结束。最后输出各组数据的汇总结果。在对数据行统计时程序为每一个类型准备一个初始化好的数值单元和数量单元;遇到一个类型的数值,就将其记录到该类型的数值单元中去;遇到一个类型的数量,就将其累加到该类型的数量单元中。如果指定了多个文件,程序会继续统计其余文件,直到全部文件统计完毕。如果不指定检索条件,则程序会统计全部数据,最后汇总。如果指定了检索条件,则程序会根据检索条件,只统计那些满足检索条件的数据。在检索条件中可以使用逻辑表达式,它由关键字、关键变量条件以及与、或、非关系运算符组成。即在逻辑表达式中可以进行“与”、“或”、“非”混合逻辑运算。关键字,是一组数据属性的字符串表达,如科学、文学、天文、地理、张三、李四......等,如果某组数据的标题中包含该字符串(关键字),则认为该组数据满足该关键字。关键变量,是一组数据属性的数值表达,因为有些属性是无法只用字符串表示的,如身高、血压、速度、......等,它们必须配合一个数值才可以完整准确的表达。关键变量条件,表示的是关键变量的取值或取值范围,如身高=1.7、体重≤80、......等。如果一组数据标题中有与关键变量条件相同的关键变量,且其取值满足关键变量条件指定的范围,则认为该组数据满足该关键变量条件。流式统计方法,恰恰与日常信息海量的、随机的、分散的、变化的、发展的、流水式的这些特征相吻合,因此采用流式统计是处理日常信息统计的最佳途径。你每天得到或产生的信息,可以看作一个信息流,通过对这个信息流进行扫描,得到你所需要的信息。本专利技术提供的方法,具有如下特点1、输入的数据可以是流式结构。由于本方法在一次统计中只对数据扫描一次,因此可以处理流式数据。采用本方法的软件对所处理文件的大小是没有限制的,可以任意长度,不仅如此,它还可以一次统计多个文件,将多个文件的内容统计到一起。2、流式统计是一种分散的数据结构形式,当某个数据出错,不会影响系统的运行,因此具有很高的可靠性。3、格式自由,可读性好。将数据录入计算机,任何支持文本文件的平台都可进行数据输入,在格式上为用户保留了最大限度的自由,与记日记类似,可以随时、随意录入数据,可以随时、随意浏览这些原汁原味的信息,又可以让计算机从这些原汁原味、却又纷繁杂乱的信息中抓取和统计出我们需要的信息。发货记录、物料收发记录、成本统计、财务计算、现金流量记录、工作记录、私人日记....等等,所有这些都可以原汁原味地搬到计算机中,也可让计算机从这些原汁原味的信息中找出、统计出你要的东西。4、这些信息和数据的存放采用文本格式,是最通用的文件格式,不依赖于特定的软件就可以编辑和阅读,而且节省存储空间。5、录入的信息数据可以直接打印出来作为文件性的资料加以保存,一旦存储的数据出现问题,可以直接用打印出来的数据进行核对或用机器扫描的方式重新录入恢复。6、模拟了人阅读和处理数据的方法,所以和使用者有着天然的亲和力,不但不排斥人工统计的方法,而且还很好地兼容了人工统计的方法,在极端的情况下,你可以根据打印出的资料,不依赖软件,不依赖计算机,完全用人工的方法,统计出你所需要的信息和数据。因此,本方法在信息资料存储和使用中的安全方面是绝对可靠的。7、信息记录原始性强,未来的应用空间就很大。正是由于信息的原始性,可以适应以后千变万化的统计需求。具体实施例方式实例一以下是一个销售流水帐,较好体现了流式分类统计的特点,日常的销售信息形成了一个信息流,从统计软件来说,信息流长度是不受限制的,只受系统存储空间的限制,平时只是简单地把销售信息简单地本文档来自技高网
...

【技术保护点】
流式分类统计方法,其特征在于:(1)、在数据输入时:数据文件以文本文件形式存放,数据文件由若干组数据组成,每一组数据可以包含标题行、参数行或数据行;标题行是本组数据的起始标志,也是上组数据的结束标志,它还包含着以后检 索会用到的关键字或关键变量;参数行是对统计程序进行设置,以满足不同的统计需要;数据行是记录各种类型属性的符号描述;每一种类型有一个名称,同时具备两种属性:数值和数量;(2)、在对上述数据文件统计时:统计程序会 顺序扫描文件的每一行;遇到标题行时,首先看是否有上组已统计的数据,如果有则输出该组数据的统计结果并将该结果汇总到总结果中;然后判断该标题行是否满足指定的检索条件,如果没有指定检索条件则意味着统计所有数据,如果满足条件,就对随 后的参数行和数据行进行统计处理,直到遇到下一个标题行;如果标题行不满足指定条件,则跳过随后扫描到的参数行和数据行,直到遇到下一个标题行;程序不断重复以上过程,直到文件结束;最后输出各组数据的汇总结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:徐砚星
申请(专利权)人:徐砚星
类型:发明
国别省市:44[中国|广东]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1