一种基于标签的数据采集方法与系统技术方案

技术编号:4334158 阅读:179 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于标签的数据采集方法与系统,属于信息处理领域。本发明专利技术首先定义数据模板,定义数据存储格式及数据处理规则,通过预处理装置,按照模板定义的规则进行预处理,并根据应用添加必要的标签,生成标记数据;然后数据采集装置利用皮肤文件和标记数据合成生成用户交互界面文件,生成用户交互界面;数据采集装置将用户交互界面提交的用户数据,按照标签回写到标记数据中;数据采集后,通过数据还原装置进行数据还原。本发明专利技术通过标签实现了多种数据格式的统一处理,实现了系统运行时的业务变更,并减少了因数据调整带来的差异性编程。

【技术实现步骤摘要】

本专利技术属于信息处理领域,具体涉及一种基于标签的数据采集方法与系统
技术介绍
数据采集是信息系统中的一个首要环节,用户需要采集的数据千差万别,数据的 表现形式及应用逻辑也各不相同,最重要的是不同应用程序的用户交互界面,对界面数据 采集的方法有所不同,典型如浏览器的网页,是通过id以及名称来提交用户填写数据的, 而一般窗口程序则通过id来收集数据,这些用户交互界面对用户提交数据采集方式的差 异性,使得开发工作变得复杂并且工作量增大,更重要的后期程序升级必须修改程序本身, 特别是针对有不间断持续运行要求的系统无法实现升级处理。 现有的技术方案的通用做法是通过定制与用户交互界面采集的数据格式相关的 不同处理规则,实现将数据回写到源数据中,这种处理方式在目前移动终端、WEB应用、桌面 处理等一体化的综合应用系统中,必然会产生大量的工作量,系统升级也不是很灵活。 国内专利01116912. 5提到一种实现多业务数据交换的方法及其装置,其通过 服务器端将从各终端设备的输入页面中采集到业务交易数据和隐含数据转换生成动态的 可扩展标记语言字符串,并根据这一隐含数据,读取对应的可扩展的样式语言文件,并将其 转换成可扩展样式语言字符串;最后,在一处理器中,生成最终用于数据交换的并针对不同 业务数据格式的可扩展标记语言。该专利技术通过隐藏的字符串实现了 XML数据格式与业务无 关,从而节省一定的程序开发量。 该专利的局限性在于,只涉及到依据业务规则使数据支持不同的业务,而对收集 到的数据没有做任何处理,未提出从数据本身出发进行识别、验证等处理。
技术实现思路
针对现有技术中存在的问题,本专利技术的目的是提供一种基于标签的数据采集方法与系统,该方法与系统能够在保持原有数据不变的前提下,通过模板、标签等方式实现数据的动态转换,而模板和标签又能够针对不同应用进行动态配置,从而增加了数据的可操作性和逻辑性,实现了多种数据格式的统一处理,实现了系统运行时的业务变更,并减少了因数据调整带来的差异性编程。 本专利技术的目的是这样实现的 —种基于标签的数据采集方法,包括如下步骤 1)规则预处理和标签预处理预处理装置获取源数据,根据模板中定义的数据处 理规则对源数据进行模板匹配,预处理装置对源数据附加标签生成标记数据,并将标记数 据提交给数据采集装置; 2)数据采集装置通过将皮肤文件和标记数据合成生成用户交互界面文件,生成显 示用户交互界面,用户填写后提交; 3)数据采集装置将用户交互界面提交的用户数据,按照标签回写到标记数据中; 4)数据还原装置依据步骤(1)中的模板和数据处理规则将标记数据中修改部分 回写到源数据中,完成数据采集过程; 进一步,步骤1)中,所述规则预处理包含以下步骤 a.预处理装置接受源数据,开始数据预处理流程; b.根据配置信息,预处理装置读取源数据使用的模板库中的模板文件,根据模板 文件中的配置进行处理; c.预处理装置循环处理每一个数据结点; d.预处理装置读取并解析模板中的数据处理规则; e.根据解析后的数据结点规则类型,调用相对应的规则处理装置; f.规则处理装置按照模板文件中的规则,对源数据进行相应的预处理操作; g.判断是否处理完所有数据,如果是,则退出循环处理流程,否则处理下一个数据结点; h.预处理装置得到规则预处理后的数据。 所述标签预处理包含以下步骤 A.分析应用规则,不同的应用规则应该添加不同的标签以方便识别; B.根据应用规则调用相对应的标签处理装置; C.循环处理每一个数据结点; D.标签处理装置为数据结点添加标签,所述标签是以属性形式的名称_字符串对 添加在数据结点中; E.判断是否处理完所有数据结点,若处理完,则退出循环处理流程;否则处理下 一个数据结点; F.预处理装置得到预处理后的标记数据。 进一步,步骤1)中,所述的数据处理规则是指实现两个数据结点相互转化的处理 程序可识别的表达式,所述的模板是指与源数据数据结构相同的定义业务处理的结构化数 据,预处理装置依据模板数据结点上定义的处理规则将标签附加到源数据的数据结构相同 的数据结点上生成标记数据,所述标签是指包含名称值的结构化数据。 更进一步,步骤1)中,所述的对源数据附加标签生成标记数据是指在源数据的数 据结构相同的数据结点上添加标签属性。 进一步,步骤2)中,所述的标记数据在步骤l)中附加的标签,满足用户交互界面 对用户提交数据的标识要求,步骤3)中,回写过程按照提交的用户数据中的标识与标记数 据的标签进行匹配。 更进一步,步骤3)中,所述的用户提交数据中的标识与标记数据的标签进行匹配 是指依据现有的用户交互界面的不同而不同的,若用户交互界面通过id标识数据的唯一性, 则标记数据中一定存在可通过皮肤文件转换为id标识的标签,该标签与id标识一一对应。 进一步,步骤4)中,所述的将标记数据中修改部分回写到源数据中,是通过标记 数据与源数据的数据结构相似性进行匹配的。 更进一步,所述的标记数据与源数据的数据结构相似性是指源数据与标记数据都 是结构化的数据,两种数据格式的数据结点之间的层次关系、包含关系完全一致,并且标记 数据的数据结点属性指针对源数据的数据结点属性新增加的标签属性。 进一步,步骤4)中,所述的标记数据中修改部分回写到源数据的方法是将源数据中存在的,符合数据处理规则反向处理要求的,对应的标记数据中修改的数据结点或者其数据,从标记数据回写到源数据中,所述符合数据处理规则反向处理要求是指该数据的数据结点数量与结点数据类型与数据处理规则中反向处理定义的参数变量数量和数据类型完全一致。 —种基于标签的数据采集系统,该系统包含预处理装置、数据采集装置、数据还原装置、规则处理装置和模板库,其中 1)预处理装置,用于对输入接口接收的源数据进行预处理,通过调用模板库和规则处理装置,按照模板中定义的数据处理规则对源数据进行模板匹配,对源数据附加标签生成标记数据,并将标记数据提交给数据采集装置; 2)数据采集装置,用于将皮肤文件和标记数据合成生成界面文件,显示生成的用户交互界面用于采集用户数据,而后将用户交互界面提交的用户数据,按照标签回写到标记数据中。 3)数据还原装置,用于将标记数据中修改部分回写到源数据中,通过调用模板库和规则处理装置将采集到的数据还原成源数据结构,并由输出接口输出该数据。 4)规则处理装置,用于按照模板文件定义的数据处理规则对源数据进行预处理。 5)模板库,用于存储模板文件,模板文件是指与源数据数据结构相同的业务处理定义的结构化数据。 进一步,所述预处理装置包含标签处理装置,用于按照应用对源数据添加标签并处理标签。 本专利技术的效果在于本专利技术所述的方法与系统可以在保持原有数据不变的前提下,通过模板、标签等方式实现数据的动态转换,而模板和标签又可以针对不同应用进行动态配置,从而增加了数据的可操作性和逻辑性,实现了多种数据格式的统一处理,实现了系统运行时的业务变更,并减少了因数据调整带来的差异性编程。 本专利技术之所以具有上述效果,原因在于本专利技术通过在源数据的基础上添加数据处理规则及标签的方式,由标记数据的形式,实现了用户交互界面的用户提交数据与源数据的转换过渡,因而能够灵活实现流式数据与结构化数据之间的数据同步本文档来自技高网...

【技术保护点】
一种基于标签的数据采集方法,包括如下步骤:1)规则预处理和标签预处理:预处理装置获取源数据,根据模板中定义的数据处理规则对源数据进行模板匹配,预处理装置对源数据附加标签生成标记数据,并将标记数据提交给数据采集装置;所述的数据处理规则是指实现两个数据结点相互转化的处理程序可识别的表达式,所述的模板是指与源数据数据结构相同的定义业务处理的结构化数据,所述标签是指包含名称值的结构化数据;2)数据采集装置通过将皮肤文件和标记数据合成生成用户交互界面文件,生成显示用户交互界面,用户填写后提交;3)数据采集装置将用户交互界面提交的用户数据,按照标签回写到标记数据中;4)数据还原装置依据步骤(1)中的模板和数据处理规则将标记数据中修改部分回写到源数据中,完成数据采集过程。

【技术特征摘要】
一种基于标签的数据采集方法,包括如下步骤1)规则预处理和标签预处理预处理装置获取源数据,根据模板中定义的数据处理规则对源数据进行模板匹配,预处理装置对源数据附加标签生成标记数据,并将标记数据提交给数据采集装置;所述的数据处理规则是指实现两个数据结点相互转化的处理程序可识别的表达式,所述的模板是指与源数据数据结构相同的定义业务处理的结构化数据,所述标签是指包含名称值的结构化数据;2)数据采集装置通过将皮肤文件和标记数据合成生成用户交互界面文件,生成显示用户交互界面,用户填写后提交;3)数据采集装置将用户交互界面提交的用户数据,按照标签回写到标记数据中;4)数据还原装置依据步骤(1)中的模板和数据处理规则将标记数据中修改部分回写到源数据中,完成数据采集过程。2. 如权利要求l所述的一种基于标签的数据采集方法,其特征在于,步骤l)中,所述规 则预处理的方法包含以下步骤a. 预处理装置接受源数据,开始数据预处理流程;b. 根据配置信息,预处理装置读取源数据使用的模板库中的模板文件,根据模板文件 中的配置进行处理;c. 预处理装置循环处理每一个数据结点;d. 预处理装置读取并解析模板中的数据处理规则;e. 根据解析后的数据结点规则类型,调用相对应的规则处理装置;f. 规则处理装置按照模板文件中的规则,对源数据进行相应的预处理操作;g. 判断是否处理完所有数据,如果是,则退出循环处理流程,否则处理下一个数据结点;h. 预处理装置得到规则预处理后的数据。3. 如权利要求2所述的一种基于标签的数据采集方法,其特征在于,步骤1)中,所述标 签预处理的方法包含以下步骤A. 分析应用规则,不同的应用规则应该添加不同的标签以方便识别;B. 根据应用规则调用相对应的标签处理装置;C. 循环处理每一个数据结点;D. 标签处理装置为数据结点添加标签,所述标签是以属性形式的名称_字符串对添加 在数据结点中;E. 判断是否处理完所有数据结点,若处理完,则退出循环处理流程;否则处理下一个 数据结点;F. 预处理装置得到预处理后的标记数据。4. 如权利要求3所述的一种基于标签的数据采集方法,其特征在于步骤1)中,预处 理装置依据模板数据结点上定义的处理规则将标签附加到源数据的数据结构相同的数据 结点上生成标记数据。5. 如权利要求4所述的一种基于标签的数据采集方法,其特征在于,步骤1)中,所述的对源数据附加标签生成标记数据的方法是在源数据的数据结构相同的数据结点上添加标签属性。6. 如权利要求1至5之一所述的一种基于标签的数据采集方法,其特征在于步骤2) 中,所述的标记数据在步骤1)中附加的标...

【专利技术属性】
技术研发人员:郭丽新龚健
申请(专利权)人:方正国际软件北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1