一种数据处理方法和装置制造方法及图纸

技术编号:13288145 阅读:64 留言:0更新日期:2016-07-09 03:31
本发明专利技术公开了一种数据处理方法和装置。其中所述方法包括:对网页页面进行分析,确定网页页面中的文档页面模型DOM元素;根据DOM元素取得网页页面中的各控件的对应值;根据网页页面中的各控件的标识或名称,将各控件的对应值存入指定格式的文件中与各控件的标识或名称对应的项下。该技术方案不仅可以有效获取页面信息,还能将得到的数据写入指定格式的文件以便进一步在异构系统中进行数据交换,不再需要人工完成数据录入,不仅大大提高了效率,准确率也可以基本达到100%。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种数据处理方法和装置
技术介绍
异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,每个数据库系统在加入异构数据库系统之前本身就已经存在。异构数据库的各个组成部分具有自身的自治性,实现数据共享的同时,每个数据库系统仍保有自己的应用特性、完整性控制和安全性控制。但这也就造成了一个问题:由于各个一个数据库系统中数据存储格式不相同,异构数据库系统在不同网络之间进行数据交换非常繁琐,传统办法是通过人工进行手动输入,面对大量的数据录入和大量的业务办理,这种重复操作加重办理人员的工作量,带来疲劳,这种方法准确率,效率都不高。因此需要对数据进行适当的处理以便进行数据交换。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法和装置。依据本专利技术的一个方面,提供了一种数据处理方法,包括:对网页页面进行分析,确定网页页面中的文档页面模型DOM元素;根据DOM元素取得网页页面中的各控件的对应值;根据网页页面中的各控件的标识或名称,将各控件的对应值存入指定格式的文件中与各控件的标识或名称对应的项下。可选地,所述对网页页面进行分析,确定网页页面中的文档页面模型DOM元素包括:确定一个或多个正在运行的IE内核浏览器的辅助进程;根据每个辅助进程确定该辅助进程对应的网页页面中的DOM元素。可选地,所述根据DOM元素取得网页页面中的各控件的对应值包括:对于text控件、textarea控件、checkbox控件、radio控件和select控件中的一种或多种,通过第一数据字典取得这些控件的对应值;对于table控件,根据该控件中对应值所处列的列名及对应值在控件中的行号,通过第二数据字典取得该控件的对应值;对于不存在标识或名称的自定义控件,根据页面结构为该自定义控件进行自动编码,通过第三数据字典取得该自定义控件的对应值。可选地,该方法进一步包括:如果一个网页页面中确定的DOM元素中包含IFRAME标签,则根据IFRAME标签进一步确定该网页页面的URL下的所有子URL,对每个子URL对应的网页页面都进行如上述的数据处理。可选地,该方法进一步包括:将网页页面中的各控件进行分类;所述根据网页页面中的各控件的标识或名称,将各控件的对应值存入指定格式的文件中与各控件的标识或名称对应的项下包括:对于网页页面中的每一类控件,根据该类中的各控件的标识或名称,将该类的各控件的对应值存入该类的指定格式的文件中对应的项下。依据本专利技术的另一方面,提供了一种数据处理装置,包括:网页页面分析单元,适于对网页页面进行分析,确定网页页面中的文档页面模型DOM元素;控件取值单元,适于根据DOM元素取得网页页面中的各控件的对应值;写入单元,适于根据网页页面中的各控件的标识或名称,将各控件的对应值存入指定格式的文件中与各控件的标识或名称对应的项下。可选地,所述网页页面分析单元,适于确定一个或多个正在运行的IE内核浏览器的辅助进程;根据每个辅助进程确定该辅助进程对应的网页页面中的DOM元素。可选地,所述控件取值单元,适于对于text控件、textarea控件、checkbox控件、radio控件和select控件中的一种或多种,通过第一数据字典取得这些控件的对应值;对于table控件,根据该控件中对应值所处列的列名及对应值在控件中的行号,通过第二数据字典取得该控件的对应值;对于不存在标识或名称的自定义控件,根据页面结构为该自定义控件进行自动编码,通过第三数据字典取得该自定义控件的对应值。可选地,所述网页页面分析单元,当一个网页页面中确定的DOM元素中包含IFRAME标签时,进一步适于根据IFRAME标签进一步确定该网页页面的URL下的所有子URL;所述网页页面分析单元、控件取值单元和写入单元对每个子URL对应的网页页面都进行如上述的数据处理。可选地,该装置进一步包括:控件分类单元,适于将网页页面中的各控件进行分类;所述写入单元,适于对于网页页面中的每一类控件,根据该类中的各控件的标识或名称,将该类的各控件的对应值存入该类的指定格式的文件中对应的项下。由上述可知,本专利技术的技术方案,通过对网页页面进行分析,确定该网页页面中的DOM(DocumentObjectModel,文档页面模型)元素,进一步根据DOM元素取得网页页面中的各控件的对应值,最后根据网页页面中的各控件的标识或名称,将各控件的对应值存入指定格式的文件中与各控件的标识或名称对应的项下,得到适于数据交换的指定格式的文件。该技术方案不仅可以有效获取页面信息,还能将得到的数据写入指定格式的文件以便进一步在异构系统中进行数据交换,不再需要人工完成数据录入,不仅大大提高了效率,准确率也可以基本达到100%。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的一种数据处理方法的流程图;图2示出了根据本专利技术一个实施例的一种数据处理装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术一个实施例的一种数据处理方法的流程图,如图1所示,该方法包括:步骤S110,对网页页面进行分析,确定网页页面中的DOM元素。步骤S120,根据DOM元素取得网页页面中的各控件的对应值。步骤S130,根据网页页面中的各控件的标识或名称,将各控件的对应值存入指定格式的文件中与各控件的标识或名称对应的项下。优选地,指定格式的文件为XML文件。XML(ExtensibleMarkupLanguage,可扩展标记语言)是一种用于标记电子文件使本文档来自技高网...

【技术保护点】
一种数据处理方法,其特征在于,所述方法包括:对网页页面进行分析,确定网页页面中的文档页面模型DOM元素;根据DOM元素取得网页页面中的各控件的对应值;根据网页页面中的各控件的标识或名称,将各控件的对应值存入指定格式的文件中与各控件的标识或名称对应的项下。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
对网页页面进行分析,确定网页页面中的文档页面模型DOM元素;
根据DOM元素取得网页页面中的各控件的对应值;
根据网页页面中的各控件的标识或名称,将各控件的对应值存入指定格
式的文件中与各控件的标识或名称对应的项下。
2.如权利要求1所述的方法,其特征在于,所述对网页页面进行分析,
确定网页页面中的文档页面模型DOM元素包括:
确定一个或多个正在运行的IE内核浏览器的辅助进程;
根据每个辅助进程确定该辅助进程对应的网页页面中的DOM元素。
3.如权利要求1所述的方法,其特征在于,所述根据DOM元素取得网
页页面中的各控件的对应值包括:
对于text控件、textarea控件、checkbox控件、radio控件和select控件
中的一种或多种,通过第一数据字典取得这些控件的对应值;
对于table控件,根据该控件中对应值所处列的列名及对应值在控件中的
行号,通过第二数据字典取得该控件的对应值;
对于不存在标识或名称的自定义控件,根据页面结构为该自定义控件进
行自动编码,通过第三数据字典取得该自定义控件的对应值。
4.如权利要求1所述的方法,其特征在于,该方法进一步包括:
如果一个网页页面中确定的DOM元素中包含IFRAME标签,则根据
IFRAME标签进一步确定该网页页面的URL下的所有子URL,对每个子URL
对应的网页页面都进行如上述的数据处理。
5.如权利要求1所述的方法,其特征在于,
该方法进一步包括:将网页页面中的各控件进行分类;
所述根据网页页面中的各控件的标识或名称,将各控件的对应值存入指
定格式的文件中与各控件的标识或名称对应的项下包括:对于网页页面中的
每一类控件,根据该类中的各控件的标识或名称,将该类的各控件的对应值
存入该类的指定格式的文件中对应的项下...

【专利技术属性】
技术研发人员:潘宇龙
申请(专利权)人:江苏国泰新点软件有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1