一种数据处理方法和装置制造方法及图纸

技术编号:15895318 阅读:57 留言:0更新日期:2017-07-28 19:49
本发明专利技术属于信息获取技术领域,尤其涉及一种数据处理方法和装置。所述方法包括:获得第一网页;根据所述第一网页获得所述第一网页的对象;根据所述对象和所述第一网页获得所述第一网页和所述对象之间的第一映射关系;获得第二网页,其中,所述第一网页和所述第二网页具有相同的属性信息;根据所述第一映射关系获得待获取元素在所述第二网页中的位置;根据所述第一映射关系获得所述待获取元素在所述位置的数据;判断所述数据的数据类型;当所述数据类型是基本数据类型时,对所述数据进行标准化处理。通过上述技术方案,解决了现有技术中代码复用率低,易造成代码管理混乱,解析结果大多不能直接使用的技术问题。

A data processing method and apparatus

The invention belongs to the technical field of information acquisition, in particular to a data processing method and device. The method includes: obtaining a first page; according to the object the first page to get the first page; according to the object and the first \won the first mapping between the first page and the object; second\, among them, the first web page and the second page has the attribute the same information is obtained; get the element in the second page of the position according to the first mapping; according to the first mapping the data elements to be obtained in the position; judging whether the data types of the data; when the data type is the basic data types, the the data were normalized. Through the technical proposal, the utility model solves the technical problems that the code reuse rate is low in the prior art, and the code management is confused and the analysis result can not be directly used.

【技术实现步骤摘要】
一种数据处理方法和装置
本专利技术涉及信息获取
,尤其涉及一种数据处理方法和装置。
技术介绍
随着web网页数量的快速增长,为了使用户能够快速准确的获得自己感兴趣的信息,通常会先对这些页面数据进行信息提取,进行网页解析。但是,本领域技术人员在日常工作中发现现有技术中存在如下不足:现有技术中的网页解析方法,在任务较多时,代码复用率低;不同项目解析内容不同,当多人共同完成时,由于没有固定的编码规范,易造成代码管理混乱;而且解析结果均为网页上的原始值,大多不能直接使用。
技术实现思路
本专利技术实施例提供了一种数据处理方法和装置,解决了现有技术中在任务较多时代码复用率低,当多人共同完成时易造成代码管理混乱,解析结果均为网页上的原始值,大多不能直接使用的技术问题,具有提高代码复用率,使代码管理简便,可得到能够直接使用的数据,降低对解析工作人员的技术要求的技术效果。本申请实施例提供一种数据处理方法,应用于对网页的数据采集,所述方法包括:获得第一网页;根据所述第一网页获得所述第一网页的对象;根据所述对象和所述第一网页获得所述第一网页和所述对象之间的第一映射关系;获得第二网页,其中,所述第一网页和所述第二网页具有相同的属性信息;根据所述第一映射关系获得待获取元素在所述第二网页中的位置;根据所述第一映射关系获得所述待获取元素在所述位置的数据;判断所述数据的数据类型;当所述数据类型是基本数据类型时,对所述数据进行标准化处理。进一步地,所述方法还包括:将所述标准化处理后的数据存储到数据库中。进一步地,所述对象还包括定位注解,所述根据所述第一映射关系获得待获取元素在所述第二网页中的位置,具体为:根据定位注解获得待获取元素在所述第二网页中的位置。进一步地,所述对象还包括取值注解,所述根据所述第一映射关系获得所述待获取元素在所述位置的数据,具体为:通过调用取值注解获得所述待获取元素在所述位置的数据。进一步地,所述方法还包括:当所述数据类型不是基本数据类型时,则获得第三网页,其中,所述第一网页和所述第三网页具有相同的属性信息。本申请实施例还提供一种数据处理装置,所述装置包括:第一获得单元,所述第一获得单元用于获得第一网页;第二获得单元,所述第二获得单元用于根据所述第一网页获得所述第一网页的对象;第三获得单元,所述第三获得单元用于根据所述对象和所述第一网页获得所述第一网页和所述对象之间的第一映射关系;第四获得单元,所述第四获得单元用于获得第二网页,其中,所述第一网页和所述第二网页具有相同的属性信息;第五获得单元,所述第五获得单元用于根据所述第一映射关系获得待获取元素在所述第二网页中的位置;第六获得单元,所述第六获得单元用于根据所述第一映射关系获得所述待获取元素在所述位置的数据;第一判断单元,所述第一判断单元用于判断所述数据的数据类型;第一处理单元,所述第一处理单元用于当所述数据类型是基本数据类型时,对所述数据进行标准化处理。进一步地,所述装置还包括:第一存储单元,所述第一存储单元用于将所述标准化处理后的数据存储到数据库中。进一步地,所述装置还包括:第七获得单元,所述第七获得单元用于根据定位注解获得待获取元素在所述第二网页中的位置。进一步地,所述装置还包括:第八获得单元,所述第八获得单元用于通过调用取值注解获得所述待获取元素在所述位置的数据。进一步地,所述方法还包括:第九获得单元,所述第九获得单元用于当所述数据类型不是基本数据类型时,则获得第三网页,其中,所述第一网页和所述第三网页具有相同的属性信息。本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:1、本申请实施例通过提供一种数据处理方法,应用于对网页的数据采集,所述方法包括:获得第一网页;根据所述第一网页获得所述第一网页的对象;根据所述对象和所述第一网页获得所述第一网页和所述对象之间的第一映射关系;获得第二网页,其中,所述第一网页和所述第二网页具有相同的属性信息;根据所述第一映射关系获得待获取元素在所述第二网页中的位置;根据所述第一映射关系获得所述待获取元素在所述位置的数据;判断所述数据的数据类型;当所述数据类型是基本数据类型时,对所述数据进行标准化处理,并将标准化处理后的数据存储至数据库中。通过上述技术方案,解决了现有技术中网页解析在任务较多时代码复用率低,当多人共同完成时易造成代码管理混乱,解析结果均为网页上的原始值,大多不能直接使用的技术问题,具有提高代码复用率,使代码管理简便,可得到能够直接使用的数据,降低对解析工作人员的技术要求的技术效果。2、本申请实施例通过建立所述第一网页与所述对象的第一映射关系,在后续完成页面解析时,具有提高代码复用率的技术效果。3、本申请实施例通过对页面解析得到的数据进行标准化处理,得到可直接使用的数据,具有可得到能够直接使用的解析结果数据的技术效果。附图说明图1为本申请实施例提供的一种数据处理方法流程图;图2为本申请实施例提供的一种数据处理装置示意图。具体实施方式本申请实施例提供了一种数据处理方法和装置,解决了现有技术中在任务较多时代码复用率低,当多人共同完成时易造成代码管理混乱,解析结果均为网页上的原始值,大多不能直接使用的技术问题,具有提高代码复用率,使代码管理简便,可得到能够直接使用的数据,降低对解析工作人员的技术要求的技术效果。为了解决上述技术问题,本专利技术提供的思路如下:本申请实施例提供一种数据处理方法,应用于对网页的数据采集,所述方法包括:获得第一网页;根据所述第一网页获得所述第一网页的对象;根据所述对象和所述第一网页获得所述第一网页和所述对象之间的第一映射关系;获得第二网页,其中,所述第一网页和所述第二网页具有相同的属性信息;根据所述第一映射关系获得待获取元素在所述第二网页中的位置;根据所述第一映射关系获得所述待获取元素在所述位置的数据;判断所述数据的数据类型;当所述数据类型是基本数据类型时,对所述数据进行标准化处理。通过上述技术方案,解决了现有技术中在任务较多时代码复用率低,当多人共同完成时易造成代码管理混乱,解析结果均为网页上的原始值,大多不能直接使用的技术问题,具有提高代码复用率,使代码管理简便,可得到能够直接使用的数据,降低对解析工作人员的技术要求的技术效果。下面通过附图以及具体实施例对本专利技术技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。实施例1:图1为本申请实施例提供的一种数据处理方法流程图,所述方法应用于对网页的数据采集,具体来说,本申请实施例提供的一种数据处理方法,包括三个阶段:准备阶段、解析页面内容阶段、数据持久化阶段。所述准备阶段包括步骤101至步骤103:步骤101:获得第一网页;步骤102:根据所述第一网页获得所述第一网页的对象;具体来说,通过步骤101获得所述第一网页后,对所述第一网页进行分析,根据对所述第一网页的分析内本文档来自技高网...
一种数据处理方法和装置

【技术保护点】
一种数据处理方法,应用于对网页的数据采集,其特征在于,所述方法包括:获得第一网页;根据所述第一网页获得所述第一网页的对象;根据所述对象和所述第一网页获得所述第一网页和所述对象之间的第一映射关系;获得第二网页,其中,所述第一网页和所述第二网页具有相同的属性信息;根据所述第一映射关系获得待获取元素在所述第二网页中的位置;根据所述第一映射关系获得所述待获取元素在所述位置的数据;判断所述数据的数据类型;当所述数据类型是基本数据类型时,对所述数据进行标准化处理。

【技术特征摘要】
1.一种数据处理方法,应用于对网页的数据采集,其特征在于,所述方法包括:获得第一网页;根据所述第一网页获得所述第一网页的对象;根据所述对象和所述第一网页获得所述第一网页和所述对象之间的第一映射关系;获得第二网页,其中,所述第一网页和所述第二网页具有相同的属性信息;根据所述第一映射关系获得待获取元素在所述第二网页中的位置;根据所述第一映射关系获得所述待获取元素在所述位置的数据;判断所述数据的数据类型;当所述数据类型是基本数据类型时,对所述数据进行标准化处理。2.如权利要求1所述的方法,其特征在于,所述方法还包括:将所述标准化处理后的数据存储到数据库中。3.如权利要求1所述的方法,其特征在于,所述对象还包括定位注解,所述根据所述第一映射关系获得待获取元素在所述第二网页中的位置,具体为:根据定位注解获得待获取元素在所述第二网页中的位置。4.如权利要求1所述的方法,其特征在于,所述对象还包括取值注解,所述根据所述第一映射关系获得所述待获取元素在所述位置的数据,具体为:通过调用取值注解获得所述待获取元素在所述位置的数据。5.如权利要求1所述的方法,其特征在于,所述方法还包括:当所述数据类型不是基本数据类型时,则获得第三网页,其中,所述第一网页和所述第三网页具有相同的属性信息。6.一种数据处理装置,其特征在于,所述装置包括:第一获得单元,所述第一获得单元用于获得第一网页;第二获得单元,所述第...

【专利技术属性】
技术研发人员:李哲君卫华飞赵平西
申请(专利权)人:陕西识代运筹信息科技股份有限公司
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1