The invention belongs to the technical field of information acquisition, in particular to a data processing method and device. The method includes: obtaining a first page; according to the object the first page to get the first page; according to the object and the first \won the first mapping between the first page and the object; second\, among them, the first web page and the second page has the attribute the same information is obtained; get the element in the second page of the position according to the first mapping; according to the first mapping the data elements to be obtained in the position; judging whether the data types of the data; when the data type is the basic data types, the the data were normalized. Through the technical proposal, the utility model solves the technical problems that the code reuse rate is low in the prior art, and the code management is confused and the analysis result can not be directly used.
【技术实现步骤摘要】
一种数据处理方法和装置
本专利技术涉及信息获取
,尤其涉及一种数据处理方法和装置。
技术介绍
随着web网页数量的快速增长,为了使用户能够快速准确的获得自己感兴趣的信息,通常会先对这些页面数据进行信息提取,进行网页解析。但是,本领域技术人员在日常工作中发现现有技术中存在如下不足:现有技术中的网页解析方法,在任务较多时,代码复用率低;不同项目解析内容不同,当多人共同完成时,由于没有固定的编码规范,易造成代码管理混乱;而且解析结果均为网页上的原始值,大多不能直接使用。
技术实现思路
本专利技术实施例提供了一种数据处理方法和装置,解决了现有技术中在任务较多时代码复用率低,当多人共同完成时易造成代码管理混乱,解析结果均为网页上的原始值,大多不能直接使用的技术问题,具有提高代码复用率,使代码管理简便,可得到能够直接使用的数据,降低对解析工作人员的技术要求的技术效果。本申请实施例提供一种数据处理方法,应用于对网页的数据采集,所述方法包括:获得第一网页;根据所述第一网页获得所述第一网页的对象;根据所述对象和所述第一网页获得所述第一网页和所述对象之间的第一映射关系;获得第二网页,其中,所述第一网页和所述第二网页具有相同的属性信息;根据所述第一映射关系获得待获取元素在所述第二网页中的位置;根据所述第一映射关系获得所述待获取元素在所述位置的数据;判断所述数据的数据类型;当所述数据类型是基本数据类型时,对所述数据进行标准化处理。进一步地,所述方法还包括:将所述标准化处理后的数据存储到数据库中。进一步地,所述对象还包括定位注解,所述根据所述第一映射关系获得待获取元素在所述第二网 ...
【技术保护点】
一种数据处理方法,应用于对网页的数据采集,其特征在于,所述方法包括:获得第一网页;根据所述第一网页获得所述第一网页的对象;根据所述对象和所述第一网页获得所述第一网页和所述对象之间的第一映射关系;获得第二网页,其中,所述第一网页和所述第二网页具有相同的属性信息;根据所述第一映射关系获得待获取元素在所述第二网页中的位置;根据所述第一映射关系获得所述待获取元素在所述位置的数据;判断所述数据的数据类型;当所述数据类型是基本数据类型时,对所述数据进行标准化处理。
【技术特征摘要】
1.一种数据处理方法,应用于对网页的数据采集,其特征在于,所述方法包括:获得第一网页;根据所述第一网页获得所述第一网页的对象;根据所述对象和所述第一网页获得所述第一网页和所述对象之间的第一映射关系;获得第二网页,其中,所述第一网页和所述第二网页具有相同的属性信息;根据所述第一映射关系获得待获取元素在所述第二网页中的位置;根据所述第一映射关系获得所述待获取元素在所述位置的数据;判断所述数据的数据类型;当所述数据类型是基本数据类型时,对所述数据进行标准化处理。2.如权利要求1所述的方法,其特征在于,所述方法还包括:将所述标准化处理后的数据存储到数据库中。3.如权利要求1所述的方法,其特征在于,所述对象还包括定位注解,所述根据所述第一映射关系获得待获取元素在所述第二网页中的位置,具体为:根据定位注解获得待获取元素在所述第二网页中的位置。4.如权利要求1所述的方法,其特征在于,所述对象还包括取值注解,所述根据所述第一映射关系获得所述待获取元素在所述位置的数据,具体为:通过调用取值注解获得所述待获取元素在所述位置的数据。5.如权利要求1所述的方法,其特征在于,所述方法还包括:当所述数据类型不是基本数据类型时,则获得第三网页,其中,所述第一网页和所述第三网页具有相同的属性信息。6.一种数据处理装置,其特征在于,所述装置包括:第一获得单元,所述第一获得单元用于获得第一网页;第二获得单元,所述第...
【专利技术属性】
技术研发人员:李哲君,卫华飞,赵平西,
申请(专利权)人:陕西识代运筹信息科技股份有限公司,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。