一种提取页面信息的方法及装置制造方法及图纸

技术编号:15101233 阅读:70 留言:0更新日期:2017-04-08 10:06
本发明专利技术提供了一种提取页面信息的方法及装置。该方法包括:获取待处理网页的源代码和DOM树,从服务器获取待处理网页的转码配置信息,待处理网页的转码配置信息包括待处理网页的每个业务块的定位信息和数据结构类型;根据业务块的定位信息,从DOM树中获取业务块对应的DOM节点;根据业务块的数据结构类型,从预设的算法库中获取业务块对应的识别算法;根据业务块对应的识别算法,从业务块的DOM节点对应的网页源代码中提取页面信息。本发明专利技术根据预设的算法库及网页的转码配置信息,高效准确地提取网页的页面信息,即便对于新增网页,也能够成功地从新增网页中提取页面信息。

【技术实现步骤摘要】

本专利技术涉及互联网及终端
,具体而言,涉及一种提取页面信息的方法及装置
技术介绍
目前,网站开发的网页大都只适用于在个人电脑等具有大尺寸屏幕的终端上显示。但随着科技发展,出现了平板电脑及智能手机等具有不同尺寸屏幕的终端,要使这些终端能正常显示网页,需要从网页中提取出适于这些终端显示的页面信息。当前,传统的提取页面信息的方法都是按预设规则来抽取页面信息的。例如,预设规则可以为预先设置的关键词,当从网页中提取页面信息时,根据预先设置的关键词遍历网页中的页面信息,从网页中提取出与关键词相匹配的页面信息。但互联网中每天都会产生大量的新增网页,利用原有的预设规则很难从新增网页中提取出页面信息,因此传统的提取页面信息的方法需要频繁的修改预设规则,导致从网页中提取页面信息的效率不高。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种提取页面信息的方法及装置,实现高效准确地提取网页的页面信息。第一方面,本专利技术实施例提供一种提取页面信息的方法,所述方法包括:获取待处理网页的源代码和文档对象模型DOM树,从服务器获取所述待处理网页的转码配置信息,所述待处理网页的转码配置信息包括所述待处理网页的每个业务块的定位信息和数据结构类型;根据所述业务块的定位信息,从所述DOM树中获取所述业务块对应的DOM节点;以及根据所述业务块的数据结构类型,从预设的算法库中获取所述业务块对应的识别算法;根据所述业务块对应的识别算法,从所述业务块的DOM节点对应的网页源代码中提取页面信息。结合第一方面,本专利技术实施例提供了上述第一方面的第一种可能的实现方式,其中,所述根据所述业务块对应的识别算法,从所述业务块的DOM节点对应的网页源代码中提取页面信息,包括:通过所述业务块对应的识别算法对所述业务块的DOM节点对应的网页源代码进行识别运算,识别出所述业务块中的目标数据;将所述目标数据转换为JSON格式的页面信息,并输出所述JSON格式的页面信息。结合第一方面或第一方面的第一种可能的实现方式,本专利技术实施例提供了上述第一方面的第二种可能的实现方式,其中,所述从服务器获取所述待处理网页的转码配置信息之前,还包括:按照业务类型对所述待处理网页的DOM树进行划分,得到所述待处理网页的每个业务块;分别获取所述每个业务块在所述待处理网页的DOM树中的定位信息;以及根据所述每个业务块对应的源代码,分别确定所述每个业务块的数据结构类型;将所述每个业务块的定位信息及数据结构类型组成所述待处理网页的转码配置信息。结合第一方面的第二种可能的实现方式,本专利技术实施例提供了上述第一方面的第三种可能的实现方式,其中,所述分别获取所述每个业务块在所述待处理网页的DOM树中的定位信息,包括:通过xPath路径方式分别从所述待处理网页的DOM树中遍历所述每个业务块对应的DOM节点的路径;将所述每个业务块对应的DOM节点的路径确定为所述每个业务块的定位信息。结合第一方面的第二种可能的实现方式,本专利技术实施例提供了上述第一方面的第四种可能的实现方式,其中,所述根据所述每个业务块对应的源代码,分别确定所述每个业务块的数据结构类型,包括:从所述每个业务块对应的源代码中,分别获取所述每个业务块包含的标签的类型;根据预设的结构判定策略及所述每个业务块包含的标签的类型,分别确定所述每个业务块的数据结构类型。结合第一方面,本专利技术实施例提供了上述第一方面的第五种可能的实现方式,其中,所述根据所述业务块的数据结构类型,从预设的算法库中获取所述业务块对应的识别算法之前,还包括:从多个识别算法中,分别确定每种数据结构类型对应的识别算法,将每种数据结构类型及每种数据结构类型对应的识别算法存储在算法库中。结合第一方面的第五种可能的实现方式,本专利技术实施例提供了上述第一方面的第六种可能的实现方式,其中,所述从多个识别算法中,分别确定每种数据结构类型对应的识别算法,包括:标注数据结构类型对应的业务块中的目标数据;依次通过多个识别算法中的每个识别算法对所述数据结构类型的业务块进行识别运算;将识别出所述目标数据的识别算法确定为所述数据结构类型对应的识别算法。结合第一方面,本专利技术实施例提供了上述第一方面的第七种可能的实现方式,其中,所述方法还包括:当所述预设的算法库中没有所述业务块的数据结构类型对应的识别算法时,发送所述数据结构类型对应的算法获取请求给管理终端,并接收所述管理终端返回的所述数据结构类型对应的识别算法,将所述数据结构类型与接收的所述识别算法对应存储在所述预设的算法库中。结合第一方面,本专利技术实施例提供了上述第一方面的第八种可能的实现方式,其中,所述根据所述业务块的定位信息,从所述DOM树中获取所述业务块对应的DOM节点,包括:按照所述业务块的定位信息指示的路径,通过xPath路径方式遍历所述待处理网页的DOM树中的DOM节点,得到所述业务块对应的DOM节点。第二方面,本专利技术实施例提供了一种提取页面信息的装置,所述装置包括:第一获取模块,用于获取待处理网页的源代码和文档对象模型DOM树,从服务器获取所述待处理网页的转码配置信息,所述待处理网页的转码配置信息包括所述待处理网页的每个业务块的定位信息和数据结构类型;第二获取模块,用于根据所述业务块的定位信息,从所述DOM树中获取所述业务块对应的DOM节点;第三获取模块,用于根据所述业务块的数据结构类型,从预设的算法库中获取所述业务块对应的识别算法;提取模块,用于根据所述业务块对应的识别算法,从所述业务块的DOM节点对应的网页源代码中提取页面信息。结合第二方面,本专利技术实施例提供了上述第二方面的第一种可能的实现方式,其中,所述提取模块包括:第一识别单元,用于通过所述业务块对应的识别算法对所述业务块的DOM节点对应的网页源代码进行识别运算,识别出所述业务块中的目标数据;转换单元,用于将所述目标数据转换为JSON格式的页面信息,并输出所述JSON格式的页面信息。结合第二方面或第二方面的第一种可能的实现方式,本专利技术实施例提供了上述第二方面的第二种可能的实现方式,其中,所述装置还包括:划分模块,用于按照业务类型对所述待处理网页的DOM树进行划分,得到所述待处理网页的每个业务块;...
一种提取页面信息的方法及装置

【技术保护点】
一种提取页面信息的方法,其特征在于,所述方法包括:获取待处理网页的源代码和文档对象模型DOM树,从服务器获取所述待处理网页的转码配置信息,所述待处理网页的转码配置信息包括所述待处理网页的每个业务块的定位信息和数据结构类型;根据所述业务块的定位信息,从所述DOM树中获取所述业务块对应的DOM节点;以及根据所述业务块的数据结构类型,从预设的算法库中获取所述业务块对应的识别算法;根据所述业务块对应的识别算法,从所述业务块的DOM节点对应的网页源代码中提取页面信息。

【技术特征摘要】
1.一种提取页面信息的方法,其特征在于,所述方法包括:
获取待处理网页的源代码和文档对象模型DOM树,从服务器
获取所述待处理网页的转码配置信息,所述待处理网页的转码配置
信息包括所述待处理网页的每个业务块的定位信息和数据结构类
型;
根据所述业务块的定位信息,从所述DOM树中获取所述业务
块对应的DOM节点;以及根据所述业务块的数据结构类型,从预
设的算法库中获取所述业务块对应的识别算法;
根据所述业务块对应的识别算法,从所述业务块的DOM节点
对应的网页源代码中提取页面信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述业
务块对应的识别算法,从所述业务块的DOM节点对应的网页源代
码中提取页面信息,包括:
通过所述业务块对应的识别算法对所述业务块的DOM节点对
应的网页源代码进行识别运算,识别出所述业务块中的目标数据;
将所述目标数据转换为JSON格式的页面信息,并输出所述
JSON格式的页面信息。
3.根据权利要求1或2所述的方法,其特征在于,所述从服务
器获取所述待处理网页的转码配置信息之前,还包括:
按照业务类型对所述待处理网页的DOM树进行划分,得到所
述待处理网页的每个业务块;
分别获取所述每个业务块在所述待处理网页的DOM树中的定
位信息;以及根据所述每个业务块对应的源代码,分别确定所述每
个业务块的数据结构类型;
将所述每个业务块的定位信息及数据结构类型组成所述待处理
网页的转码配置信息。
4.根据权利要求3所述的方法,其特征在于,所述分别获取所
述每个业务块在所述待处理网页的DOM树中的定位信息,包括:
通过xPath路径方式分别从所述待处理网页的DOM树中遍历
所述每个业务块对应的DOM节点的路径;
将所述每个业务块对应的DOM节点的路径确定为所述每个业
务块的定位信息。
5.根据权利要求3所述的方法,其特征在于,所述根据所述每
个业务块对应的源代码,分别确定所述每个业务块的数据结构类型,
包括:
从所述每个业务块对应的源代码中,分别获取所述每个业务块
包含的标签的类型;
根据预设的结构判定策略及所述每个业务块包含的标签的类
型,分别确定所述每个业务块的数据结构类型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述业
务块的数据结构类型,从预设的算法库中获取所述业务块对应的识
别算法之前,还包括:
从多个识别算法中,分别确定每种数据结构类型对应的识别算
法,将每种数据结构类型及每种数据结构类型对应的识别算法存储
在算法库中。
7.根据权利要求6所述的方法,其特征在于,所述从多个识别
算法中,分别确定每种数据结构类型对应的识别算法,包括:
标注数据结构类型对应的业务块中的目标数据;
依次通过多个识别算法中的每个识别算法对所述数据结构类型
的业务块进行识别运算;
将识别出所述目标数据的识别算法确定为所述数据结构类型对
应的识别算法。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述预设的算法库中没有所述业务块的数据结构类型对应的
识别算法时,发送所述数据结构类型对应的算法获取请求给管理终
端,并接收所述管理终端返回的所述数据结构类型对应的识别算法,
将所述数据结构类型与接收的所述识别算法对应存储在所述预设的
算法库中。
9.根据权利要求1所述的方法,其特征在于,所述根据所述业
务块的定位信息,从所述DOM树中获取所述业务块对应的DOM
节点,包括:
按照所述业务块的定位信息指示的路径,通过xPath路径方式
遍历所述待处理网页的DOM树中的DOM节点,得到所述业...

【专利技术属性】
技术研发人员:梁捷蔡明唐俊开
申请(专利权)人:广州市动景计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1