网页信息抽取方法及装置制造方法及图纸

技术编号:14399525 阅读:43 留言:0更新日期:2017-01-11 12:45
本发明专利技术公开一种网页信息抽取方法,所述网页信息抽取方法包括以下步骤:接收到信息抽取请求时,根据网页中HTML元素建立节点树;根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置;抽取所述目标位置对应的信息。本发明专利技术还公开一种网页信息抽取装置。本发明专利技术降低了信息抽取的操作难度。

【技术实现步骤摘要】

本专利技术涉及网络
,尤其涉及网页信息抽取方法及装置
技术介绍
众所周知,在现有技术中在进行网页信息抽取时,通常采用特征词,依靠特征词来定位待抽取信息的位。由于采用特征词进行定位时需要对网站中的特征词进行再三提炼;同时,过于通用的特征词在特定的网页中会造成误判,而过于特殊的特征词则难以适用于其它网页的抽取。因此在这种抽取方法中需要利用分词和文本语义识别技术,以提高信息抽取的准确度;但是由于采用分词和文本语义识别技术,导致了信息抽取的难度较大。
技术实现思路
本专利技术实施例的主要目的是提供一种网页信息抽取方法及装置,旨在降低信息抽取的操作难度。为实现上述目的,本专利技术实施例提供了一种网页信息抽取方法,所述网页信息抽取方法包括以下步骤:接收到信息抽取请求时,根据网页中HTML元素建立节点树;根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置;抽取所述目标位置对应的信息。此外,为了实现上述专利技术目的,本专利技术实施例还提供了一种网页信息抽取装置,所述网页信息抽取装置包括:建模模块,用于接收到信息抽取请求时,根据网页中HTML元素建立节点树;确定模块,用于根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置;抽取模块,用于抽取所述目标位置对应的信息。本专利技术实施例通过接收到信息抽取请求时,根据网页中HTML元素建立节点树;然后根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置;最后抽取所述目标位置对应的信息;以完成网页中进行信息抽取的操作。由于在进行信息抽取时,本专利技术实施例是基于由HTML文本生成的节点树,在节点树上进行信息抽取;相对于现有技术采用文本分词和语义识别,进行信息抽取的方式,本专利技术实施例可以降低信息抽取的操作难度,从而从整体上降低HTML网页中信息的抽取成本。附图说明图1是本专利技术网页信息抽出装置第一实施例的硬件框架结构示意图;图2是本专利技术网页信息抽出装置第二实施例的功能模块结构示意图;图3是本专利技术网页信息抽出装置第三实施例的功能模块结构示意图;图4是本专利技术网页信息抽出装置中建模模块的第一实施例的细化功能模块结构示意图;图5是本专利技术网页信息抽出装置中HTML文本示例图;图6是根据图5解析后得到的节点树;图7是本专利技术网页信息抽出装置中建模模块的第二实施例的细化功能模块结构示意图;图8是本专利技术网页信息抽出方法第一实施例的流程示意图;图9是本专利技术网页信息抽出方法第二实施例的流程示意图;图10是本专利技术网页信息抽出方法第三实施例的流程示意图;图11是本专利技术网页信息抽出方法建立节点树中第一实施例的细化流程示意图;图12是本专利技术网页信息抽出方法建立节点树中第二实施例的细化流程示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式以下结合说明书附图及具体实施例进一步说明本专利技术的技术方案。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。参照图1,提出本专利技术网页信息抽出装置第一实施例。该实施例中,该网页信息抽出装置包括:处理器111、存储器112、用户接口113、网络接口114及通信总线115。通信总线115用于数据服务器中各组成部件之间的通信,用户接口113用于接收用户输入的信息,该用户接口可以为有线接口及无线接口,例如键盘、鼠标等。网络接口114用于数据服务器与外部进行互相通信,该网络接口114也可以包括有线接口及无线接口。存储器112可以包括一个或一个以上计算机可读存储介质,而且其不但包括内部存储器,还包括外部存储器。该存储器中存储有操作系统及网页信息抽出程序等等。处理器111用于调用存储器112中的网页信息抽出程序,以执行以下操作:接收到信息抽取请求时,根据网页中HTML元素建立节点树;根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置;抽取所述目标位置对应的信息。进一步地,处理器111还用于调用存储器112中的网页信息抽出程序,以执行以下操作:所述接收到信息抽取请求时,根据网页中HTML元素建立节点树之前还包括:根据所述待抽取信息的类型和所述待抽取信息在所述节点树中的位置按照预置规则生成配置信息;根据所述配置信息生成信息抽取请求。进一步地,处理器111还用于调用存储器112中的网页信息抽出程序,以执行以下操作:所述根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置包括:根据所述待抽取信息的类型和所述待抽取信息在所述节点树中的位置,按照树遍历算法确定所述目标位置。进一步地,处理器111还用于调用存储器112中的网页信息抽出程序,以执行以下操作:所述接收到信息抽取请求时,根据网页中HTML元素建立节点树包括:接收到信息抽取请求时,解析HTML文本内容;当解析到HTML元素的开始标签时,将当前解析到的HTML元素设定为目标节点继续解析;将解析获得的非HTML元素内容的字符串以子节点的形式添加在所述目标节点下,并判断是否再次解析到HTML元素的开始标签;若是,则将当前解析到的HTML元素设定为所述目标节点的子节点;然后将所述子节点设定为目标节点继续解析,并执行所述将解析获得的非HTML元素内容的字符串以子节点的形式添加在所述目标节点下,并判断是否再次解析到HTML元素的开始标签的步骤;若否,则在解析到的所述目标节点对应HTML元素的结束标签为非首个HTLM元素对应的HTML元素的结束标签时,将所述目标节点的父节点设置为目标节点继续解析,并执行所述将解析获得的非HTML元素内容的字符串以子节点的形式添加在所述目标节点下,并判断是否再次解析到HTML元素的开始标签的步骤;在解析到的所述目标节点对应HTML元素的结束标签为首个HTLM元素对应的HTML元素的结束标签时,结束对HTML文本内容的解析,根据各节点的递归关系形成节点树。进一步地,处理器111还用于调用存储器112中的网页信息抽出程序,以执行以下操作:所述将解析获得的非HTML元素内容的字符串以子节点的形式添加在所述目标节点下,并判断是否再次解析到HTML元素的开始标签之前还包括:当解析到所述目标节点对应HTML元素的元素属性和属性值时,将所述元素属性和属性值设定为所述目标节点的子节点。本专利技术实施例通过接收到信息抽取请求时,根据网页中HTML元素建立节点树;然后根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置;最后抽取所述目标位置对应的信息;以完成网页中进行信息抽取的操作。由于在进行信息抽取时,本专利技术实施例是基于由HTML文本生成的节点树,在节点树上进行信息抽取;相对于现有技术采用文本分词和语义识别,进行信息抽取的方式,本专利技术实施例可以降低信息抽取的操作难度,从而从整体上降低HTML网页中信息的抽取成本。参照图2,提供了本专利技术一种网页信息抽取装置的第二实施例,本实施例中提供的网页信息抽取装置包括:建模模块10,用于接收到信息抽取请求时,根据网页中HTML元素建立节点树;确定模块20,用于根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置;抽取模块30,用于抽取所述目标位置对应本文档来自技高网...
网页信息抽取方法及装置

【技术保护点】
一种网页信息抽取方法,其特征在于,所述网页信息抽取方法包括以下步骤:接收到信息抽取请求时,根据网页中HTML元素建立节点树;根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置;抽取所述目标位置对应的信息。

【技术特征摘要】
1.一种网页信息抽取方法,其特征在于,所述网页信息抽取方法包括以下步骤:接收到信息抽取请求时,根据网页中HTML元素建立节点树;根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置;抽取所述目标位置对应的信息。2.如权利要求1所述的网页信息抽取方法,其特征在于,所述接收到信息抽取请求时,根据网页中HTML元素建立节点树之前还包括:根据所述待抽取信息的类型和所述待抽取信息在所述节点树中的位置按照预置规则生成配置信息;根据所述配置信息生成信息抽取请求。3.如权利要求2所述的网页信息抽取方法,其特征在于,所述根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置包括:根据所述待抽取信息的类型和所述待抽取信息在所述节点树中的位置,按照树遍历算法确定所述目标位置。4.如权利要求1至3中任一项所述的网页信息抽取方法,其特征在于,所述接收到信息抽取请求时,根据网页中HTML元素建立节点树包括:接收到信息抽取请求时,解析HTML文本内容;当解析到HTML元素的开始标签时,将当前解析到的HTML元素设定为目标节点继续解析;将解析获得的非HTML元素内容的字符串以子节点的形式添加在所述目标节点下,并判断是否再次解析到HTML元素的开始标签;若是,则将当前解析到的HTML元素设定为所述目标节点的子节点;然后将所述子节点设定为目标节点继续解析,并执行所述将解析获得的非
\tHTML元素内容的字符串以子节点的形式添加在所述目标节点下,并判断是否再次解析到HTML元素的开始标签的步骤;若否,则在解析到的所述目标节点对应HTML元素的结束标签为非首个HTLM元素对应的HTML元素的结束标签时,将所述目标节点的父节点设置为目标节点继续解析,并执行所述将解析获得的非HTML元素内容的字符串以子节点的形式添加在所述目标节点下,并执行所述将解析获得的非HTML元素内容的字符串以子节点的形式添加在所述目标节点下,并判断是否再次解析到HTML元素的开始标签的步骤;在解析到的所述目标节点对应HTML元素的结束标签为首个HTLM元素对应的HTML元素的结束标签时,结束对HTML文本内容的解析,根据各节点的递归关系形成节点树。5.如权利要求4所述的网页信息抽取方法,其特征在于,所述将解析获得的非HTML元素内容的字符串以子节点的形式添加在所述目标节点下,并判断是否再次解析到HTML元素的开始标签之前还包括:当解析到所述目标节点对应HTML元素的元素属性和属性值时,将所述元素属性和属性值设定为所述目...

【专利技术属性】
技术研发人员:马莘权
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1