网页信息抽取方法及装置制造方法及图纸

技术编号：14399525 阅读：43 留言：0更新日期：2017-01-11 12:45

本发明专利技术公开一种网页信息抽取方法，所述网页信息抽取方法包括以下步骤：接收到信息抽取请求时，根据网页中HTML元素建立节点树；根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置；抽取所述目标位置对应的信息。本发明专利技术还公开一种网页信息抽取装置。本发明专利技术降低了信息抽取的操作难度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络
，尤其涉及网页信息抽取方法及装置。
技术介绍
众所周知，在现有技术中在进行网页信息抽取时，通常采用特征词，依靠特征词来定位待抽取信息的位。由于采用特征词进行定位时需要对网站中的特征词进行再三提炼；同时，过于通用的特征词在特定的网页中会造成误判，而过于特殊的特征词则难以适用于其它网页的抽取。因此在这种抽取方法中需要利用分词和文本语义识别技术，以提高信息抽取的准确度；但是由于采用分词和文本语义识别技术，导致了信息抽取的难度较大。
技术实现思路
本专利技术实施例的主要目的是提供一种网页信息抽取方法及装置，旨在降低信息抽取的操作难度。为实现上述目的，本专利技术实施例提供了一种网页信息抽取方法，所述网页信息抽取方法包括以下步骤：接收到信息抽取请求时，根据网页中HTML元素建立节点树；根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置；抽取所述目标位置对应的信息。此外，为了实现上述专利技术目的，本专利技术实施例还提供了一种网页信息抽取装置，所述网页信息抽取装置包括：建模模块，用于接收到信息抽取请求时，根据网页中HTML元素建立节点树；确定模块，用于根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置；抽取模块，用于抽取所述目标位置对应的信息。本专利技术实施例通过接收到信息抽取请求时，根据网页中HTML元素建立节点树；然后根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置；最后抽取所述目标位置对应的信息；以完成网页中进行信息抽取的操作。由于在进行信息抽取时，本专...
网页信息抽取方法及装置

【技术保护点】
一种网页信息抽取方法，其特征在于，所述网页信息抽取方法包括以下步骤：接收到信息抽取请求时，根据网页中HTML元素建立节点树；根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置；抽取所述目标位置对应的信息。

【技术特征摘要】
1.一种网页信息抽取方法，其特征在于，所述网页信息抽取方法包括以下步骤：接收到信息抽取请求时，根据网页中HTML元素建立节点树；根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置；抽取所述目标位置对应的信息。2.如权利要求1所述的网页信息抽取方法，其特征在于，所述接收到信息抽取请求时，根据网页中HTML元素建立节点树之前还包括：根据所述待抽取信息的类型和所述待抽取信息在所述节点树中的位置按照预置规则生成配置信息；根据所述配置信息生成信息抽取请求。3.如权利要求2所述的网页信息抽取方法，其特征在于，所述根据所述信息抽取请求中预设的配置信息在所述节点树中确定待抽取信息的目标位置包括：根据所述待抽取信息的类型和所述待抽取信息在所述节点树中的位置，按照树遍历算法确定所述目标位置。4.如权利要求1至3中任一项所述的网页信息抽取方法，其特征在于，所述接收到信息抽取请求时，根据网页中HTML元素建立节点树包括：接收到信息抽取请求时，解析HTML文本内容；当解析到HTML元素的开始标签时，将当前解析到的HTML元素设定为目标节点继续解析；将解析获得的非HTML元素内容的字符串以子节点的形式添加在所述目标节点下，并判断是否再次解析到HTML元素的开始标签；若是，则将当前解析到的HTML元素设定为所述目标节点的子节点；然后将所述子节点设定为目标节点继续解析，并执行所述将解析获得的非
\tHTML元素内容的字符串以子节点的形式添加在所述目标节点下，并判断是否再次解析到HTML元素的开始标签的步骤；若否，则在解析到的所述目标节点对应HTML元素的结束标签为非首个HTLM元素对应的HTML元素的结束标签时，将所述目标节点的父节点设置为目标节点继续解析，并执行所述将解析获得的非HTML元素内容的字符串以子节点的形式添加在所述目标节点下，并执行所述将解析获得的非HTML元素内容的字符串以子节点的形式添加在所述目标节点下，并判断是否再次解析到HTML元素的开始标签的步骤；在解析到的所述目标节点对应HTML元素的结束标签为首个HTLM元素对应的HTML元素的结束标签时，结束对HTML文本内容的解析，根据各节点的递归关系形成节点树。5.如权利要求4所述的网页信息抽取方法，其特征在于，所述将解析获得的非HTML元素内容的字符串以子节点的形式添加在所述目标节点下，并判断是否再次解析到HTML元素的开始标签之前还包括：当解析到所述目标节点对应HTML元素的元素属性和属性值时，将所述元素属性和属性值设定为所述目...

【专利技术属性】
技术研发人员：马莘权，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人