对小说网页内容选择性抽取方法和装置制造方法及图纸

技术编号:10999908 阅读:98 留言:0更新日期:2015-02-04 20:34
本发明专利技术提供了一种对小说网页内容选择性抽取方法和装置,该方法包括:将目标小说网页解析成文本对象模型树结构;对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。本发明专利技术通过对文本对象模型树结构中的各结点进行分类,实现对小说网页进行结构分块,进而实现对信息丰富而复杂的小说网页的网页内容的有效抽取。

【技术实现步骤摘要】
对小说网页内容选择性抽取方法和装置
本专利技术涉及互联网
,特别是一种对小说网页内容选择性抽取方法和装置。
技术介绍
小说网页内容的抽取在搜索引擎、移动阅读等领域有着越来越重要的作用。一般而言,小说网页包含的信息丰富而复杂,可以包括有标题、作者信息、目录、正文、广告等内容。因而,为了在小说网页中抽取有效的内容,亟需提供一种高效、通用性强的小说网页内容的抽取方法。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的对小说网页内容选择性抽取方法和相应的装置。 依据本专利技术的一个方面,提供了一种对小说网页内容选择性抽取方法,包括:将目标小说网页解析成文本对象模型树结构;对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。 可选地,对所述文本对象模型树结构中的各结点进行分类,包括:遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各节点的内容;按照预设规则将所述各节点的内容输入决策树,由所述决策树对所述各节点进行分类。 可选地,遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各节点的内容,包括:对所述文本对象模型树结构进行后跟遍历,通过累加所述当前遍历结点的所有子结点的内容得到所述当前遍历结点的内容。 可选地,由所述决策树对所述各节点进行分类,包括:由所述决策树分析所述各节点的内容,得到所述各节点的维度特征;根据所述各节点的维度特征对所述各节点进行分类。 可选地,所述决策树是由用于训练的、小说网页的不同类型的块以及每种类型的块对应的至少一个维度特征训练得到。 可选地,按照预设规则将所述各节点的内容输入决策树,包括:采用先跟遍历的顺序将所述各节点的内容输入决策树。 可选地,所述维度特征包括下列至少之一:文本长度、超链接个数、超链接文本长度、高亮文本长度、中文字符长度、英文字符长度、数字字符长度、特定关键词、特定标点符号。 可选地,所述目标小说网页的结构分块的类型包括下列至少之一:小说名称块、作者信息块、摘要信息块、附加信息块、发表日期块、目录块、正文块、翻页块、广告块、垃圾块。 可选地,所述目标小说网页为来自多个站点的同一本小说的小说网页,根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据之后,还包括:识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据。 可选地,识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据,包括:计算选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据的特征向量;将具备相同特征向量的结构化数据进行聚类,得到不同特征向量的结构化数据作为不同的结构化数据。 依据本专利技术的另一个方面,还提供了一种对小说网页内容选择性抽取装置,包括: 解析模块,适于将目标小说网页解析成文本对象模型树结构结构; 分类模块,适于对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块; 抽取模块,适于根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。 可选地,所述分类模块还适于:遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各节点的内容;按照预设规则将所述各节点的内容输入决策树,由所述决策树对所述各节点进行分类。 可选地,所述分类模块还适于:对所述文本对象模型树结构进行后跟遍历,通过累加所述当前遍历结点的所有子结点的内容得到所述当前遍历结点的内容。 可选地,所述分类模块还适于:由所述决策树分析所述各节点的内容,得到所述各节点的维度特征;根据所述各节点的维度特征对所述各节点进行分类。 可选地,所述决策树是由用于训练的、小说网页的不同类型的块以及每种类型的块对应的至少一个维度特征训练得到。 可选地,所述分类模块还适于:采用先跟遍历的顺序将所述各节点的内容输入决策树。 可选地,所述维度特征包括下列至少之一:文本长度、超链接个数、超链接文本长度、高亮文本长度、中文字符长度、英文字符长度、数字字符长度、特定关键词、特定标点符号。 可选地,所述目标小说网页的结构分块的类型包括下列至少之一:小说名称块、作者信息块、摘要信息块、附加信息块、发表日期块、目录块、正文块、翻页块、广告块、垃圾块。 可选地,所述目标小说网页为来自多个站点的同一本小说的小说网页,在所述抽取模块根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据之后,还包括识别模块,适于:识别选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据,以识别出不同的结构化数据。 可选地,所述识别模块还适于:计算选择性抽取的来自多个站点的所述目标小说网页相应的结构化数据的特征向量;将具备相同特征向量的结构化数据进行聚类,得到不同特征向量的结构化数据作为不同的结构化数据。 依据本专利技术提供的技术方案,将目标小说网页解析成文本对象模型树结构,进而对文本对象模型树结构中的各结点进行分类,以确定目标小说网页的结构分块。随后根据结构分块选择性抽取目标小说网页相应的结构化数据。本专利技术基于对小说网页的页面分块提出,将目标小说网页解析成文本对象模型树结构,由于文本对象模型树结构反映了页面分块情况,因而可以对文本对象模型树结构中各结点进行分类,实现对小说网页进行结构分块,进而实现对信息丰富而复杂的小说网页的网页内容的有效抽取。 进一步地,本专利技术通过决策树对文本对象模型树结构中的各节点进行分类,确定目标小说网页的结构分块,分块准确度高,能够满足对复杂多变的小说网页进行处理的需要,且操作简单,易于实现。 另外,本专利技术还可以根据结构化分块分别对来自多个站点的同一本小说的小说网页选择性抽取相应的结构化数据,之后进行精细化识别,以识别出不同的结构化数据,从而判断该不同的结构化数据可能是不完整的或虚假的数据。例如,根据结构化分块分别对来自多个站点的同一本小说的小说网页选择性抽取作者信息块,之后识别作者信息块中的作者信息,识别出存在不同的作者信息,从而可以判断出该不同的作者信息可能是不完整或虚假的作者信息。 上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的【具体实施方式】。 根据下文结合附图对本专利技术具体实施例的详细描述,本领域技术人员将会更加明了本专利技术的上述以及其他目的、优点和特征。 【附图说明】 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中: 图1示出了根据本专利技术一个实施例的一种常见的小说网页的页面结构的分块示意图; 图2示出了根据本专利技术一个实施例的另一种常见的小说网页的页面结构的分块示意图; 图3示出了根据本专利技术一个实施例的对小说网页内容选择性抽取方法的流程图; 图4示出了根据本专利技术一个实施例的对小说网页内容选择性抽取装置的结本文档来自技高网...
对小说网页内容选择性抽取方法和装置

【技术保护点】
一种对小说网页内容选择性抽取方法,包括:将目标小说网页解析成文本对象模型树结构;对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块;根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。

【技术特征摘要】
1.一种对小说网页内容选择性抽取方法,包括: 将目标小说网页解析成文本对象模型树结构; 对所述文本对象模型树结构中的各结点进行分类,以确定所述目标小说网页的结构分块; 根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。2.根据权利要求1所述的方法,其中,对所述文本对象模型树结构中的各结点进行分类,包括: 遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各节点的内容; 按照预设规则将所述各节点的内容输入决策树,由所述决策树对所述各节点进行分类。3.根据权利要求1或2所述的方法,其中,遍历所述文本对象模型树结构,得到所述文本对象模型树结构中各节点的内容,包括: 对所述文本对象模型树结构进行后跟遍历,通过累加所述当前遍历结点的所有子结点的内容得到所述当前遍历结点的内容。4.根据权利要求1-3任一项所述的方法,其中,由所述决策树对所述各节点进行分类,包括: 由所述决策树分析所述各节点的内容,得到所述各节点的维度特征; 根据所述各节点的维度特征对所述各节点进行分类。5.根据权利要求1-4任一项所述的方法,其中,所述决策树是由用于训练的、小说网页的不同类型的块以及每种类型的块对应的至少一个维度特征训练得到。6.根据权利要求1-...

【专利技术属性】
技术研发人员:魏少俊郑燕琴
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1