对小说网页内容选择性抽取方法和装置制造方法及图纸

技术编号：10999908 阅读：98 留言：0更新日期：2015-02-04 20:34

本发明专利技术提供了一种对小说网页内容选择性抽取方法和装置，该方法包括：将目标小说网页解析成文本对象模型树结构；对所述文本对象模型树结构中的各结点进行分类，以确定所述目标小说网页的结构分块；根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。本发明专利技术通过对文本对象模型树结构中的各结点进行分类，实现对小说网页进行结构分块，进而实现对信息丰富而复杂的小说网页的网页内容的有效抽取。

全部详细技术资料下载

【技术实现步骤摘要】
对小说网页内容选择性抽取方法和装置
本专利技术涉及互联网
，特别是一种对小说网页内容选择性抽取方法和装置。
技术介绍
小说网页内容的抽取在搜索引擎、移动阅读等领域有着越来越重要的作用。一般而言，小说网页包含的信息丰富而复杂，可以包括有标题、作者信息、目录、正文、广告等内容。因而，为了在小说网页中抽取有效的内容，亟需提供一种高效、通用性强的小说网页内容的抽取方法。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的对小说网页内容选择性抽取方法和相应的装置。依据本专利技术的一个方面，提供了一种对小说网页内容选择性抽取方法，包括:将目标小说网页解析成文本对象模型树结构；对所述文本对象模型树结构中的各结点进行分类，以确定所述目标小说网页的结构分块；根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。可选地，对所述文本对象模型树结构中的各结点进行分类，包括:遍历所述文本对象模型树结构，得到所述文本对象模型树结构中各节点的内容；按照预设规则将所述各节点的内容输入决策树，由所述决策树对所述各节点进行分类。可选地，遍历所述文本对象模型树结构，得到所述文本对象模型树结构中各节点的内容，包括:对所述文本对象模型树结构进行后跟遍历，通过累加所述当前遍历结点的所有子结点的内容得到所述当前遍历结点的内容。可选地，由所述决策树对所述各节点进行分类，包括:由所述决策树分析所述各节点的内容，得到所述各节点的维度特征；根据所述各节点的维度特征对所述各节点进行分类。可选地，所述...
对小说网页内容选择性抽取方法和装置

【技术保护点】
一种对小说网页内容选择性抽取方法，包括：将目标小说网页解析成文本对象模型树结构；对所述文本对象模型树结构中的各结点进行分类，以确定所述目标小说网页的结构分块；根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。

【技术特征摘要】
1.一种对小说网页内容选择性抽取方法，包括: 将目标小说网页解析成文本对象模型树结构；对所述文本对象模型树结构中的各结点进行分类，以确定所述目标小说网页的结构分块；根据所述结构分块选择性抽取所述目标小说网页相应的结构化数据。2.根据权利要求1所述的方法，其中，对所述文本对象模型树结构中的各结点进行分类，包括: 遍历所述文本对象模型树结构，得到所述文本对象模型树结构中各节点的内容；按照预设规则将所述各节点的内容输入决策树，由所述决策树对所述各节点进行分类。3.根据权利要求1或2所述的方法，其中，遍历所述文本对象模型树结构，得到所述文本对象模型树结构中各节点的内容，包括: 对所述文本对象模型树结构进行后跟遍历，通过累加所述当前遍历结点的所有子结点的内容得到所述当前遍历结点的内容。4.根据权利要求1-3任一项所述的方法，其中，由所述决策树对所述各节点进行分类，包括: 由所述决策树分析所述各节点的内容，得到所述各节点的维度特征；根据所述各节点的维度特征对所述各节点进行分类。5.根据权利要求1-4任一项所述的方法，其中，所述决策树是由用于训练的、小说网页的不同类型的块以及每种类型的块对应的至少一个维度特征训练得到。6.根据权利要求1-...

【专利技术属性】
技术研发人员：魏少俊，郑燕琴，
申请(专利权)人：北京奇虎科技有限公司，奇智软件北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人