一种提取网页正文的方法技术

技术编号：11074233 阅读：126 留言：0更新日期：2015-02-25 13:06

一种提取网页正文的方法，包括：根据待提取的网页的域名，判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息；若有，则根据所述提取信息对所述网页的正文进行提取；若所述站点知识库中没有对应于该域名的提取信息，或，根据该提取信息对所述网页的正文提取失败，则确定所述网页的正文节点，并通过提取所述正文节点中的文本获取所述网页的正文。彻底解放人工处理，减少了人工操作和干预成本；提高了程序提取网页正文的效率；实现了针对多种语言类的网站的自动提取，并且提取难度也会大大降低。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于通信领域，尤其涉及。
技术介绍
目前提取网站内容信息都是针对当前网站，人工去分析网站结构，然后针对网站主体内容结构去制定相应的模板，当网站改版后，则需要人工去判断，并修改以前的模板，每个不同站点的内容，甚至同个网站不同类型的站点内容，都需要配置一套相应的模板，当网站数量越来越多的时候，模板制定和维护的工作量也会越来越大，人工干预成本也会越来越高，效率也会越来越低。
技术实现思路
有鉴于此，为了解决现有技术中存在提取网页内容信息时需要大量的人工操作和干预成本的问题，本专利技术的目的是提出。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。在一些可选的实施例中，所述方法，包括: 根据待提取的网页的域名，判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息；若有，则根据所述提取信息对所述网页的正文进行提取；若所述站点知识库中没有对应于该域名的提取信息，或，根据该提取信息对所述网页的正文提取失败，则，确定所述网页的正文节点，并通过提取所述正文节点中的文本获取所述网页的正文。采用上述实施例，可达到以下效果: 彻底解放人工处理，减少了人工操作和干预成本，不需要人工去判断网站是否改版；提取内容成功后，会记录当前网页结构并保存到站点知识库中，当下次再提取相同站点则自动从站点知识库中调取以前的经验来提取正文，提高了程序提取...
一种提取网页正文的方法

【技术保护点】
一种提取网页正文的方法，其特征在于，包括：根据待提取的网页的域名，判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息；若有，则根据所述提取信息对所述网页的正文进行提取；若所述站点知识库中没有对应于该域名的提取信息，或，根据该提取信息对所述网页的正文提取失败，则，确定所述网页的正文节点，并通过提取所述正文节点中的文本获取所述网页的正文。

【技术特征摘要】
1.一种提取网页正文的方法，其特征在于，包括: 根据待提取的网页的域名，判断预置的站点知识库中是否存储有对应于该域名的用于提取正文的提取信息；若有，则根据所述提取信息对所述网页的正文进行提取；若所述站点知识库中没有对应于该域名的提取信息，或，根据该提取信息对所述网页的正文提取失败，则，确定所述网页的正文节点，并通过提取所述正文节点中的文本获取所述网页的正文。2.如权利要求1所述的方法，其特征在于，所述确定所述网页的正文节点的操作，包括以下几个步骤: 对所述网页进行预处理；建立正文候选池列表；根据所述正文候选池列表推测正文区域；根据所述正文区域，判断出所述正文节点。3.如权利要求1所述的方法，其特征在于，所述提取信息包括对应于该域名下多个网页的正文结构信息，并且所述正文结构信息按照成功提取次数从高到低进行排序；根据所述提取信息对所述网页的正文进行提取，具体包括: 按照所述正文结构信息的排列顺序，依次调取相应的正文结构信息，并根据该正文结构信息对所述网页的正文进行提取，直到提取成功；在所述提取成功后，还包括:记录该正文结构信息的成功提取次数，并根据当前的各所述正文结构信息的成功提取次数进行排序。4.如权利要求3所述的方法，其特征在于，在通过提取所述正文节点中的文本获取所述网页的正文之后，还包括: 将所述确定所述网页的正文节点的过程中获取的正文结构信息添加到所述站点知识库中。5.如权利要求2所述的方法，其特征在于，对所述网页进行预处理，包括:获取所述网页的DOM树，并根据已创建的标签类型库，识别并删除该网页中的移除类节点和非移除类节点中的移除类内容，获取预处理后的所述网页的DOM树；所述标签类型库包括用于判断网页中节点类型的策略和判断移除类内容的策略，所述节点类型包括容器类、文本类和移除类；所述建立正文候选池列表,具体包括: 根据所述标签类型库和预设的阈值，判断预处理后的所述网页的DOM树中的父节点为容器类节点的文本类节点是否有效；删除该DOM树中判断结果为无效的节点，并将该DOM树中判断结果为的有效的所述文本类节点以及该节点的父节点到所述正文候选池列表中。6.如权利要求5所述的方法，其特征在于，判断预处理后的所述网页的DOM树中的父节点为容器类节点的文本类节点是否有效的过程，具体包括: 识别所述网页的字符集编码，调取预设的算法，计算出所述文本类节点的有效节点特征值；根据所述有效节点特征值和所述预设的阈值，判断该文本类节点是否有效；其中，所述阈值对应于所述有效节点特征值。7.如权利要求6所述的方法，其特征在于，所述有效节...

【专利技术属性】
技术研发人员：江潮，贺建华，蒋汉华，
申请(专利权)人：武汉传神信息技术有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人