网页正文抽取方法及装置制造方法及图纸

技术编号：16779476 阅读：59 留言：0更新日期：2017-12-12 23:49

本发明专利技术公开了一种网页正文抽取方法，通过下载网页页面，根据所述网页页面获取网页源代码，然后根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树，再基于所述视觉树定位分支结点，采用优选策略在已定位的分支节点中选取正文结点，将已选取的正文结点进行去杂质处理，从而生成所述网页页面的正文，能有效避免现有抽取技术中人工编写和模板的弊端，能有效提取网页内容，兼容性高，杂质去除完整。

Method and device for web page extraction

The invention discloses a method for content extraction from web pages, by downloading the web page, according to the web page for web page source code, and then create the DOM tree according to the web page source code, the DOM tree and the web page to generate visual style tree based on the tree, then the branch node based on visual positioning. The optimal strategy selection of text node in the branch node located in the selected text nodes to impurities, thereby generating the web page text, can effectively avoid the drawbacks of manual and the existing template extraction technology, can effectively extract the web content, high compatibility, complete removal of impurities.

全部详细技术资料下载

【技术实现步骤摘要】
网页正文抽取方法及装置
本专利技术涉及计算机领域，尤其涉及一种网页正文抽取方法及装置。
技术介绍
在新闻(或者资讯)搜索领域，新闻正文抽取是项必不可少的环节，其正文抽取的质量高低决定了新闻搜索的质量和用户体验。目前新闻正文抽取方法格式各样，主要有基于模板(或包装器)方式抽取。基于模板方式抽取：首先定义模板，然后编写程序解析执行模板得到数据。根据模板生成方式，又可分为：人工模板抽取和自动模板抽取。人工模板抽取。针对抽取的目标站点，人工手工编写模板，模板可以是正则匹配方式，也可以是简单的字符串匹配首位匹配方式。自动模板抽取利用机器学习算法，从目标网站先获取一部分网页数据进行学习训练，获取模板，然后程序利用模板抽取数据。人工编写模板方式的缺点是需要耗费巨大人力资源来撰写模板，并且随着目标网站的变化，维护模板的成本也非常大。无论是人工还是自动产生模板，其假设是网站的数据是通过模板产生，一些大型的网站基本问题不大，也就是不同的入口可能模板不同，但对众多的中小网站而言，其模板化不是很好，利用模板抽取只能抽取大部分的信息，有较多的机会包含垃圾信息。
技术实现思路
本专利技术实施例的目的是提供一种网页正文抽取方法及装置，能有效避免现有抽取技术中人工编写和模板的弊端，能有效提取网页内容，兼容性高，杂质去除完整。为实现上述目的，本专利技术实施例提供了一种网页正文抽取方法，包括步骤：下载网页页面，根据所述网页页面获取网页源代码，；根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树；基于所述视觉树定位分支结点，采用优选策略在已定位的分支节点中选取正文结...
网页正文抽取方法及装置

【技术保护点】
一种网页正文抽取方法，其特征在于，包括步骤：下载网页页面，根据所述网页页面获取网页源代码，；根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树；基于所述视觉树定位分支结点，采用优选策略在已定位的分支节点中选取正文结点；将已选取的正文结点进行去杂质处理，从而生成所述网页页面的正文。

【技术特征摘要】
1.一种网页正文抽取方法，其特征在于，包括步骤：下载网页页面，根据所述网页页面获取网页源代码，；根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树；基于所述视觉树定位分支结点，采用优选策略在已定位的分支节点中选取正文结点；将已选取的正文结点进行去杂质处理，从而生成所述网页页面的正文。2.如权利要求1所述的网页正文抽取方法，其特征在于，还包括步骤：将所述网页页面的正文进行重排段落。3.如权利要求1所述的网评自动发布方法，其特征在于，所述去杂质处理具体为：去除包括广告、版权信息、分类导航栏的杂质。4.如权利要求1所述的网评自动发布方法，其特征在于，基于所述视觉树定位分支结点具体为：通过视觉渲染引擎对所述视觉树进行渲染后定位分支结点。5.如权利要求1所述的网评自动发布方法，其特征在于，采用优选策略在已定位的分支节点中选取正文结点具体为：采用优选策略定位出标题节点；基于所述标题节点自动抽取结构化信息；其中，所述结构化信息包括时间、作者和来源。6.一种网页正文抽取装置，其...

【专利技术属性】
技术研发人员：晋彤，李永康，
申请(专利权)人：广州特道信息科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人