网页正文抽取方法及装置制造方法及图纸

技术编号:16718042 阅读:41 留言:0更新日期:2017-12-05 16:26
本发明专利技术公开了网页正文抽取方法及装置,通过下载网页页面,根据所述网页页面获取网页源代码,根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型,基于所述视觉识别模型定位文本域,基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料,能有效避免现有抽取技术中人工规则和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。

Method and device for web page extraction

The invention discloses a text extraction method and device, by downloading the web page, according to the web page for web page source code, create a DOM tree according to the web page source code, the DOM tree and the web page generation tree based on visual style, using visual rendering techniques for rendering the visual tree after the formation of visual recognition model, the visual recognition model of domain based on the location of the text, text domain feature extraction based on text, thereby obtaining the web page text corpus, can effectively avoid the artificial extraction technology in existing regulations and template defects, can effectively extract the web content, high compatibility, complete removal of impurities.

【技术实现步骤摘要】
网页正文抽取方法及装置
本专利技术涉及计算机领域,尤其涉及一种网页正文抽取方法及装置。
技术介绍
在新闻(或者资讯)搜索领域,新闻正文抽取是项必不可少的环节,其正文抽取的质量高低决定了新闻搜索的质量和用户体验。目前新闻正文抽取方法格式各样,主要有基于模板(或包装器)方式抽取。基于模板方式抽取:首先定义模板,然后编写程序解析执行模板得到数据。根据模板生成方式,又可分为:人工模板抽取和自动模板抽取。人工模板抽取。针对抽取的目标站点,人工手工编写模板,模板可以是正则匹配方式,也可以是简单的字符串匹配首位匹配方式。自动模板抽取利用机器学习算法,从目标网站先获取一部分网页数据进行学习训练,获取模板,然后程序利用模板抽取数据。人工编写模板方式的缺点是需要耗费巨大人力资源来撰写模板,并且随着目标网站的变化,维护模板的成本也非常大。无论是人工还是自动产生模板,其假设是网站的数据是通过模板产生,一些大型的网站基本问题不大,也就是不同的入口可能模板不同,但对众多的中小网站而言,其模板化不是很好,利用模板抽取只能抽取大部分的信息,有较多的机会包含垃圾信息。
技术实现思路
本专利技术实施例的目的是提供一种网页正本文档来自技高网...
网页正文抽取方法及装置

【技术保护点】
一种网页正文抽取方法,其特征在于,包括步骤:下载网页页面,根据所述网页页面获取网页源代码,;根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树;采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型,基于所述视觉识别模型定位文本域;基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料。

【技术特征摘要】
1.一种网页正文抽取方法,其特征在于,包括步骤:下载网页页面,根据所述网页页面获取网页源代码,;根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树;采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型,基于所述视觉识别模型定位文本域;基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料。2.如权利要求1所述的网页正文抽取方法,其特征在于,还包括步骤:按照实际视觉效果对所述网页页面的正文语料进行整合和排版。3.如权利要求1所述的网页正文抽取方法,其特征在于,所述基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料具体为:基于定位的文本域,识别所述文本域的模式;根据所述文本域的模式,析出所述DOM树的特征节点;根据所述DOM树的特征节点,抽取特征文本。4.如权利要求3所述的网页正文抽取方法,其特征在于,识别所述文本域的模式具体为:识别所述文本域为单域或多域,从而进行自动适配。5.如权利要求3所述的网页正文抽取方法,其特征在于,识别所述文本域的模式具体为:对大量的网页结构进行模式训练,提取正文在页面的分布模型;其中,所述分布模型由输入信息自适应学习增加新特征;将所述网页页面的DOM树进行分析处理,将所述DOM树的每一节点进行分块聚类获得节点聚类结果;将所述节点聚类结果通过所述分布模型抽取出必要信息,通过所述必要信息获得所述文本域的模式。6.一种网页正文抽取装置,其特征在于,包括:网页源代码获取模块,用于下载网页...

【专利技术属性】
技术研发人员:晋彤
申请(专利权)人:广州特道信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1