网页正文的自动抽取方法及装置制造方法及图纸

技术编号:27141002 阅读:16 留言:0更新日期:2021-01-27 21:12
本申请属于计算机技术领域,具体涉及一种网页正文的自动抽取方法及装置。其中的方法包括:通过关键字搜索得到目标网站,从目标网站抓取网页数据,并对抓取的网页进行截图,得到网页图像数据;通过预先训练的卷积神经网络将网页分为文章网页和列表网页,并将网页数据解析为DOM树;对文章网页,比较同一父元素中两个子元素文本长度之差与全部子元素文本长度的标准差,基于比较结果从网页数据中抽取网页正文;对列表网页,将深度级别、属性相同的元素作为一个衡量单元,从平均文本长度最长的衡量单元对应的元素抽取网页正文。本申请中的方法可以准确识别网页页面中的正文内容,实现高效、快速的网页正文抽取,从而使系统具有较高的稳定性和鲁棒性。定性和鲁棒性。定性和鲁棒性。

【技术实现步骤摘要】
网页正文的自动抽取方法及装置


[0001]本申请属于计算机
,具体涉及一种网页正文的自动抽取方法及装置。

技术介绍

[0002]针对性、行业性、精准性的数据抓取是个性化内容推荐、文本情感分析、自动化摘要技术、文本主题分类,自然语言处理、舆情分析等工作的基础。这些应用大多数建立在海量数据基础上,网页信息可以在一定程度上满足这些应用对基础数据的需求。对正文抽取就是要将网页的正文信息准确、高效地提取出来。现有方法采用DOM(Document Object Mode,文档对象模型)树的方式进行内容提取,通过将HTML等网页页面构建DOM树,再结合定制的模板文件,从相关叶子节点中提取相关信息。
[0003]但是目前网页形式多样,大多数网页除了包含正文信息以外,还包含广告、导航等噪音,也有一些网页在单个网页中包含多个正文信息块,例如论坛、微博等。因此基于DOM树结合定制模板的网页抽取,必须对待抽取目标的页面结构非常了解,需要构建大量的解析模板来匹配相应位置的内容,人力成本高。网页页面的更新周期往往非常短,当页面结构发生变化时,需要修改装置的解析模板进行适配,大大降低了装置的稳定性和鲁棒性。
[0004]因此亟需一种不需要进行人工定制的技术来高效快速获取正文信息。

技术实现思路

[0005](一)要解决的技术问题
[0006]鉴于现有技术的上述缺点、不足,本申请提供一种网页正文的自动抽取方法及装置。
[0007](二)技术方案
[0008]为达到上述目的,本申请采用如下技术方案:
[0009]第一方面,本申请实施例提供一种网页正文的自动抽取方法,该方法包括:
[0010]S10、根据接收的关键字在搜索引擎中搜索得到目标网站,从所述目标网站抓取网页数据,并对抓取的网页进行截图,得到网页图像数据;
[0011]S20、将所述网页图像数据作为输入,通过预先训练的网页分类模型识别网页类型,输出网页类型分类结果;所述网页类型包括文章网页和列表网页;所述网页分类模型基于卷积神经网络构建,是以从互联网上抓取的网页图像数据为训练样本、将网页类型作为样本标签训练得到的网络模型;
[0012]S30、将网页数据解析为DOM树;当网页类型为文章网页时,采用第一抽取方法从所述网页数据中抽取网页正文,所述第一抽取方法包括:比较DOM树中同一父元素中两个子元素文本长度之差与全部子元素文本长度的标准差,基于比较结果从网页数据中抽取网页正文;
[0013]当网页类型为列表网页时,采用第二抽取方法从所述网页数据中抽取网页正文,所述第二抽取方法包括:将DOM树中深度级别、属性相同的元素作为一个衡量单元,从平均
文本长度最长的衡量单元对应的元素抽取网页正文。
[0014]可选地,在步骤S20之后、步骤S30之前还包括:
[0015]S21、通过数据清洗去除网页数据中的噪音数据,噪音数据包括客户端脚本数据、样式信息数据、头部信息数据中的一种或多种。
[0016]可选地,所述第一抽取方法还包括:
[0017]针对没有子元素的元素,通过比较DOM树中该元素和其同级别元素中文本的长度,从文本长度最长的元素抽取网页正文。
[0018]可选地,比较DOM树中同一父元素中两个子元素文本长度之差与全部子元素文本长度的标准差,基于比较结果从网页数据中抽取网页正文包括:
[0019]选择同一父元素中文本长度最长的两个子元素,计算两个子元素的文本长度的差值;
[0020]如果差值大于全部子元素文本长度的标准差,从文本长度最长的子元素中抽取网页正文;
[0021]如果差值小于等于全部子元素文本长度的标准差,从父元素中抽取网页正文。
[0022]可选地,将DOM树中深度级别、属性相同的元素作为一个衡量单元,从平均文本长度最长的衡量单元对应的元素抽取网页正文,包括:
[0023]将深度级别、属性相同的多个元素作为一个衡量单元;
[0024]统计每个衡量单元中元素的个数和多个元素的文本总长度;
[0025]计算每个衡量单元的排序特征值,按照所述排序特征值对每个衡量单元进行排序;
[0026]从排序特征值最大的衡量单元开始,顺次选取预设数量的衡量单元;
[0027]针对选取的每个衡量单元,计算网页数据中该衡量单元的平均文本长度;
[0028]从平均文本长度最长的衡量单元对应的元素抽取网页正文。
[0029]可选地,所述排序特征值的计算方法为:
[0030][0031]其中,R表示排序特征值,O表示衡量单元中元素的个数,L表示衡量单元中多个元素的文本总长度。
[0032]可选地,所述平均文本长度的计算方法为;
[0033][0034]其中,L表示衡量单元中多个元素的文本总长度。
[0035]可选地,所述列表网页包括论坛、微博、贴吧、影评中的一种或多种。
[0036]第二方面,本申请实施例提供一种网页正文的自动抽取装置,该装置包括:
[0037]数据抓取模块,用于根据预设的关键字在搜索引擎中搜索得到目标网站,从所述目标网站抓取网页数据,并对抓取的网页进行截图,得到网页图像数据;
[0038]分类模块,用于将所述网页图像数据作为输入,通过预先训练的网页分类模型识别网页类型,输出网页类型分类结果;所述网页类型包括文章网页和列表网页;所述网页分类模型基于卷积神经网络构建,是以从互联网上抓取的网页图像数据为训练样本、将网页
类型作为样本标签训练得到的网络模型;
[0039]正文抽取模块,用于将网页数据解析为DMO树;当网页类型为文章网页时,采用第一抽取方法从网页数据中抽取网页正文,所述第一抽取方法包括:比较DOM树中同一父元素中两个子元素文本长度之差与全部子元素文本长度的标准差,基于比较结果从网页数据中抽取网页正文;
[0040]当网页类型为列表网页时,采用第二抽取方法从网页数据中抽取网页正文,所述第二抽取方法包括:将DOM树中深度级别、属性相同的元素作为一个衡量单元,从平均文本长度最长的衡量单元对应的元素抽取网页正文。
[0041](三)有益效果
[0042]本申请的有益效果是:本申请提出了一种网页正文的自动抽取方法及装置,其中的方法包括:根据预设的关键字搜索得到目标网站,从目标网站抓取网页数据,并对抓取的网页进行截图,得到网页图像数据;将网页图像数据作为输入,通过预先训练的网页分类模型得到网页类型分类结果;将网页数据解析为DOM树;当网页类型为文章网页时,比较DOM树中同一父元素中两个子元素文本长度之差与全部子元素文本长度的标准差,基于比较结果从网页数据中抽取网页正文;当网页类型为列表网页时,将DOM树中深度级别、属性相同的元素作为一个衡量单元,从平均文本长度最长的衡量单元对应的元素抽取网页正文。本申请中的方法无需针对每种网页页面设置抽取规则,即可以准确识别网页页面中的正文内容,实现高效、快速的网页页面正文抽取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页正文的自动抽取方法,其特征在于,该方法包括:S10、根据接收的关键字在搜索引擎中搜索得到目标网站,从所述目标网站抓取网页数据,并对抓取的网页进行截图,得到网页图像数据;S20、将所述网页图像数据作为输入,通过预先训练的网页分类模型识别网页类型,输出网页类型分类结果;所述网页类型包括文章网页和列表网页;所述网页分类模型基于卷积神经网络构建,是以从互联网上抓取的网页图像数据为训练样本、将网页类型作为样本标签训练得到的网络模型;S30、将网页数据解析为DOM树;当网页类型为文章网页时,采用第一抽取方法从所述网页数据中抽取网页正文,所述第一抽取方法包括:比较DOM树中同一父元素中两个子元素文本长度之差与全部子元素文本长度的标准差,基于比较结果从网页数据中抽取网页正文;当网页类型为列表网页时,采用第二抽取方法从所述网页数据中抽取网页正文,所述第二抽取方法包括:将DOM树中深度级别、属性相同的元素作为一个衡量单元,从平均文本长度最长的衡量单元对应的元素抽取网页正文。2.根据权利要求1所述的网页正文的自动抽取方法,其特征在于,在步骤S20之后、步骤S30之前还包括:S21、通过数据清洗去除网页数据中的噪音数据,噪音数据包括客户端脚本数据、样式信息数据、头部信息数据中的一种或多种。3.根据权利要求2所述的网页正文的自动抽取方法,其特征在于,所述第一抽取方法还包括:针对没有子元素的元素,通过比较DOM树中该元素和其同级别元素中文本的长度,从文本长度最长的元素抽取网页正文。4.根据权利要求3所述的网页正文的自动抽取方法,其特征在于,比较DOM树中同一父元素中两个子元素文本长度之差与全部子元素文本长度的标准差,基于比较结果从网页数据中抽取网页正文包括:选择同一父元素中文本长度最长的两个子元素,计算两个子元素的文本长度的差值;如果差值大于全部子元素文本长度的标准差,从文本长度最长的子元素中抽取网页正文;如果差值小于等于全部子元素文本长度的标准差,从父元素中抽取网页正文。5.根据权利要求2所述的网页正文的自动抽取方法,其特征在于,将DOM树中深度级别、属性相同的元素作为...

【专利技术属性】
技术研发人员:李晓戈秦龙马鲜艳穆诤辉韩保民颜吏
申请(专利权)人:陕西省科技资源统筹中心
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1