一种网页文章标题和正文的自动识别方法及装置制造方法及图纸

技术编号:38099183 阅读:14 留言:0更新日期:2023-07-06 09:16
本发明专利技术提出一种网页文章标题和正文的自动识别方法及装置,属于特征识别与数据处理技术领域。方法包括将网页中的所有元素解析成DOM树、逐个对DOM树中的所有元素进行广度优先遍历、将查找到的父元素添加到哈希记录表中,并将其对应的网页文章正文根元素的权重值加1、对网页内容进行反向广度优先遍历,查找文章的当前标题元素、结合网页文章正文根元素与文章标题元素,获得当前网页的完整文章内容等步骤。本发明专利技术提出了一种在不对网页内容进行预处理的情况下,可以方便提取网页文章信息的技术方案,可以精确获取到文章的标题和正文,对下一步的数据分析和训练提供了良好的半结构化数据。数据。数据。

【技术实现步骤摘要】
一种网页文章标题和正文的自动识别方法及装置


[0001]本专利技术属于特征识别与数据处理
,尤其涉及一种网页文章标题和正文的自动识别方法及装置。

技术介绍

[0002]在科学研究和业务需求中,我们经常需要从互联网获取文章数据进行数据挖掘和分析工作。但是互联网上面的网页内容除了包括文章内容,还包括导航元素,广告文本等信息,这些无关的信息会影响到我们进行后续数据挖掘工作的精确度。
[0003]传统方法会通过配置表达式来识别网页中文章标题和正文的元素,进而提取到网页中文章的标题和正文内容。但是,网页中文章标题和正文的元素,经常会因为网站改版、录入编辑人员的编辑习惯不同而发生改变。因此这种基于规则提取文章标题和正文内容的方法不具有普遍适用性,需要针对每个网站进行专门维护,而且当网页布局发生变化的时候相关的配置规则会失效,需要再次进行维护修改,费时费力;
[0004]随着人工智能技术的发展,还发展出基于机器学习算法提取文章标题和正文内容。基于机器学习算法提前文章标题和正文内容一般来说不会受到网页布局变化的影响。但是该方法需要人工大量地标注数据和训练数据过程复杂,同时也需要不断更新训练样本,过程复杂。
[0005]可以看到,现有技术方案成本高,需要人工不断介入来进行维护,实现过程复杂。因此,如何能够快速、有效地自动识别、抽取网页中文章的标题和正文的内容成为了一个急切需要解决的问题。

技术实现思路

[0006]为解决上述技术问题,本专利技术提出一个流程简单,普适性强且不需要人工介入的文章标题和正文内容提取方法。
[0007]具体的,本专利技术提供的是一种网页文章标题和正文的自动识别方法及装置、以及实现所述方法的电子计算机设备。
[0008]在本专利技术的第一个方面,提出一种网页文章标题和正文的自动识别方法,所述方法包括如下步骤:
[0009]S1:将网页中的所有元素解析成DOM树;
[0010]S2:逐个对DOM树中的所有元素进行广度优先遍历;
[0011]S3:针对每一个当前元素,检查当前元素包含的直接文本内容长度,并判断当前元素是否是<a>元素;
[0012]若当前元素包含的直接文本内容长度大于第一预设阈值,并且当前元素不是<a>元素,则进入步骤S4;
[0013]否则,返回步骤S2;
[0014]S4:判断当前元素是否是块级元素,
[0015]如果是,则查找当前元素的父元素;
[0016]否则,则查找当前元素的块级父元素的父元素;
[0017]S5:将上一步骤查找到的父元素添加到哈希记录表中,并将其对应的网页文章正文根元素的权重值加1;
[0018]S6:判断所述DOM树中的所有元素是否均遍历完毕,如果是,进入步骤S7;否则,返回步骤S2;
[0019]S7:从哈希记录表中选择网页正文根元素权重值最大的元素,作为文章正文内容的根元素;
[0020]S8:以文章正文内容的根元素为起始,对网页内容进行反向广度优先遍历,查找文章的当前标题元素;
[0021]S9:判断文章的当前标题元素对应的文本内容长度是否大于第二预设阈值;
[0022]如果是,则进入步骤S10;
[0023]否则,返回步骤S8;
[0024]S10:将文章的当前标题元素作为文章标题的候选元素添加到标题候选元素列表中;
[0025]S11:从标题候选元素列表中根据自定义标题特征选择最优的元素作为文章标题元素;
[0026]S12:结合网页文章正文根元素与文章标题元素,获得当前网页的完整文章内容。
[0027]在本专利技术第二个方面,还提出一种网页文章标题和正文的自动识别装置,用于实现第一个方面所述的一种网页文章标题和正文的自动识别方法,所述装置包括多个计算机功能结构化执行单元,具体包括:
[0028]解析单元:将网页中的所有元素解析成DOM树;
[0029]遍历单元:逐个对DOM树中的所有元素进行广度优先遍历;
[0030]第一判断单元:针对每一个当前元素,检查当前元素包含的直接文本内容长度,并判断当前元素是否是<a>元素;
[0031]若当前元素包含的直接文本内容长度大于第一预设阈值,并且当前元素不是<a>元素,则激活第二判断单元;
[0032]第二判断单元:判断当前元素是否是块级元素,如果是,则查找当前元素的父元素;否则,则查找当前元素的块级父元素的父元素;
[0033]权重更新单元:将第二判断单元查找到的父元素添加到哈希记录表中,并将其对应的网页文章正文根元素的权重值加1;
[0034]根元素选择单元:从哈希记录表中选择网页正文根元素权重值最大的元素,作为文章正文内容的根元素;
[0035]标题元素查找单元:以文章正文内容的根元素为起始,对网页内容进行反向广度优先遍历,查找文章的当前标题元素;
[0036]第三判断单元:判断文章的当前标题元素对应的文本内容长度是否大于第二预设阈值;
[0037]如果是,则激活候选元素添加单元;
[0038]候选元素添加单元:将文章的当前标题元素作为文章标题的候选元素添加到标题
候选元素列表中;
[0039]文章标题元素选择单元:从标题候选元素列表中根据自定义标题特征选择最优的元素作为文章标题元素;
[0040]所述自定义标题特征包括关键词特征、标题长度特征、领域特征、语法特征之中的一个或多个;
[0041]完整文章内容生成单元:结合网页文章正文根元素与文章标题元素,获得当前网页的完整文章内容。
[0042]本专利技术上述方法可以通过计算机设备执行计算机程序指令的形式自动化实现。因此,在本专利技术的第三个方面,还提出一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一个方面所述的一种网页文章标题和正文的自动识别方法的全部步骤。
[0043]本专利技术提出了一种在不对网页内容进行预处理的情况下,可以方便提取网页文章信息的技术方案,通过将网页中的所有元素解析成DOM树、逐个对DOM树中的所有元素进行广度优先遍历、将查找到的父元素添加到哈希记录表中,并将其对应的网页文章正文根元素的权重值加1、对网页内容进行反向广度优先遍历,查找文章的当前标题元素、结合网页文章正文根元素与文章标题元素,可获得当前网页的完整文章内容。
[0044]可以看到,本专利技术的技术方案可以精确获取到文章的标题和正文,对下一步的数据分析和训练提供了良好的半结构化数据。
[0045]本专利技术的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。
附图说明
[0046]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页文章标题和正文的自动识别方法,其特征在于,所述方法包括如下步骤:S1:将网页中的所有元素解析成DOM树;S2:逐个对DOM树中的所有元素进行广度优先遍历;S3:针对每一个当前元素,检查当前元素包含的直接文本内容长度,并判断当前元素是否是<a>元素;若当前元素包含的直接文本内容长度大于第一预设阈值,并且当前元素不是<a>元素,则进入步骤S4;否则,返回步骤S2;S4:判断当前元素是否是块级元素,如果是,则查找当前元素的父元素;否则,则查找当前元素的块级父元素的父元素;S5:将上一步骤查找到的父元素添加到哈希记录表中,并将其对应的网页文章正文根元素的权重值加1;S6:判断所述DOM树中的所有元素是否均遍历完毕,如果是,进入步骤S7;否则,返回步骤S2;S7:从哈希记录表中选择网页正文根元素权重值最大的元素,作为文章正文内容的根元素;S8:以文章正文内容的根元素为起始,对网页内容进行反向广度优先遍历,查找文章的当前标题元素;S9:判断文章的当前标题元素对应的文本内容长度是否大于第二预设阈值;如果是,则进入步骤S10;否则,返回步骤S8;S10:将文章的当前标题元素作为文章标题的候选元素添加到标题候选元素列表中;S11:从标题候选元素列表中根据自定义标题特征选择最优的元素作为文章标题元素;S12:结合网页文章正文根元素与文章标题元素,获得当前网页的完整文章内容。2.如权利要求1所述的一种网页文章标题和正文的自动识别方法,其特征在于,所述第一预设阈值大于所述第二预设阈值。3.如权利要求1所述的一种网页文章标题和正文的自动识别方法,其特征在于,所述步骤S5中所述哈希记录表采用双线程队列,所述双线程队列包括第一线程和第二线程,所述第一线程用于接收所述查找到的父元素,所述第二线程用于给所述接收的父元素在所述队列中分配存储位置。4.如权利要求1所述的一种网页文章标题和正文的自动识别方法,其特征在于,所述步骤S10中所述标题候选元素列表采用双线程环形栈实现;所述双线程环形栈包括第三线程和第四线程,所述第三线程用于管理所述环形栈的空余存储位置;所述第四线程用于接收所述候选元素并将所述候选元素压入所述环形栈的空余存储位置。5.如权利要求1所述的一种网页文章标题和正文的自动识别方法,其特征在于,所述步骤S11中所述自定义标题特征包括关键词特征、标题长度特征、领域特征、语法特征之中的一个或多个。
6.一种网页文...

【专利技术属性】
技术研发人员:张凯
申请(专利权)人:北京粉笔蓝天科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1