一种网页文章标题和正文的自动识别方法及装置制造方法及图纸

技术编号：38099183 阅读：14 留言：0更新日期：2023-07-06 09:16

本发明专利技术提出一种网页文章标题和正文的自动识别方法及装置，属于特征识别与数据处理技术领域。方法包括将网页中的所有元素解析成DOM树、逐个对DOM树中的所有元素进行广度优先遍历、将查找到的父元素添加到哈希记录表中，并将其对应的网页文章正文根元素的权重值加1、对网页内容进行反向广度优先遍历，查找文章的当前标题元素、结合网页文章正文根元素与文章标题元素，获得当前网页的完整文章内容等步骤。本发明专利技术提出了一种在不对网页内容进行预处理的情况下，可以方便提取网页文章信息的技术方案，可以精确获取到文章的标题和正文，对下一步的数据分析和训练提供了良好的半结构化数据。数据。数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种网页文章标题和正文的自动识别方法及装置

[0001]本专利技术属于特征识别与数据处理
，尤其涉及一种网页文章标题和正文的自动识别方法及装置。

技术介绍

[0002]在科学研究和业务需求中，我们经常需要从互联网获取文章数据进行数据挖掘和分析工作。但是互联网上面的网页内容除了包括文章内容，还包括导航元素，广告文本等信息，这些无关的信息会影响到我们进行后续数据挖掘工作的精确度。
[0003]传统方法会通过配置表达式来识别网页中文章标题和正文的元素，进而提取到网页中文章的标题和正文内容。但是，网页中文章标题和正文的元素，经常会因为网站改版、录入编辑人员的编辑习惯不同而发生改变。因此这种基于规则提取文章标题和正文内容的方法不具有普遍适用性，需要针对每个网站进行专门维护，而且当网页布局发生变化的时候相关的配置规则会失效，需要再次进行维护修改，费时费力；
[0004]随着人工智能技术的发展，还发展出基于机器学习算法提取文章标题和正文内容。基于机器学习算法提前文章标题和正文内容一般来说不会受到网页布局变化的影响。但是该方法需要人工大量地标注数据和训练数据过程复杂，同时也需要不断更新训练样本，过程复杂。
[0005]可以看到，现有技术方案成本高，需要人工不断介入来进行维护，实现过程复杂。因此，如何能够快速、有效地自动识别、抽取网页中文章的标题和正文的内容成为了一个急切需要解决的问题。

技术实现思路

[0006]为解决上述技术问题，本专利技术提出一个流程简单，普适性强且不需要人工介入的文...

【技术保护点】

【技术特征摘要】
1.一种网页文章标题和正文的自动识别方法，其特征在于，所述方法包括如下步骤：S1：将网页中的所有元素解析成DOM树；S2：逐个对DOM树中的所有元素进行广度优先遍历；S3：针对每一个当前元素，检查当前元素包含的直接文本内容长度，并判断当前元素是否是<a>元素；若当前元素包含的直接文本内容长度大于第一预设阈值，并且当前元素不是<a>元素，则进入步骤S4；否则，返回步骤S2；S4：判断当前元素是否是块级元素，如果是，则查找当前元素的父元素；否则，则查找当前元素的块级父元素的父元素；S5：将上一步骤查找到的父元素添加到哈希记录表中，并将其对应的网页文章正文根元素的权重值加1；S6：判断所述DOM树中的所有元素是否均遍历完毕，如果是，进入步骤S7；否则，返回步骤S2；S7：从哈希记录表中选择网页正文根元素权重值最大的元素，作为文章正文内容的根元素；S8：以文章正文内容的根元素为起始，对网页内容进行反向广度优先遍历，查找文章的当前标题元素；S9：判断文章的当前标题元素对应的文本内容长度是否大于第二预设阈值；如果是，则进入步骤S10；否则，返回步骤S8；S10：将文章的当前标题元素作为文章标题的候选元素添加到标题候选元素列表中；S11：从标题候选元素列表中根据自定义标题特征选择最优的元素作为文章标题元素；S12：结合网页文章正文根元素与文章标题元素，获得当前网页的完整文章内容。2.如权利要求1所述的一种网页文章标题和正文的自动识别方法，其特征在于，所述第一预设阈值大于所述第二预设阈值。3.如权利要求1所述的一种网页文章标题和正文的自动识别方法，其特征在于，所述步骤S5中所述哈希记录表采用双线程队列，所述双线程队列包括第一线程和第二线程，所述第一线程用于接收所述查找到的父元素，所述第二线程用于给所述接收的父元素在所述队列中分配存储位置。4.如权利要求1所述的一种网页文章标题和正文的自动识别方法，其特征在于，所述步骤S10中所述标题候选元素列表采用双线程环形栈实现；所述双线程环形栈包括第三线程和第四线程，所述第三线程用于管理所述环形栈的空余存储位置；所述第四线程用于接收所述候选元素并将所述候选元素压入所述环形栈的空余存储位置。5.如权利要求1所述的一种网页文章标题和正文的自动识别方法，其特征在于，所述步骤S11中所述自定义标题特征包括关键词特征、标题长度特征、领域特征、语法特征之中的一个或多个。
6.一种网页文...

【专利技术属性】
技术研发人员：张凯，
申请(专利权)人：北京粉笔蓝天科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人