一种招标网页的正文抽取方法、装置及存储介质制造方法及图纸

技术编号:35017361 阅读:26 留言:0更新日期:2022-09-24 22:44
本申请涉及数据处理技术领域,更为具体来说,本申请涉及一种招标网页的正文抽取方法、装置及存储介质。所述方法包括:为待抽取的招标网页构建DOM树;确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本;对待筛选文本集合进行规则筛选,得到目标正文。本申请将招标网页的正文抽取方法转换为最优路径搜索问题,大大地提升了效率,缩小了空间,又融合传统特征、深度学习算法及规则筛选的方式得到目标正文,从而提升了抽取正文的准确率。的准确率。的准确率。

【技术实现步骤摘要】
一种招标网页的正文抽取方法、装置及存储介质


[0001]本申请涉及数据处理
,更为具体来说,本申请涉及一种招标网页的正文抽取方法、装置及存储介质。

技术介绍

[0002]近年来,越来越多的网站开始公布各种招标信息,企业通过及时获取有效的招标信息,可以获得诸多益处。但每一个网站公布的招标信息采用的排版不同,其中充斥着大量的导航栏、广告等无效信息,这些无效信息将导致使用者无法第一时间聚焦于关键信息,从而在海量招标文本的查阅中浪费大量时间,同时这些无效信息也会让下游任务的识别变得更加困难。
[0003]传统的招标网页正文抽取方法一般通过专业的研究人员对每一个招标站点进行解析,这种方式需要消耗巨大的人力资源,效率低下的同时,还会出现错误解析的情况,导致一个网站的所有招标正文均被解析错误。另外还存在基于统计的网页特征如文本块密度、标签路径特征等进行抽取网页正文的方法,但这种特征不适用于招标网页。

技术实现思路

[0004]基于上述技术问题,本专利技术旨在将招标网页正文抽取问题转化为最优路径搜索问题,融合传统特征与深度学习算法进行高效搜索,并采用规则筛选的方式得到目标正文,以提升招标网页正文抽取的准确率。
[0005]本专利技术第一方面提供了一种招标网页的正文抽取方法,所述方法包括:
[0006]为待抽取的招标网页构建DOM树;
[0007]确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;
[0008]从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本;
[0009]对待筛选文本集合进行规则筛选,得到目标正文。
[0010]在本专利技术的一些实施例中,所述从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,包括:
[0011]若所述第一节点与所述第二节点相同,则将所述第一节点确定为最优节点;
[0012]若所述第一节点与所述第二节点不相同,则基于预设卷积神经网络模型从所述第一节点和所述第二节点中选择最优节点。
[0013]在本专利技术的一些实施例中,若所述第一节点与所述第二节点相同,则将所述第一节点确定为最优节点之后,还包括:
[0014]将所述第一节点的子节点构成的层级确定为当前层级,从所述确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点的步骤循环执行,以确
定出所述多个层级对应的最优节点。
[0015]在本专利技术的一些实施例中,基于预设卷积神经网络模型从所述第一节点和所述第二节点中选择最优节点,包括:
[0016]将所述第一节点和所述第二节点对应的文本输入预设卷积神经网络模型中,输出所述第一节点和所述第二节点对应的文本分类结果;
[0017]根据所述第一节点和所述第二节点对应的文本分类结果,从所述第一节点和所述第二节点中选择最优节点。
[0018]在本专利技术的一些实施例中,所述根据所述第一节点和所述第二节点对应的文本分类结果,从所述第一节点和所述第二节点中选择最优节点,包括:
[0019]若所述第一节点和所述第二节点对应的文本分类结果均为非正文,则选择p标签数最多的节点作为最优节点;
[0020]若所述第一节点和所述第二节点对应的文本分类结果均不是非正文,则选择非正文标签中概率最小的节点作为最优节点;
[0021]若所述第一节点对应的文本分类结果为非正文,则选择所述第二节点作为最优节点;
[0022]若所述第二节点对应的文本分类结果为非正文,则选择所述第一节点作为最优节点。
[0023]在本专利技术的一些实施例中,确定出所述DOM树当前层级中节点分数最高的第一节点,包括:
[0024]基于文本密度与符号密度计算出DOM树当前层级所有节点的节点分数;
[0025]从当前层级所有节点中选择节点分数最高的节点作为第一节点。
[0026]在本专利技术的一些实施例中,所述基于文本密度与符号密度计算出DOM树当前层级所有节点的节点分数,公式为:
[0027][0028]其中,td表示节点的文本密度,sbd表示节点的符号密度,p表示p标签的数量,ntd表示当前层级下文本密度集合,np表示当前层级下p标签数量集合,nsbd表示当前层级下符号密度集合。
[0029]在本专利技术的一些实施例中,所述对待筛选文本集合进行规则筛选,得到目标正文,包括:
[0030]将卷积神经网络模型预测标签为正文的标签记作Y标签;将Y标签对应的最长文本作为初始解;
[0031]对初始解基于文本长度比值及链接文本比值进行规则筛选,得到目标正文。
[0032]本专利技术第二方面提供了一种招标网页的正文抽取装置,所述装置包括:
[0033]构建模块,用于为待抽取的招标网页构建DOM树;
[0034]确定模块,用于确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;
[0035]比较模块,用于从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多
个层级对应的最优节点的文本;
[0036]筛选模块,用于对待筛选文本集合进行规则筛选,得到目标正文。
[0037]本专利技术第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0038]为待抽取的招标网页构建DOM树;
[0039]确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;
[0040]从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本;
[0041]对待筛选文本集合进行规则筛选,得到目标正文。
[0042]本专利技术第四方面提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0043]为待抽取的招标网页构建DOM树;
[0044]确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;
[0045]从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本;
[0046]对待筛选文本集合进行规则筛选,得到目标正文。
[0047]本申请的有益效果为:本申请为待抽取的招标网页构建DOM树,确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点,从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,将招标网页的正文抽取方法转换为最优路径搜索问题,大大地提升了效率,缩小了空间;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种招标网页的正文抽取方法,其特征在于,所述方法包括:为待抽取的招标网页构建DOM树;确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本;对待筛选文本集合进行规则筛选,得到目标正文。2.根据权利要求1所述的招标网页的正文抽取方法,其特征在于,所述从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,包括:若所述第一节点与所述第二节点相同,则将所述第一节点确定为最优节点;若所述第一节点与所述第二节点不相同,则基于预设卷积神经网络模型从所述第一节点和所述第二节点中选择最优节点。3.根据权利要求2所述的招标网页的正文抽取方法,其特征在于,若所述第一节点与所述第二节点相同,则将所述第一节点确定为最优节点之后,还包括:将所述第一节点的子节点构成的层级确定为当前层级,从所述确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点的步骤循环执行,以确定出所述多个层级对应的最优节点。4.根据权利要求2所述的招标网页的正文抽取方法,其特征在于,基于预设卷积神经网络模型从所述第一节点和所述第二节点中选择最优节点,包括:将所述第一节点和所述第二节点对应的文本输入预设卷积神经网络模型中,输出所述第一节点和所述第二节点对应的文本分类结果;根据所述第一节点和所述第二节点对应的文本分类结果,从所述第一节点和所述第二节点中选择最优节点。5.根据权利要求4所述的招标网页的正文抽取方法,其特征在于,所述根据所述第一节点和所述第二节点对应的文本分类结果,从所述第一节点和所述第二节点中选择最优节点,包括:若所述第一节点和所述第二节点对应的文本分类结果均为非正文,则选择p标签数最多的节点作为最优节点;若所述第一节点和所述第二节点对应的文本分类结果均不是非正文,则选择非正文标签中概率最小的节点作为最优节点;若所述第...

【专利技术属性】
技术研发人员:潘帅陈家银张伟陈曦麻志毅
申请(专利权)人:浙江省北大信息技术高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1