网页内容提取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:33558145 阅读:22 留言:0更新日期:2022-05-26 22:55
本申请涉及一种网页内容提取方法、装置、计算机设备、存储介质和计算机程序产品。所述方法可应用于地图领域,所述方法获取网页内容提取请求,所述网页内容提取请求包括网页信息;根据所述网页信息获取所述网页内容提取请求对应的待处理网页;依次提取所述待处理网页中节点对应的内容特征向量;通过深度学习技术对所述内容特征向量进行二分类处理,获取二分类结果,所述二分类处理用于识别当前节点是否包含目标内容数据;当所述二分类结果表征当前节点包含目标内容数据时,从所述当前节点提取所述目标内容数据。本申请可以保证网页内容提取的提取结果不受网页结构变化的影响,提高网页内容提取的提取效率。页内容提取的提取效率。页内容提取的提取效率。

【技术实现步骤摘要】
网页内容提取方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种网页内容提取方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着计算机技术与机器学习的发展,出现了深度学习技术,这深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
[0003]目前在网页内容识别领域,一般是针对不同的网站配置不同的html标签提取规则,但是由于网站种类繁多,而针对每一个网站都需要进行特定的配置,因此在需要针对多种网页进行内容提取时,提取效率较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够有效提高内容提取效率的网页内容提取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种网页内容提取方法。所述方法包括:
[0006]获取网页内容提取请求,所述网页内容提取请求包括网页信息;
[0007]查找根据所述网页信息获取所述网页内容提取请求对应的待处理网页;
[0008]依次提取所述待处理网页中节点对应的内容特征向量;
[0009]通过深度学习技术对所述内容特征向量进行二分类处理,获取二分类结果,所述二分类处理用于识别当前节点是否包含目标内容数据;
[0010]当所述二分类结果表征当前节点包含目标内容数据时,从所述当前节点提取所述目标内容数据。
[0011]第二方面,本申请还提供了一种网页内容提取装置。所述装置包括:
[0012]请求获取模块,用于获取网页内容提取请求;
[0013]数据获取模块,用于查找所述网页内容提取请求对应的待处理网页;
[0014]特征提取模块,用于依次提取所述待处理网页中节点对应的内容特征向量;
[0015]内容提取模块,用于当基于当前内容特征向量通过深度学习技术识别出所述待提取网页数据中包含目标内容数据时,从所述当前内容特征向量对应的节点提取所述目标内容数据。
[0016]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0017]获取网页内容提取请求,所述网页内容提取请求包括网页信息;
[0018]查找根据所述网页信息获取所述网页内容提取请求对应的待处理网页;
[0019]依次提取所述待处理网页中节点对应的内容特征向量;
[0020]通过深度学习技术对所述内容特征向量进行二分类处理,获取二分类结果,所述二分类处理用于识别当前节点是否包含目标内容数据;
[0021]当所述二分类结果表征当前节点包含目标内容数据时,从所述当前节点提取所述目标内容数据。
[0022]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0023]获取网页内容提取请求,所述网页内容提取请求包括网页信息;
[0024]查找根据所述网页信息获取所述网页内容提取请求对应的待处理网页;
[0025]依次提取所述待处理网页中节点对应的内容特征向量;
[0026]通过深度学习技术对所述内容特征向量进行二分类处理,获取二分类结果,所述二分类处理用于识别当前节点是否包含目标内容数据;
[0027]当所述二分类结果表征当前节点包含目标内容数据时,从所述当前节点提取所述目标内容数据。
[0028]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0029]获取网页内容提取请求,所述网页内容提取请求包括网页信息;
[0030]查找根据所述网页信息获取所述网页内容提取请求对应的待处理网页;
[0031]依次提取所述待处理网页中节点对应的内容特征向量;
[0032]通过深度学习技术对所述内容特征向量进行二分类处理,获取二分类结果,所述二分类处理用于识别当前节点是否包含目标内容数据;
[0033]当所述二分类结果表征当前节点包含目标内容数据时,从所述当前节点提取所述目标内容数据。
[0034]上述网页内容提取方法、装置、计算机设备、存储介质和计算机程序产品,其中方法通过获取网页内容提取请求,所述网页内容提取请求包括网页信息;根据所述网页信息获取所述网页内容提取请求对应的待处理网页;依次提取所述待处理网页中节点对应的内容特征向量;通过深度学习技术对所述内容特征向量进行二分类处理,获取二分类结果,所述二分类处理用于识别当前节点是否包含目标内容数据;当所述二分类结果表征当前节点包含目标内容数据时,从所述当前节点提取所述目标内容数据。本申请通过抽取待处理网页节点对应的内容特征向量,以深度学习的方式来确定待提取网页数据中是否包含有目标内容数据,并在包含时直接从内容特征向量对应的节点提取目标内容数据,可以保证网页内容提取的提取结果不受网页结构变化的影响,提高网页内容提取的提取效率。
附图说明
[0035]图1为一个实施例中网页内容提取方法的应用环境图;
[0036]图2为一个实施例中网页内容提取方法的流程示意图;
[0037]图3为一个实施例中构建内容块节点对应的节点内容特征向量步骤的流程示意图;
[0038]图4为一个实施例中获取折叠文档对象模型树步骤的流程示意图;
[0039]图5为另一个实施例中构建内容块节点对应的节点内容特征向量步骤的流程示意图;
[0040]图6为一个实施例中从内容特征向量对应的节点提取目标内容数据步骤的流程示意图;
[0041]图7为一个实施例中预设深度神经网络模型的训练步骤的流程示意图;
[0042]图8为一个实施例中网页内容提取方法所提取的目标网页示意图;
[0043]图9为一个实施例中网页内容提取装置的结构框图;
[0044]图10为一个实施例中计算机设备的内部结构图。
具体实施方式
[0045]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0046]人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页内容提取方法,其特征在于,所述方法包括:获取网页内容提取请求,所述网页内容提取请求包括网页信息;根据所述网页信息获取所述网页内容提取请求对应的待处理网页;依次提取所述待处理网页中节点对应的内容特征向量;通过深度学习技术对所述内容特征向量进行二分类处理,获取二分类结果,所述二分类处理用于识别当前节点是否包含目标内容数据;当所述二分类结果表征当前节点包含目标内容数据时,从所述当前节点提取所述目标内容数据。2.根据权利要求1所述的方法,其特征在于,所述依次提取所述待处理网页中节点对应的内容特征向量包括:通过预设特征提取算法依次提取所述待处理网页中节点对应的内容特征向量,所述内容特征向量中的特征点包括所述目标内容数据对应的特征点。3.根据权利要求1所述的方法,其特征在于,所述待处理网页中节点包括内容块节点,所述通过预设特征提取算法依次提取所述待处理网页中节点对应的内容特征向量包括:将所述待处理网页解析为原始文档对象模型树;对所述原始文档对象模型树进行节点合并处理,获取折叠文档对象模型树;对所述折叠文档对象模型树进行块分割处理,获取内容块节点;提取所述内容块节点各维度的内容特征点;根据提取得到的内容特征点,构建所述内容块节点对应的节点内容特征向量。4.根据权利要求3所述的方法,其特征在于,所述对所述原始文档对象模型树进行节点合并处理,获取折叠文档对象模型树包括:识别所述文档对象模型树中包含单个子节点的父节点;将所述父节点与所述父节点包含的子节点进行节点合并处理,获取折叠节点;根据所述折叠节点对所述原始文档对象模型树进行更新,获取折叠文档对象模型树。5.根据权利要求3所述的方法,其特征在于,所述提取所述内容块节点各维度的内容特征点,根据提取得到的内容特征点构建所述内容块节点对应的节点内容特征向量包括:获取所述内容块节点中各个节点对应文本内容统计信息;根据预设内容提取规则对所述文本内容统计信息进行特征提取,获取所述内容块节点对应各维度的内容特征点;根据提取得到各维度的内容...

【专利技术属性】
技术研发人员:何桃
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1