网页的文本内容提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：28130930 阅读：15 留言：0更新日期：2021-04-19 11:52

本发明专利技术涉及人工智能技术领域，提供一种网页的文本内容提取方法、装置、电子设备及存储介质，所述方法包括：获取待提取网页的源代码中所有标签的中间内容，得到每个标签的第一文本内容；将每个标签的第一文本内容输入至共享模型BERT中，得到每个标签的目标向量；将每个标签的目标向量输入至深度神经网络获得每个标签的文本类别；计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度提取网页内容。本发明专利技术根据每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度提取网页内容，提高了提取的灵活性和准确率。此外，本申请还涉及区块链技术领域，源代码存储于区块链节点中。块链节点中。块链节点中。

全部详细技术资料下载

【技术实现步骤摘要】
网页的文本内容提取方法、装置、电子设备及存储介质

[0001]本专利技术涉及人工智能
，具体涉及一种网页的文本内容提取方法、装置、电子设备及存储介质。

技术介绍

[0002]目前，网络爬虫系统在爬取网页信息时，通常将待爬取的统一资源定位符(uniform resource locator，URL)存储在内存中，现有的网络爬虫技术通过对网页信息进行采集，对采集的信息采用根据网页的结构编写的独立的解析模型进行解析，在网页不同时很难进行代码的复用利用，需要针对不同的网页重新编写代码，导致网页信息的提取效率较低。
[0003]此外，现有的爬虫工具耦合性差，功能过于死板，不能够针对网页中不同分类进行分别提取，导致网页信息的提取的灵活度低。

技术实现思路

[0004]鉴于以上内容，有必要提出一种网页的文本内容提取方法、装置、电子设备及存储介质，通过每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度，提取待提取网页的网页内容，提高了提取的灵活性和准确率。
[0005]本专利技术的第一方面提供一种网页的文本内容提取方法，所述方法包括：
[0006]获取待提取网页的源代码；
[0007]从所述源代码中提取所有标签的中间内容，并对每个标签的中间内容进行预处理得到每个标签的第一文本内容；
[0008]对预训练模型BERT进行参数微调得到参数共享的BERT模型，将所述每个标签的第一文本内容输入至所述参数共享的BERT模型，得到每个标签的目标向量；/>[0009]将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别；
[0010]计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度；
[0011]根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容。
[0012]可选的，所述将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别包括：
[0013]将所述目标向量输入至所述深度神经网络的双向LSTM层获得目标隐藏状态序列；
[0014]对所述目标隐藏状态序列进行线性运算得到每个标签的文本类别的分数；
[0015]将所述文本类别的分数经过softmax层映射为概率，并选取概率最大的文本类别作为所述每个标签的文本类别。
[0016]可选的，所述将所述目标向量输入至所述深度神经网络的双向LSTM层获得目标隐
藏状态序列包括：
[0017]提取所述目标向量中每个标签的特征向量；
[0018]将所述每个标签的特性向量的序列确定为所述每个标签的时间步；
[0019]将所述每个标签的特征向量和所述每个标签的时间步输入至所述双向LSTM层中；
[0020]接收所述双向LSTM层的正向LSTM层输出的第一隐藏状态序列，及接收所述双向LSTM层的反向LSTM层输出的第二隐藏状态序列；
[0021]对所述第一隐藏状态序列和所述第二隐藏状态序列按照预设规则进行拼接获得目标隐藏状态序列。
[0022]可选的，所述计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度包括：
[0023]获取每个标签的文本类别及所述文本类别的预设字段格式；
[0024]提取每个标签的文本类别的文本内容，并将所述文本内容转换为多个字段；
[0025]采用正则匹配算法计算所述每个标签的文本类别的每个字段的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度。
[0026]可选的，所述根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容包括：
[0027]判断每个标签的文本类别的字段格式相关度是否大于或者等于相同标签的相同文本类别对应的预设的字段格式相关度阈值；
[0028]当所述每个标签的文本类别的字段格式相关度大于或者等于所述相同标签的相同文本类别对应的预设的字段格式相关度阈值时，确定所述每个标签的文本类别的文本内容与对应的相同标签的相同文本类别一致，则提取所述每个标签的文本类别的文本内容得到所述待提取网页的网页内容。
[0029]可选的，所述对每个标签的中间内容进行预处理得到每个标签的第一文本内容包括：
[0030]去除所述每个标签的中间内容中的冗余数据；
[0031]根据预设的缺失比例处理规则对所述每个标签的中间内容进行归一化得到每个标签的多个句子，其中，每个句子中包含有序号；
[0032]在每个标签的每个句子的开头插入第一标记，及在每个标签的每个句子的末尾插入第二标记；
[0033]将标记后的所述多个句子按照序号的先后顺序进行拼接得到每个标签的第一文本内容。
[0034]可选的，所述深度神经网络的训练过程包括：
[0035]读取预设数量的网页的数据集；
[0036]将所述数据集划分为训练集和测试集；
[0037]利用所述训练集进行模型训练，以生成深度神经网络模型，并利用所述测试集对所述深度神经网络模型进行验证；
[0038]若验证通过率大于或者等于预设阈值，则训练完成，否则增加所述训练集的数量，以重新进行训练及验证。
[0039]本专利技术的第二方面提供一种网页的文本内容提取装置，所述装置包括：
[0040]获取模块，用于获取待提取网页的源代码；
[0041]第一提取模块，用于从所述源代码中提取所有标签的中间内容，并对每个标签的中间内容进行预处理得到每个标签的第一文本内容；
[0042]第一输入模块，用于对预训练模型BERT进行参数微调得到参数共享的BERT模型，将所述每个标签的第一文本内容输入至所述参数共享的BERT模型，得到每个标签的目标向量；
[0043]第二输入模块，用于将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别；
[0044]计算模块，用于计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度；
[0045]第二提取模块，用于根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容。
[0046]本专利技术的第三方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述的网页的文本内容提取方法。
[0047]本专利技术的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的网页的文本内容提取方法。
[0048]综上所述，本专利技术所述的网页的文本内容提取方法、装置、电子设备及存储介质，一方面，根据每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度，确定每个标签的文本类别对应的文本内容，避免了相同文本类别的文本内容分类到两个标签的现象，提高了对所述待提取网页的网页内容本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网页的文本内容提取方法，其特征在于，所述方法包括：获取待提取网页的源代码；从所述源代码中提取所有标签的中间内容，并对每个标签的中间内容进行预处理得到每个标签的第一文本内容；对预训练模型BERT进行参数微调得到参数共享的BERT模型，将所述每个标签的第一文本内容输入至所述参数共享的BERT模型，得到每个标签的目标向量；将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别；计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度；根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容。2.如权利要求1所述的网页的文本内容提取方法，其特征在于，所述将所述每个标签的目标向量输入至预先训练好的深度神经网络获得每个标签的文本类别包括：将所述目标向量输入至所述深度神经网络的双向LSTM层获得目标隐藏状态序列；对所述目标隐藏状态序列进行线性运算得到每个标签的文本类别的分数；将所述文本类别的分数经过softmax层映射为概率，并选取概率最大的文本类别作为所述每个标签的文本类别。3.如权利要求2所述的网页的文本内容提取方法，其特征在于，所述将所述目标向量输入至所述深度神经网络的双向LSTM层获得目标隐藏状态序列包括：提取所述目标向量中每个标签的特征向量；将所述每个标签的特性向量的序列确定为所述每个标签的时间步；将所述每个标签的特征向量和所述每个标签的时间步输入至所述双向LSTM层中；接收所述双向LSTM层的正向LSTM层输出的第一隐藏状态序列，及接收所述双向LSTM层的反向LSTM层输出的第二隐藏状态序列；对所述第一隐藏状态序列和所述第二隐藏状态序列按照预设规则进行拼接获得目标隐藏状态序列。4.如权利要求1所述的网页的文本内容提取方法，其特征在于，所述计算每个标签的文本类别的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度包括：获取每个标签的文本类别及所述文本类别的预设字段格式；提取每个标签的文本类别的文本内容，并将所述文本内容转换为多个字段；采用正则匹配算法计算所述每个标签的文本类别的每个字段的字段格式与相同标签的相同文本类别的预设字段格式之间的相关度。5.如权利要求1所述的网页的文本内容提取方法，其特征在于，所述根据所述每个标签的文本类别的字段格式相关度提取所述待提取网页的网页内容包括：判断每个标签的文本类别的字段格式相关度是否大于或者等于相同标签的相同文本类别对应的预设的字...

【专利技术属性】
技术研发人员：雷田子，
申请(专利权)人：平安国际智慧城市科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人