一种基于BERT算法的网页有害文本识别方法及系统技术方案

技术编号：32459469 阅读：18 留言：0更新日期：2022-02-26 08:45

本发明专利技术属于网页文本处理领域，具体涉及一种基于BERT算法的网页有害文本识别方法及系统，所述识别方法包括：步骤1：使用网络爬虫爬取网页原始内容，得到初始文本；步骤2：基于HTML协议对初始文本进行文本整理，得到待识别文本集合；步骤3：将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别，得到识别结果；步骤4：对识别结果进行人工验证，并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本，利用已有的有害文本判断模型实现网页文本内容识别，同时还通过人工校正对有害文本判断模型进行训练更新，进一步提升有害文本判断模型的准确性。步提升有害文本判断模型的准确性。步提升有害文本判断模型的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BERT算法的网页有害文本识别方法及系统

[0001]本专利技术属于网页文本处理领域，具体涉及一种基于BERT算法的网页有害文本识别方法及系统。

技术介绍

[0002]互联网促进了社会的发展和进度，与此同时也为各式各样的有害文本的传播提供了巨大的便利。这些充斥在互联网上的有害文本越来越危害着大众正常的社会活动和健康的价值观，尤其对青少年的身心健康成长不利。互联网有害文本包括暴力、恐怖、反动、色情、毒品等。自动识别互联网上传播的各类有害网页亟待解决。
[0003]在互联网中，网页是以超文本标记语言(Hyper Text Mark
‑
up Language,HTML)内容文本形式存在的，HTML本质上是文本文件。通常网页分类方法主要是利用文本信息，采用合适的分类器对文本信息进行分类，具体分类方法主要包含以下几种：
[0004](1)基于专家规则的方法。通过收集各类有害文本内容关键词，组成词袋，然后统计大量文本获得词袋权重，结合该有害类别领域有关的知识，制定分类规则。该方法最大的缺陷是需要耗费大量的时间和需要相关领域的专业人员。
[0005](2)基于向量空间特征表示方法。该方法可分为三个步骤，第一步：选择和提取特征；第二步：构造表示文本表的向量空间；第三步：构建分类器。此方法会忽略词语之间的语义，且向量空间不易选择，容易引起维度灾难。
[0006](3)基于分布式的词向量方法。该方法可分为三个步骤，第一步：选择和提取特征；第二步：使用LDA(主题模型)或Word2...

【技术保护点】

【技术特征摘要】
1.一种基于BERT算法的网页有害文本识别方法，其特征在于，包括以下步骤：步骤1：使用网络爬虫爬取网页原始内容，得到初始文本；步骤2：基于HTML协议对步骤1获取的初始文本进行文本整理，得到待识别文本集合；步骤3：将步骤2得到的待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别，得到识别结果；步骤4：对步骤3得到的识别结果进行人工验证，并基于得到的异常识别样本更新有害信息识别模型。2.根据权利要求1所述的基于BERT算法的网页有害文本识别方法，其特征在于，步骤1具体包括：步骤1.1：获取待识别网页的域名地址，得到域名地址集合；步骤1.2：使用网络爬虫爬取步骤1.1得到的域名地址集合，并基于广度优选搜索策略，对读取的域名地址信息所对应的网页进行逐一爬取，得到初始文本。3.根据权利要求2所述的基于BERT算法的网页有害文本识别方法，其特征在于，步骤2具体包括：步骤2.1：基于HTML协议，将步骤1中得到的原始文本按照功能划分为不同的区域，得到不同区域的文本内容；步骤2.2：去除步骤2.1中不同区域的文本内容中与HTML协议有关的标签信息，得到符合汉语语言相关的文本内容；步骤2.3：根据前后关联性对步骤2.2中得到的符合汉语语言相关的文本内容进行拼接、分割，得到规范的文本句子；步骤2.4：将同一网页中得到的文本句子组合成一个集合，得到待识别文本集合。4.根据权利要求3所述的基于BERT算法的网页有害文本识别方法，其特征在于，步骤3中的有害信息识别模型的训练包括以下步骤：步骤3.1：收集具有标记的正常文本样本和有害文本样本，组成样本集合；步骤3.2：将步骤3.1中的样本集合分成训练集、评估集和测试集；步骤3.3：加载BERT中文预训练模型，在预训练模型的最上层增加分类全连接层，组合得到训练模型；步骤3.4：分别采用训练集、评估集和测试集作为步骤3.3中训练模型的输入对训练模型进行训练学习、评估、测试和调整，得到有害信息识别模型。5.根据权利要求4所述的基于BERT算法的网页有害文本识别方法，其特征在于，步骤4具体包括：步骤4.1：对步骤3得到的识别结果进行人工验证，并得到识别结果中识别错误的文本；步骤4.2：为步骤4.1中识别错误的文本创建标记，得到新的训练样本；步骤4.3：使用步骤4.2中得到的训练样本对步骤3中的有害信息识别模型进行学习训练，...

【专利技术属性】
技术研发人员：周小敏，应鸿晖，林国池，石易，麦丽娟，莫凡，林佳涛，李高翔，黄福鸿，卓采标，廖淑敏，杨慧强，宋宜昌，黄正国，周毅，吴冠标，李新，蒋维，曹勇，高欢，
申请(专利权)人：天津市国瑞数码安全系统股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人