一种基于BERT算法的网页有害文本识别方法及系统技术方案

技术编号:32459469 阅读:18 留言:0更新日期:2022-02-26 08:45
本发明专利技术属于网页文本处理领域,具体涉及一种基于BERT算法的网页有害文本识别方法及系统,所述识别方法包括:步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对初始文本进行文本整理,得到待识别文本集合;步骤3:将待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;步骤4:对识别结果进行人工验证,并基于得到的异常识别样本更新有害信息识别模型。上述方法不仅准确提取有效的网页文本,利用已有的有害文本判断模型实现网页文本内容识别,同时还通过人工校正对有害文本判断模型进行训练更新,进一步提升有害文本判断模型的准确性。步提升有害文本判断模型的准确性。步提升有害文本判断模型的准确性。

【技术实现步骤摘要】
一种基于BERT算法的网页有害文本识别方法及系统


[0001]本专利技术属于网页文本处理领域,具体涉及一种基于BERT算法的网页有害文本识别方法及系统。

技术介绍

[0002]互联网促进了社会的发展和进度,与此同时也为各式各样的有害文本的传播提供了巨大的便利。这些充斥在互联网上的有害文本越来越危害着大众正常的社会活动和健康的价值观,尤其对青少年的身心健康成长不利。互联网有害文本包括暴力、恐怖、反动、色情、毒品等。自动识别互联网上传播的各类有害网页亟待解决。
[0003]在互联网中,网页是以超文本标记语言(Hyper Text Mark

up Language,HTML)内容文本形式存在的,HTML本质上是文本文件。通常网页分类方法主要是利用文本信息,采用合适的分类器对文本信息进行分类,具体分类方法主要包含以下几种:
[0004](1)基于专家规则的方法。通过收集各类有害文本内容关键词,组成词袋,然后统计大量文本获得词袋权重,结合该有害类别领域有关的知识,制定分类规则。该方法最大的缺陷是需要耗费大量的时间和需要相关领域的专业人员。
[0005](2)基于向量空间特征表示方法。该方法可分为三个步骤,第一步:选择和提取特征;第二步:构造表示文本表的向量空间;第三步:构建分类器。此方法会忽略词语之间的语义,且向量空间不易选择,容易引起维度灾难。
[0006](3)基于分布式的词向量方法。该方法可分为三个步骤,第一步:选择和提取特征;第二步:使用LDA(主题模型)或Word2Vec等方法表达文本;第三步:构建分类器。这两类方法对全局信息把握不够,分类准确率较低。
[0007]因此,针对以上不足,本专利技术急需提供一种基于BERT算法的网页有害文本识别方法及系统。

技术实现思路

[0008]本专利技术的目的在于提供一种基于BERT算法的网页有害文本识别方法及系统,以解决现有技术中网页有害文本识别效率低且准确度不高的问题。
[0009]本专利技术提供的基于BERT算法的网页有害文本识别方法,包括以下步骤:
[0010]步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对步骤1获取的初始文本进行文本整理,得到待识别文本集合;步骤3:将步骤2得到的待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;步骤4:对步骤3得到的识别结果进行人工验证,并基于异常识别样本更新有害信息识别模型。
[0011]如上所述的基于BERT算法的网页有害文本识别方法,进一步优选为,步骤1具体包括:步骤1.1:获取待识别网页的域名地址,得到域名地址集合;步骤1.2:使用网络爬虫爬取步骤1.1得到的域名地址集合,并基于广度优选搜索策略,对读取的域名地址信息所对应的
网页进行逐一爬取,得到初始文本。
[0012]如上所述的基于BERT算法的网页有害文本识别方法,进一步优选为,步骤2具体包括:步骤2.1:基于HTML协议,将步骤1中得到的原始文本按照功能划分为不同的区域,得到不同区域的文本内容;步骤2.2:去除步骤2.1中不同区域的文本内容中与HTML协议有关的标签信息,得到符合汉语语言相关的文本内容;步骤2.3:根据前后关联性对步骤2.2中得到的符合汉语语言相关的文本内容进行拼接、分割,得到规范的文本句子;步骤2.4:将同一网页中得到的文本句子组合成一个集合,得到待识别文本集合。
[0013]如上所述的基于BERT算法的网页有害文本识别方法,进一步优选为,步骤3中的有害信息识别模型的训练包括以下步骤:步骤3.1:收集具有标记的正常文本样本和有害文本样本,组成样本集合;步骤3.2:将步骤3.1中的样本集合分成训练集、评估集和测试集;步骤3.3:加载BERT中文预训练模型,在预训练模型的最上层增加分类全连接层,组合得到训练模型;步骤3.4:分别采用训练集、评估集和测试集作为步骤3.3中训练模型的输入对训练模型进行训练学习、评估、测试和调整,得到有害信息识别模型。
[0014]如上所述的基于BERT算法的网页有害文本识别方法,进一步优选为,步骤4具体包括:步骤4.1:对步骤3得到的识别结果进行人工验证,并得到识别结果中识别错误的文本;步骤4.2:为步骤4.1中识别错误的文本创建标记,得到新的训练样本;步骤4.3:使用步骤4.2中得到的训练样本对步骤3中的有害信息识别模型进行学习训练,更新有害信息识别模型。
[0015]本专利技术还公开了的基于BERT算法的网页有害文本识别系统,包括:文本采集模块,用于使用网络爬虫爬取网页原始内容,得到初始文本;文本筛选模块,用于基于HTML协议对文本采集模块获取的初始文本进行文本整理,得到待识别文本集合;文本识别模块,用于将文本筛选模块得到的待识别文本输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;模型更新模块,用于对文本识别模块得到的识别结果进行人工验证,并基于异常识别样本更新有害信息识别模型。
[0016]如上所述的基于BERT算法的网页有害文本识别系统,进一步优选为,所述文本采集模块包括:网页信息采集器,用于获取网页地址并通过HTTP协议访问获取该网页地址,以获取网页内容;网页分析器,用于解析所述网页内容,并将网页内容中的链接地址发送至网页地址管理器,还用于将网页内容转换为初始文本;网页地址管理器,用于从网页地址库中获取网页地址集并传递至信息采集器,还用于获取网页分析器中提取的网页地址并存储至网页地址库中。
[0017]如上所述的基于BERT算法的网页有害文本识别系统,进一步优选为,所述文本筛选模块包括:内容过滤模块,用于获取初始文本,并过滤掉初始文本中的标签信息、渲染信息和脚本信息,得到有效文本;内容分类模块,用于根据网页定义规则对得到的有效文本进行内容划分,得到网页正文内容;内容整合模块,用于对网页正文内容进行整合,得到句子文本,所述句子文本的组合为待识别文本集合。
[0018]如上所述的基于BERT算法的网页有害文本识别系统,进一步优选为,所述文本识别模块包括:模型识别单元,用于将待识别文本集合输入到有害信息识别模型中进行有害文本识别,得到有害文本和无害文本;网页判定单元,用于根据网页中有害文本的数量占比与预设阈值的大小,判断网页是否为有害网页,得到包括有害文本、无害文本和判定结果的
识别记过。
[0019]如上所述的基于BERT算法的网页有害文本识别系统,进一步优选为,所述模型更新模块包括:人工分拣模块,用于显示识别结果以供人工分拣,以得到异常识别样本;样本训练模块,用于基于异常识别样本对有害信息识别模型进行模型训练,得到更新后的有害信息识别模型。
[0020]本专利技术与现有技术相比具有以下的优点:
[0021]本专利技术公开了一种基于BERT算法的网页有害文本识别方法,具体的包括步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对步骤1获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT算法的网页有害文本识别方法,其特征在于,包括以下步骤:步骤1:使用网络爬虫爬取网页原始内容,得到初始文本;步骤2:基于HTML协议对步骤1获取的初始文本进行文本整理,得到待识别文本集合;步骤3:将步骤2得到的待识别文本集合输入到基于BERT中文预训练模型训练得到的有害信息识别模型中进行有害文本识别,得到识别结果;步骤4:对步骤3得到的识别结果进行人工验证,并基于得到的异常识别样本更新有害信息识别模型。2.根据权利要求1所述的基于BERT算法的网页有害文本识别方法,其特征在于,步骤1具体包括:步骤1.1:获取待识别网页的域名地址,得到域名地址集合;步骤1.2:使用网络爬虫爬取步骤1.1得到的域名地址集合,并基于广度优选搜索策略,对读取的域名地址信息所对应的网页进行逐一爬取,得到初始文本。3.根据权利要求2所述的基于BERT算法的网页有害文本识别方法,其特征在于,步骤2具体包括:步骤2.1:基于HTML协议,将步骤1中得到的原始文本按照功能划分为不同的区域,得到不同区域的文本内容;步骤2.2:去除步骤2.1中不同区域的文本内容中与HTML协议有关的标签信息,得到符合汉语语言相关的文本内容;步骤2.3:根据前后关联性对步骤2.2中得到的符合汉语语言相关的文本内容进行拼接、分割,得到规范的文本句子;步骤2.4:将同一网页中得到的文本句子组合成一个集合,得到待识别文本集合。4.根据权利要求3所述的基于BERT算法的网页有害文本识别方法,其特征在于,步骤3中的有害信息识别模型的训练包括以下步骤:步骤3.1:收集具有标记的正常文本样本和有害文本样本,组成样本集合;步骤3.2:将步骤3.1中的样本集合分成训练集、评估集和测试集;步骤3.3:加载BERT中文预训练模型,在预训练模型的最上层增加分类全连接层,组合得到训练模型;步骤3.4:分别采用训练集、评估集和测试集作为步骤3.3中训练模型的输入对训练模型进行训练学习、评估、测试和调整,得到有害信息识别模型。5.根据权利要求4所述的基于BERT算法的网页有害文本识别方法,其特征在于,步骤4具体包括:步骤4.1:对步骤3得到的识别结果进行人工验证,并得到识别结果中识别错误的文本;步骤4.2:为步骤4.1中识别错误的文本创建标记,得到新的训练样本;步骤4.3:使用步骤4.2中得到的训练样本对步骤3中的有害信息识别模型进行学习训练,...

【专利技术属性】
技术研发人员:周小敏应鸿晖林国池石易麦丽娟莫凡林佳涛李高翔黄福鸿卓采标廖淑敏杨慧强宋宜昌黄正国周毅吴冠标李新蒋维曹勇高欢
申请(专利权)人:天津市国瑞数码安全系统股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1