当前位置: 首页 > 专利查询>燕山大学专利>正文

基于深度学习的文本内容安全检测方法技术

技术编号:31793212 阅读:16 留言:0更新日期:2022-01-08 10:52
本发明专利技术涉及一种基于深度学习的文本内容安全检测方法。该方法包括算法部分,对应的检测器是一个卷积神经网络框架。本发明专利技术算法整体架构采用的是长短记忆网络LSTM,此结构是一种循环神经网络,实现简单并具有长期记忆功能;在此基础上,还加入了注意力机制,此机制可将计算机有限的资源高效利用,并且使用时能并行,可在减少网络参数的情况下提升准确率。另外,本发明专利技术的算法部分还加入了残差结构,使得学习结果对网络权重的波动变化更加敏感,同时残差结果对数据的波动更加敏感。本方法提出基于深度的方法,通过改变模型参数,可构建出不同的文本内容检测器,剔除有害信息,为人们提供一个优质、安全的网络环境。安全的网络环境。安全的网络环境。

【技术实现步骤摘要】
基于深度学习的文本内容安全检测方法


[0001]本专利技术涉及文本目标检测
,具体涉及一种基于深度学习的文本内容安全检测方法。

技术介绍

[0002]近年来随着互联网行业的高速发展,智能手机用户呈爆炸性增长,网络平台已经成为人们获取和交流信息的重要平台。互联网不仅拓宽了信息传播的广度和深度,也为大众提供了一个自由发表言论的平台。微博、微信等社交工具的出现,极大的促进了人们之间的交流。实时消息会通过这些平台传播给广大网友。人们通过社交平台将自己的观点公开到互联网上,无数的观点会形成一种舆论倾向,从而会引发一些网络暴力、侵犯隐私等极端行为。如何引导网络舆论、制止网络暴力行为、净化网络环境,是当今网络发展面临的一个重大问题。由此可见,文本内容的安全性至关重要,尤其是各式各样App中文本内容的安全性更加重要。
[0003]目前存在的检测文本内容的方法是关键字检测,例如微博,当一篇微博里的内容涉及一些敏感词汇时,这篇博文的内容将不会被别人看到,严重情况下此账号将会被冻结。主流的文本检测使用的是长短记忆网络LSTM结构,此结构也是一种RNN,实现简单,具有长期记忆功能,主要采用门的机制,能一定程度上解决梯度消失和爆炸的问题。这种方法虽然能精确地查找出违规的内容,但是这种检测方法过于单一,如果这些敏感词汇用同音字替换或者缩写代替,这种方法将不能检测出。随着深度学习的发展,目前也出现了一些基于深度学习的文本检测,例如LSTM+cTc等方法,虽然对LSTM算法有所改进,但仍有改进的空间。

技术实现思路

[0004]本专利技术的目的是为了克服
技术介绍
中的不足之处,基于深度学习的文本内容安全检测方法,融合注意力机制,构建一个检测文本安全的方法,尤其适用于社交App。该方法将注意力机制进行改进,将Attention模型跟长短记忆网络LSTM结构相结合,使神经网络专注于特征子集的能力并且对输入的特征没有任何的限制。在计算能力有限的情况下,注意力机制是解决信息超载问题的主要手段的一种资源分配方式,将资源分配给更重要的任务,同时也能并行处理问题。与传统的LSTM算法相比,能在减少网络参数的情况下大大提升准确率等性能。
[0005]本专利技术是通过以下技术方案实现的:一种基于深度学习的文本内容安全检测方法,该方法基于改进的LSTM结构,包括以下过程:
[0006]S1、采用爬虫方式从各社交App上获取独立的数据集作为训练数据,原始数据均转换为文本格式的词汇;
[0007]S2、对原始数据进行预处理,并采用将词汇重构为数字向量的word2vec算法简化计算与存储,该算法采用自然语言处理的模型—continuous Bag

of

Words,根据目标单词的上下文预测该目标单词含义,以实现文本检测,从而获得标词汇在给定句子中出现的概
率,此概率为
[0008]P(w
t
w
t

c
:w
t+c
)
[0009]对于给定的一句话w1、w2…
w
t
,该模型的目标函数就是最大化上式的对数似然函数:
[0010][0011]其中,L为似然函数、t为句子中向量的索引值、T为句子长度、c为上下文大小、w
t

c
为句子中第一个向量、w
t+c
为句子中末尾向量;
[0012]w
t
为要预测的目标单词条件概率由如下表达式计算:
[0013][0014][0015]其中,n为任意一个句子的索引值、N为句子的个数、为一篇文章中句子的平均长度、j为句子的索引值;
[0016]S3、将处理后的数据利用随机森林算法减少冗余信息,之后再利用注意力Attention算法进行处理;
[0017]S4、将S3中处理后的数据通过改进的LSTM模型进行训练并保存最终权重,所述LSTM模型中引入了改进版注意力机制,所述改进版注意力机制在传统注意力机制的全连接层之前添加了残差结构,以便于优化并提高准确率;
[0018]S5、将S4中处理后的数据并行传入到两个LSTM单元中进行训练,第一个LSTM单元对文本内容进行分类,如果属于第一类就不进行任何处理,如果属于第二类就给发送此文本的用户发送警告信息。另一个单元是检测文本中的敏感词汇,如果检测到了敏感词汇,则删除此文本的同时给发送此文本的用户发送警告信息。
[0019]优选地,在所述S1中,通过调用已有词库对采集不充足样本进行补充;在所述S2中,对原始数据集进行正负样本的标定,将褒义或中性的词标为正样本,贬义的词标为负样本。
[0020]优选地,所述S3中,所述Attention算法的改进结构具体为:
[0021]a、将数据进行融合处理,转化张量tensor的维度;
[0022]b、将a中数据进行重塑reshape处理,改变张量tensor的形状;
[0023]c、将b中数据传入残差结构的两层3*3的卷积层,数据通过卷积操作之后再与未处理的数据进行相加;
[0024]d、将c中数据再次进行两次特征融合处理;
[0025]e、将d中数据进行展平flatten操作之后送入全连接层进行预测。
[0026]优选地,所述残差结构的内部设有残差块,残差块使用跳跃连接以减少神经网络中梯度消失的问题。
[0027]优选地,通过word2vec算法将所有的词表示成低维稠密向量,从而能在词向量空间定性衡量词与词之间的相似性,并利用word2vec的词袋模型弱化词汇排序的重要性。
[0028]优选地,在所述Attention算法结构中加入残差结构,增加学习结果对网络权重波动的敏感度,所述安全检测方法通过改变模型参数,能构建不同的社交App文本内容检测器。
[0029]与现有技术相比,本专利技术具有以下有益效果:
[0030](1)本专利技术应用于社交App内容检测时,结合了当下主流两种文本检测方法,将文本内容检测和关键词检测相结合,基于二者的优点,能更好地检测出一些不良的隐讳内容,也增强了方法的鲁棒性;
[0031](2)在对样本进行标注时,采用随机森林算法,大大提升了样本筛选的效率;
[0032](3)本专利技术在注意力机制网络中加入了残差结构,在降低过拟合的风险同时能使网络更加专注于文本特征提取;上述方法相结合,使得模型的精度有较高地提升,为社交App提供了一种更加精准的文本检测方法。
附图说明
[0033]图1是本专利技术的使用流程图;
[0034]图2是本专利技术核心算法流程图;
[0035]图3是本专利技术数据获取及处理流程图;
[0036]图4是本专利技术随机森林算法流程图;
[0037]图5是本专利技术LSTM算法流程图;
[0038]图6是LSTM内部结构图;
[0039]图7是本专利技术改进的注意力机制流程图。
具体实施方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的文本内容安全检测方法,其特征在于:其包括以下过程:S1、采用爬虫方式从各社交App上获取独立的数据集作为训练数据,原始数据均转换为文本格式的词汇;S2、对原始数据进行预处理,并采用将词汇重构为数字向量的word2vec算法简化计算与存储,该算法采用自然语言处理的模型—continuous Bag

of

Words模型,根据目标单词的上下文预测该目标单词含义,以实现文本检测,从而获得标词汇在给定句子中出现的概率,此概率为:P(w
t
|w
t

c
:w
t+c
)对于给定的一句话w1、w2…
w
t
,该模型的目标函数就是最大化上式的对数似然函数:其中,L为似然函数、t为句子中向量的索引值、T为句子长度、c为上下文大小、w
t

c
为句子中第一个向量、w
t+c
为句子中末尾向量;w
t
为要预测的目标单词条件概率由如下表达式计算:单词条件概率由如下表达式计算:其中,n为任意一个句子的索引值、N为句子的个数、为一篇文章中句子的平均长度、j为句子的索引值;S3、将处理后的数据利用随机森林算法减少冗余信息,之后再利用注意力Attention算法进行处理;S4、将S3中处理后的数据通过改进的长短记忆网络LSTM模型进行训练并保存最终权重,所述LSTM模型中引入了改进版注意力机制,所述改进版注意力机制在传统注意力机制的全连接层之前添加了残差结构,以便于优化并提高准确率;S5、将S4中处理后的数据并行传入到两个LSTM单...

【专利技术属性】
技术研发人员:金梅秦芊张立国薛静芳申前黄文汉孟子杰王磊
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1