基于深度学习的文本内容安全检测方法技术

技术编号：31793212 阅读：16 留言：0更新日期：2022-01-08 10:52

本发明专利技术涉及一种基于深度学习的文本内容安全检测方法。该方法包括算法部分，对应的检测器是一个卷积神经网络框架。本发明专利技术算法整体架构采用的是长短记忆网络LSTM，此结构是一种循环神经网络，实现简单并具有长期记忆功能；在此基础上，还加入了注意力机制，此机制可将计算机有限的资源高效利用，并且使用时能并行，可在减少网络参数的情况下提升准确率。另外，本发明专利技术的算法部分还加入了残差结构，使得学习结果对网络权重的波动变化更加敏感，同时残差结果对数据的波动更加敏感。本方法提出基于深度的方法，通过改变模型参数，可构建出不同的文本内容检测器，剔除有害信息，为人们提供一个优质、安全的网络环境。安全的网络环境。安全的网络环境。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的文本内容安全检测方法

[0001]本专利技术涉及文本目标检测
，具体涉及一种基于深度学习的文本内容安全检测方法。

技术介绍

[0002]近年来随着互联网行业的高速发展，智能手机用户呈爆炸性增长，网络平台已经成为人们获取和交流信息的重要平台。互联网不仅拓宽了信息传播的广度和深度，也为大众提供了一个自由发表言论的平台。微博、微信等社交工具的出现，极大的促进了人们之间的交流。实时消息会通过这些平台传播给广大网友。人们通过社交平台将自己的观点公开到互联网上，无数的观点会形成一种舆论倾向，从而会引发一些网络暴力、侵犯隐私等极端行为。如何引导网络舆论、制止网络暴力行为、净化网络环境，是当今网络发展面临的一个重大问题。由此可见，文本内容的安全性至关重要，尤其是各式各样App中文本内容的安全性更加重要。
[0003]目前存在的检测文本内容的方法是关键字检测，例如微博，当一篇微博里的内容涉及一些敏感词汇时，这篇博文的内容将不会被别人看到，严重情况下此账号将会被冻结。主流的文本检测使用的是长短记忆网络LSTM结构，此结构也是一种RNN，实现简单，具有长期记忆功能，主要采用门的机制，能一定程度上解决梯度消失和爆炸的问题。这种方法虽然能精确地查找出违规的内容，但是这种检测方法过于单一，如果这些敏感词汇用同音字替换或者缩写代替，这种方法将不能检测出。随着深度学习的发展，目前也出现了一些基于深度学习的文本检测，例如LSTM+cTc等方法，虽然对LSTM算法有所改进，但仍有改进的空间。

技术实现思路

[...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的文本内容安全检测方法，其特征在于：其包括以下过程：S1、采用爬虫方式从各社交App上获取独立的数据集作为训练数据，原始数据均转换为文本格式的词汇；S2、对原始数据进行预处理，并采用将词汇重构为数字向量的word2vec算法简化计算与存储，该算法采用自然语言处理的模型—continuous Bag
‑
of
‑
Words模型，根据目标单词的上下文预测该目标单词含义，以实现文本检测，从而获得标词汇在给定句子中出现的概率，此概率为：P(w
t
|w
t
‑
c
:w
t+c
)对于给定的一句话w1、w2…
w
t
，该模型的目标函数就是最大化上式的对数似然函数：其中，L为似然函数、t为句子中向量的索引值、T为句子长度、c为上下文大小、w
t
‑
c
为句子中第一个向量、w
t+c
为句子中末尾向量；w
t
为要预测的目标单词条件概率由如下表达式计算：单词条件概率由如下表达式计算：其中，n为任意一个句子的索引值、N为句子的个数、为一篇文章中句子的平均长度、j为句子的索引值；S3、将处理后的数据利用随机森林算法减少冗余信息，之后再利用注意力Attention算法进行处理；S4、将S3中处理后的数据通过改进的长短记忆网络LSTM模型进行训练并保存最终权重，所述LSTM模型中引入了改进版注意力机制，所述改进版注意力机制在传统注意力机制的全连接层之前添加了残差结构，以便于优化并提高准确率；S5、将S4中处理后的数据并行传入到两个LSTM单...

【专利技术属性】
技术研发人员：金梅，秦芊，张立国，薛静芳，申前，黄文汉，孟子杰，王磊，
申请(专利权)人：燕山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人