基于深度学习的特定领域不良信息检测方法技术

技术编号：23672223 阅读：34 留言：0更新日期：2020-04-04 17:43

本发明专利技术公开基于深度学习的特定领域不良信息检测方法，对特定领域的数据集进行了数据集均衡处理，适应性更好，更宽泛。词向量的特定训练加入了相对均衡的百度百科文本，词向量具有通用性，即词向量从一定程度上反应出词与词之间的关系，进一步增加了其适应性和数据集宽度和广度。本发明专利技术考虑到文本上下文的相关性，神经网络模型中，重点处理了上下文之间的关系提取，准确率更高。

Detection method of bad information in specific field based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的特定领域不良信息检测方法
本专利技术涉及信息安全
，尤其涉及基于深度学习的特定领域不良信息检测方法。
技术介绍
目前使用比较广泛的不良信息检测技术是关键词匹配或者模糊匹配等方法，更进一步的是通过相关领域的专家进行不良信息的出现情况，人工整理出一套不良信息检测规则集。此方法的缺点1、关键词匹配方法会有很多误检的情况出现；2、专家规则集覆盖面有限，抽取的是和不良信息强相关的规则，和不良信息相关的一些弱相关规则可以因为相关性较少而被舍弃或漏掉，误检率较高。同样采取深度学习方法进行不良信息检测的是《一种基于多模态信息特征的不良内容过滤方法》，其采用的是把文本数据转换为图像数据，用处理图像的深度学习网络进行文本数据的处理和训练，最后根据由文本数据转换的图像数据之间的相似度进行不良信息过滤。此方法优点是由分类算法进行不良信息规则的抽取（文本数据及文本转换成的图像数据）；缺点是，文本数据是前后相关性较强的数据信息，是“一”字型；而图像数据则是近邻相关性较强的数据，是“米”字型。上文把文本数据转换为图像数据，已经...

【技术保护点】
1.基于深度学习的特定领域不良信息检测方法，其特征在于：其包括以下步骤：/n步骤1，获取指定区域的数据进行清洗去除无意义字符得到数据集A；/n步骤2，对数据集A人工打标签；/n步骤3，在数据集A中加入公共数据集B进行数据均衡处理得到数据集C；/n步骤4，利用word2vec 算法数据集C进行的词向量化训练，得到所有字和词汇的向量化唯一向量；/n步骤5，把向量化后数据集C采用随机分配的方法按比例分配出训练集、验证集和测试集；/n步骤6，选用适合文本的神经网络并分配好的训练集、验证集和测试集输入神经网络训练，并藉由该神经网络提取得到不良信息规则；/n步骤7，将待检测的信息输入训练好的神经网络进行文...

【技术特征摘要】
1.基于深度学习的特定领域不良信息检测方法，其特征在于：其包括以下步骤：
步骤1，获取指定区域的数据进行清洗去除无意义字符得到数据集A；
步骤2，对数据集A人工打标签；
步骤3，在数据集A中加入公共数据集B进行数据均衡处理得到数据集C；
步骤4，利用word2vec算法数据集C进行的词向量化训练，得到所有字和词汇的向量化唯一向量；
步骤5，把向量化后数据集C采用随机分配的方法按比例分配出训练集、验证集和测试集；
步骤6，选用适合文本的神经网络并分配好的训练集、验证集和测试集输入神经网络训练，并藉由该神经网络提取得到不良信息规则；
步骤7，将待检测的信息输入训练好的神经网络进行文本的不良信息检测。

2.根据权利要求1所述的基于深度...

【专利技术属性】
技术研发人员：何秋芸，罗志强，陈耿生，黄丽荣，
申请(专利权)人：中电福富信息科技有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人