【技术实现步骤摘要】
一种基于深度学习的多语言有害信息特征智能挖掘方法
:本专利技术涉及互联网领域的文本分析技术,特别涉及有害文本识别方法,是一种基于深度学习的多语言有害信息特征智能挖掘方法。
技术介绍
:对于有害信息的识别常用的有两种方法,一种是基于关键词和规则匹配的方法,一种是基于机器学习的方法。基于关键词和规则匹配的方法,需要人工编辑有害词词库,有时规则足够复杂才能达到比较好的效果,而网络上的有害词新词层出不穷,更新迭代周期短,维护词库与设计新规则耗费大量成本。基于机器学习的方法,是近些年来逐渐采用的方法,该方法的好处是不需要技术人员对有害信息有深入的领域知识和人工建立大量有害词库,而是通过优化机器学习算法自动提取网络文本中的有害词,提高有害信息识别的准确率。张家亮等在专利“一种基于机器学习的网页有害信息识别方法”(专利申请号:201811302974.X)提出了一种基于机器学习的网页有害信息识别方法,通过机器学习、训练模型、文本分类技术,对抓取的网页进行分类识别,根据网页识别结果的所属类别,达到甄别网页是否存在有害信息、进一步判断 ...
【技术保护点】
1.一种基于深度学习的多语言有害信息特征智能挖掘方法,包括如下步骤:/n1)收集各语种有害信息文本和无害信息文本,建立数据标注集<S>,标注各语种各类别的有害信息文本数据的正负样本数据,其中正样本是该类别该语种的有害信息文本,样本数量为N
【技术特征摘要】
1.一种基于深度学习的多语言有害信息特征智能挖掘方法,包括如下步骤:
1)收集各语种有害信息文本和无害信息文本,建立数据标注集<S>,标注各语种各类别的有害信息文本数据的正负样本数据,其中正样本是该类别该语种的有害信息文本,样本数量为N正样本,负样本是该类别该语种的无害信息文本,样本数量为N负样本。
2)将步骤1)的数据标注集<S>中各语种有害信息文本和无害信息文本词例化,然后去掉停用词和标点符号。
3)将步骤2)的每个语种的每个类别的词使用RNSW(RemoveNegativeSampleWords)方法选出n个候选词,建立该类别的词-ID的词对集合{<W1,ID1>,<W2,ID2>,......,<Wn,IDn>},其中n为该类别的词对集合中词对的数量,Wx代表各语种的单词或分词后的词,IDx代表该词的ID,用集合中的唯一的一个整数值的独热码(One-HotEncoding)编码来表示。
4)将步骤3)每个语种的每个类别的每个样品数据,根据该语种该类别的词对集合{<W1,ID1>,<W2,ID2>,......,<Wn,IDn>},转化为相应的ID的数据向量X:{Vec1,Vec2,......Vecm}。
5)将步骤4)的每个语种的每个类别中的最大的样本的词的数量Mmax做为该类别的词的数量,将数据向量X:{Vec1,Vec2,......Vecm}中词向量维数不到Mmax的在前端填充0。根据每个样本是正样本还是负样本,设置相应数据的类别向量:y:{y1,y2,......,ym},对于该类别的正样本yx为[1,0],负样本则yx为[0,1]。
6)将步骤5)的每个语种的每个类别的数据向量X和y按照某个比例分成训练集train_x,train_y和测试集dev_x,dev_y。
7)按照批大小为某个批大小,分批将步骤6)的train_x,train_y输入到如附图4所示的CNN神经网络模型中训练学习,使用Adam优化器和交叉熵损失函数进行训练,最后用softmax归一化分类,得到最终的分类结果。
8)将词对集合{<W1,ID1>,<W2,ID2>,......,<Wn,IDn>}的每个词Wx输入到步骤7)训练优化的最终模型中,得到每个词Wx属于该语种该有害类别的得分Mx,将Mx作为该词的权重,按照权重从大到小排序,得到p个词集合{W1,W2,......,Wp},则该词集合为机器学习选出的该语种该类别的有害信息特征。
9)使用遗传算法对步骤8)机器学习选出的有害信息特征{W1,W2,......Wp}进行特征选择,选择出最优数量的有害信息特征词,形成最终的有害信息特征{W1,W2,......Wq}和权重{M1,M2,......,Mq}。
10)使用步骤9)的有害信息特征{W1,W2,......,Wq}和相应的权重{M1,M2,......,Mq},判断文本是否为有害信息。
2.如权利要求1所述基于深度学习的多语言有害信息特征智能挖掘方法,其特征在于,所述步骤1)有害信息和无害信息的收集和标注的过程以及数据标注集<S>的建立过程,该过程是进行有害信息特征挖掘的基础,其中各语种的有害信息包括但不限于以下语种:中文、英文、维文、韩文、日文、阿拉伯文、德文、法文。
3.如权利要求1所述基于深度学习的多语言有害信息特征智能挖掘方法,其特征在于,所述步骤2)所述将数据标注集<S>中各语种有害信息文本和无害信息文本分词或词例化的过程。对于不同的语种有不同的处理过程,可根据如下步骤进行:
2a)判断文本的语种,如果是中文、韩文和日文等语种,转到步骤2b);如果是英文、法文等拉丁语系语言,转到步骤2c);如果是维文和阿拉伯文等语种,转到步骤2d)。
2b)对于中文、韩文和日文等语种进行分词,也就是将字符序列切分成词序列,然后去掉停用词和标点符号;
2c)对于英文、法文等拉丁字符语言进行词例化,将句子包含的单词按照语言规则分解,主要采用空格、标点符号等进行分割并且将所有大写字母转换为小写字母;
2d)对于维文和阿拉伯文等进行词例化,将句子包含的单词按照语言规则分解,主要采用空格、维文或阿拉伯文等标点符号等进行分割及对偶词进行分割。对于语言中不同的文字拼写形式要进行文字转换,转换为同一种拼写形式,对现行维文、拉丁维文、斯拉夫维文、新文字维文、不规范拉丁维文进行转换,转换为现行维文的拼写形式。
4.如权利要求1所述基于深度学习的多语言有害信息特征智能挖掘方法,其特征在于,所述步骤3)描述的一种语种无关的对文本进行降维表示的方法:RNSW(RemoveNegativeSampleWords)方法,使用该方法可以从每个语种的每个类别的文本中选出候选词,建立词对集合,用该词对集合对原文本进行特征降维表示。该过程仅在该语种的该类别中建立词对集合,集合中的...
【专利技术属性】
技术研发人员:赵全军,吴敬征,段旭,陈宏江,伊克拉木·伊力哈木,刘立力,
申请(专利权)人:中科软科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。