System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于互联网安全,具体涉及一种文本有害内容无监督识别方法及装置。
技术介绍
1、随着互联网的广泛应用,网上用户在多种互联网媒体发布、浏览很容易受到有害信息的传播。如赌博网站、诈骗、涉黄等非法网站,对正常用户造成了不小的干扰。当前常用的针对有害信息的检测是基于有监督学习算法,对文本数据进行向量化操作,然后基于机器学习分类或深度学习的方法进行分类标记。
2、由于互联网技术和用户的技术手段都会发生变化,其在网页上呈现的内容也会变化,要适应这种变化,则需要通过不断地对新的大量文本数据进行标注,往往需要耗费大量的人工和时间。
3、有鉴于此,本专利技术提出一种基于无监督的文本有害内容识别方法。
技术实现思路
1、为了解决现有技术中存在的上述问题,本专利技术提供一种文本有害内容无监督识别方法及装置。
2、为了实现上述目的,本专利技术采用以下技术方案。
3、第一方面,本专利技术提供一种文本有害内容无监督识别方法,包括以下步骤:
4、获取待识别的多个文本,计算每个待识别文本的特征向量;
5、计算有害文本分类库中每个有害文本类别的特征向量,有害文本分类库包括每种有害文本类别的标识词;
6、计算待识别文本的特征向量与每个有害文本类别的特征向量的相似度,若所述相似度的最大值超过设定阈值,则所述最大值对应的有害文本类别为所述待识别文本的类别。
7、进一步地,所述有害文本分类库的构建方法包括:
9、利用wordnet对初始有害文本分类库中的各类标识词进行同义词或近义词扩展;
10、对扩展后的有害文本分类库中的标识词进行筛选,剔除扩展过程中引入的与有害文本分类库不匹配的标识词。
11、更进一步地,所述有害文本类别包括诈骗、涉黄和赌博。
12、更进一步地,诈骗类的常用标识词包括:刷单、验证码、致富;涉黄类的常用标识词包括:爱抚、丰满、柔软;赌博类的常用标识词包括:麻将、赌球、棋牌。
13、更进一步地,对扩展后的有害文本分类库中的标识词进行筛选的方法包括:
14、s1、统计扩展后的有害文本分类库中第i个有害文本类别中的第j个标识词出现的次数wi,j,i=1,2,…,i,j=1,2,…,ji,i为有害文本类别的数量,ji为第i个有害文本类别中标识词的数量;
15、s2、确定第i个有害文本类别与第j个标识词的关系值ti,j:若第j个标识词在第i个有害文本类别中,则ti,j=1;否则,ti,j=0,i=1,2,…,i,j=1,2,…,ji;
16、s3、建立由ti,j组成的数列tj={ti,j},i=1,2,…,i,计算去掉ti,j后的tj的方差vari,j;
17、s4、计算第i个有害文本类别中第j个标识词的综合得分:
18、
19、式中,si,j为第i个有害文本类别中第j个标识词的综合得分;
20、s5、若si,j小于设定的阈值,删除第i个有害文本类别中的第j个标识词;
21、s6、重复执行s3~s5,直到处理完所有标识词。
22、进一步地,计算每个待识别文本的特征向量的方法包括:
23、将由待识别文本组成的集合记为{tj},tj为第j个待识别文本,j=1,2,…,n,n为待识别文本的数量;
24、将由{tj}中的所有单词组成的集合记为{wi},wi第i个单词,i=1,2,…,m,m为单词的数量;
25、建立m×n阶矩阵a,a的第i行、第j列元素等于wi在tj中出现的次数;
26、对矩阵a进行奇异值分解,得到a=x×b×y,x为m×i阶矩阵,b为i×i阶对角矩阵,y为i×n阶矩阵,i为有害文本类别的数量;
27、将y的每一列元素组成一个向量,得到n个待识别文本的特征向量。
28、更进一步地,对矩阵a进行奇异值分解的方法包括:
29、计算aat的特征值,并选取i个最大的特征值得到i个奇异值;
30、以所述i个奇异值为对角线元素得到i×i阶对角矩阵b;
31、计算所述i个奇异值对应的i个m维左奇异向量和i个m维右奇异向量;
32、以i个m维左奇异向量作为矩阵的i个列,得到m×i阶矩阵x,以i个m维右奇异向量作为矩阵的i个行,得到i×m阶矩阵y,从而将a分解为a=x×b×y。
33、进一步地,计算有害文本分类库中每个有害文本类别的特征向量的方法包括:
34、确定有害文本分类库中每个标识词的类别向量,所述类别向量包括i个元素,若标识词属于第i个有害文本类别,则所述标识词的类别向量的第i个元素为1,其它元素均为0,i=1,2,…,i,i为有害文本类别的数量;
35、以每个标识词的类别向量为矩阵的一行,建立m×i阶矩阵a0,m为有害文本分类库中标识词的数量;
36、对矩阵a0进行奇异值分解,得到a0=x0×b0×y0,x0为m×i阶矩阵,b0为i×i阶对角矩阵,y0为i×i阶矩阵;
37、将y0的第i列元素组成一个向量,所述向量为第i个有害文本类别的特征向量,i=1,2,…,i。
38、更进一步地,计算向量{x1,x2,…,xn}和{y1,y2,…,yn}的相似度的公式为:
39、
40、式中,k为余弦相似度,n为两个向量包含元素的个数。
41、第二方面,本专利技术提供一种文本有害内容无监督识别装置,包括:
42、文本特征计算模块,用于获取待识别的多个文本,计算每个待识别文本的特征向量;
43、类别特征计算模块,用于计算有害文本分类库中每个有害文本类别的特征向量,有害文本分类库包括每种有害文本类别的标识词;
44、文本类别识别模块,用于计算待识别文本的特征向量与每个有害文本类别的特征向量的相似度,若所述相似度的最大值超过设定阈值,则所述最大值对应的有害文本类别为所述待识别文本的类别。
45、与现有技术相比,本专利技术具有以下有益效果。
46、本专利技术通过获取待识别的多个文本,计算每个待识别文本的特征向量,计算有害文本分类库中每个有害文本类别的特征向量,有害文本分类库包括每种有害文本类别的标识词,计算待识别文本的特征向量与每个有害文本类别的特征向量的相似度,若所述相似度的最大值超过设定阈值,则所述最大值对应的有害文本类别为所述待识别文本的类别,实现了文本有害内容的无监督识别。本专利技术通过构建有害文本分类库,并通过相似度计算,能够对文本中的有害内容进行高精度无监督识别,解决了基于有监督学习的现有识别方法存在的需要不断地对新的大量文本数据进行标注,耗费大量的人工和时间的问题。
本文档来自技高网...【技术保护点】
1.一种文本有害内容无监督识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的文本有害内容无监督识别方法,其特征在于,所述有害文本分类库的构建方法包括:
3.根据权利要求2所述的文本有害内容无监督识别方法,其特征在于,所述有害文本类别包括诈骗、涉黄和赌博。
4.根据权利要求3所述的文本有害内容无监督识别方法,其特征在于,诈骗类的常用标识词包括:刷单、验证码、致富;涉黄类的常用标识词包括:爱抚、丰满、柔软;赌博类的常用标识词包括:麻将、赌球、棋牌。
5.根据权利要求2所述的文本有害内容无监督识别方法,其特征在于,对扩展后的有害文本分类库中的标识词进行筛选的方法包括:
6.根据权利要求1所述的文本有害内容无监督识别方法,其特征在于,计算每个待识别文本的特征向量的方法包括:
7.根据权利要求6所述的文本有害内容无监督识别方法,其特征在于,对矩阵A进行奇异值分解的方法包括:
8.根据权利要求1所述的文本有害内容无监督识别方法,其特征在于,计算有害文本分类库中每个有害文本类别的特征向量的方法包括:
9.根据权利要求1所述的文本有害内容无监督识别方法,其特征在于,计算向量{x1,x2,…,xN}和{y1,y2,…,yN}的相似度的公式为:
10.一种文本有害内容无监督识别装置,其特征在于,包括:
...【技术特征摘要】
1.一种文本有害内容无监督识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的文本有害内容无监督识别方法,其特征在于,所述有害文本分类库的构建方法包括:
3.根据权利要求2所述的文本有害内容无监督识别方法,其特征在于,所述有害文本类别包括诈骗、涉黄和赌博。
4.根据权利要求3所述的文本有害内容无监督识别方法,其特征在于,诈骗类的常用标识词包括:刷单、验证码、致富;涉黄类的常用标识词包括:爱抚、丰满、柔软;赌博类的常用标识词包括:麻将、赌球、棋牌。
5.根据权利要求2所述的文本有害内容无监督识别方法,其特征在于,对扩展后的有害文本分类库中的标识词进...
【专利技术属性】
技术研发人员:施力,周晓阳,贺敏,杨菁林,史博轩,毛洪亮,孙林,魏星,董琳,陈梓瑄,郭富民,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。