System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机自然语言处理领域,具体涉及一种基于fgsm(fast gradientsign method)的多特征融合中文不良文本识别方法。
技术介绍
1、在如今的互联网时代,社交媒体在技术进步的潮流中不断演化发展。用户产生的内容可以在各种应用程序和网站中找到,包括社交网络、公告栏、博客、即时通讯工具、新闻评论等。世界各地的人们在各种平台上分享它们的观点和内容,然而这些内容中不可避免地包含一些不良信息。这类在网络上以评论、弹幕、聊天等形式出现的有害文本,称为不良文本。这不仅严重危害网络环境,而且对青少年的心理健康产生消极影响。因此,寻找有效的识别不良文本的方法是具有研究意义和实现价值的。
2、现有的不良文本识别方法大致有如下几类:
3、1、基于词典的和匹配的不良文本识别方法:其核心思想是建立一个不良词库,不良文本识别器依据已有的不良词库来检测文本,根据匹配算法来识别文本的不良性。虽然这种方法的思想朴素直接,但是不良词库需要人工构建,无法应对网络上日益变化的的新不良词,需要不断扩充修改。
4、2、基于用户的不良文本识别方法:根据用户的行为、资料和历史发帖情况,通过识别账户来判定文本的不良性。这种方法的弊端在于不良文本的发送者仍然可以通过调整发帖行为和关注合法账户来逃避这种识别手段。
5、3、基于深度学习模型的不良文本识别方法:近年来,数据的增多、算力的增强使得深度学习不断发展上升,许多深度学习模型在不良文本的分类中取得了突破性进展,很多情况下不用过多的数据预处理就能得到较好的
技术实现思路
1、本专利技术的目的是提供一种基于fgsm的多特征融合中文不良文本识别方法,以解决上述
技术介绍
中提出的问题。
2、为实现这一目的,本专利技术提供如下方案:
3、第一方面,本专利技术提供一种基于fgsm的多特征融合中文不良文本识别方法,包含以下步骤:
4、s1:获得预处理后的文本数据;
5、s2:将所述文本数据中的中文文本中每个字符分别转化为拼音和四角号码,得到字音特征嵌入表示、字形特征嵌入表示;
6、s3:将原始文本嵌入表示、字形特征嵌入表示、字音特征嵌入表示,经过融合后得到多特征加权融合嵌入表示;
7、s4:利用所述多特征加权融合嵌入表示输入至深度学习文本分类模型进行fgsm对抗训练,输出样本属于不良信息文本或者非不良信息文本的二分类标签;
8、s5:利用上述训练后的深度学习文本分类模型实现中文不良文本识别。
9、其中所述获得预处理后的文本数据的具体方式为:
10、对每条文本数据中的每个字符用空格分隔,并划分训练数据和测试数据。
11、其中所述将文本数据中的中文文本中每个字符分别转化为拼音和四角号码的具体方式为:
12、s21:利用拼音转化工具将所述文本数据的中文文本中每个字符转化为拼音;
13、s22:利用四角号码转化工具将所述文本数据的中文文本中每个字符转化为四角号码。
14、其中深度学习文本分类模型的特征输入包括文本原始嵌入表示、字形特征嵌入表示、字音特征嵌入表示,经过融合后得到多特征加权融合表示,执行步骤s3的具体方式为:
15、s31:针对s2中的原始字符、拼音、四角号码,分别建立三个字表,根据字表构建模型输入后随机初始化得到原始文本嵌入表示x1、字形特征嵌入表示x2、字音特征嵌入表示x3;
16、s32:随机初始化3个和为1的参数值α、β、γ,得到多特征加权融合嵌入表示x=αx1+βx2+γx3。α、β、γ初始化时采用pytorch深度学习框架中的nn.parameter方法将参数转化为可供模型训练的参数;在深度学习文本分类模型进行训练时模型参数与α、β、γ同时进行迭代更新。
17、其中所述利用多特征加权融合嵌入表示配合深度学习文本分类模型进行fgsm对抗训练,使其能准确输出样本属于不良信息文本或者非不良信息文本的二分类标签,执行步骤s4的具体方式为:
18、采用fgsm对抗训练的方式,在多特征融合嵌入上沿着梯度上升的方向增加扰动,使得文本分类模型适应这种改变,从而对对抗样本具有鲁棒性。
19、第二方面,本专利技术提供实现所述方法的中文不良文本识别系统,包括:
20、数据获取与预处理模块,负责获得中文文本数据,并对其进行预处理;
21、特征提取模块,负责将预处理后中文文本数据中的每个字符分别转化为拼音和四角号码,得到字音特征嵌入表示、字形特征嵌入表示;将原始文本嵌入表示、字形特征嵌入表示、字音特征嵌入表示,经过融合后得到多特征加权融合嵌入表示;
22、识别模块,负责利用深度学习文本分类模型识别中文不良文本。
23、第三方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行所述的方法。
24、第四方面,本专利技术提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的方法。
25、本专利技术与现有技术相比有如下优点:
26、本专利技术在原有模型的输入基础上融合了字音和字形特征,这种多维度的层次信息很大程度上可以兼容输入文本中的字形相似或者同音字的错误,识别文本在字音和字形上的伪装,抽象出文本的真实意识特征;同时融合嵌入特征采取自适应学习参数的形式,将三种特征输入的权重带入进模型进行训练,权重最终在训练过程中被确定,最大化适应当前任务,挖掘出适合当前任务的权重,从而避免人为设置三种特征嵌入的权重时出现不准确问题;模型训练过程中采取了fgsm对抗训练的方式,使模型更加适应于真实世界中的不良文本,提高模型预测的准确率。
本文档来自技高网...【技术保护点】
1.一种基于FGSM的多特征加权融合中文不良文本识别方法,其特征在于,所述方法具体如下:
2.如权利要求1所述方法,其特征在于,利用拼音转化工具将所述文本数据的中文文本中每个字符转化为拼音,得到字音特征嵌入表示X3。
3.如权利要求1所述方法,其特征在于,利用四角号码转化工具将所述文本数据的中文文本中每个字符转化为四角号码,得到字形特征嵌入表示X2。
4.如权利要求1所述方法,其特征在于,所述多特征加权融合嵌入表示X的计算如下:
5.如权利要求1所述方法,其特征在于,所述深度学习文本分类模型采用FGSM对抗训练的方式,在多特征融合嵌入上沿着梯度上升的方向增加扰动。
6.如权利要求1所述方法,其特征在于,所述深度学习文本分类模型为TextCNN模型、TextRNN模型、加入Attention机制的TextBiLSTM模型、TextRCNN模型、DPCNN模型或Transformer模型。
7.如权利要求1所述方法,其特征在于,α、β、γ初始化时采用Pytorch深度学习框架中的nn.Parameter方法将参数
8.实现权利要求1-7任一项所述方法的中文不良文本识别系统,其特征在于包括:
9.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项所述的方法。
10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
...【技术特征摘要】
1.一种基于fgsm的多特征加权融合中文不良文本识别方法,其特征在于,所述方法具体如下:
2.如权利要求1所述方法,其特征在于,利用拼音转化工具将所述文本数据的中文文本中每个字符转化为拼音,得到字音特征嵌入表示x3。
3.如权利要求1所述方法,其特征在于,利用四角号码转化工具将所述文本数据的中文文本中每个字符转化为四角号码,得到字形特征嵌入表示x2。
4.如权利要求1所述方法,其特征在于,所述多特征加权融合嵌入表示x的计算如下:
5.如权利要求1所述方法,其特征在于,所述深度学习文本分类模型采用fgsm对抗训练的方式,在多特征融合嵌入上沿着梯度上升的方向增加扰动。
6.如权利要求1所述方法,其特征在于,所述深度学习文本分类模型为textcnn模型、textrnn模型、加入...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。