一种融合多特征图注意力机制的不良文本分类方法及系统技术方案

技术编号:36963590 阅读:16 留言:0更新日期:2023-03-22 19:24
本发明专利技术提出了一种融合多特征图注意力机制的不良文本分类方法,该方法包括如下步骤:响应于对获取的文本数据进行预处理;将获取的文本数据进行进一步处理,以构建文本图;利用图注意力机制对所述文本图进行特征学习;进一步将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,同时利用Bi_GRU神经网络进行并行处理获得输出;以及将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。本发明专利技术针对社交媒体中不良文本的分类任务,通过从不良文本的特征和文本语义角度出发,结合图注意力机制、Transformer和Bi_GRU构建了一种短文本分类模型。该模型为深度学习在不良文本分类任务上的应用提供了一种新的思路,解决了深度学习模型在不良文本分类问题泛化性差、精度较低的问题。精度较低的问题。精度较低的问题。

【技术实现步骤摘要】
一种融合多特征图注意力机制的不良文本分类方法及系统


[0001]本专利技术属于文本分类的
,具体涉及一种融合多特征图注意力机制的不良文本分类方法及系统。

技术介绍

[0002]随着互联网技术的加速普及,社交媒体平台已经人们日常沟通交流不可或缺的工具,但由于社交媒体的虚拟性与网络信息传播的隐蔽性,一些非法用户借助于社交媒体平台发布和传播负面言论,如各种不良信息。社交媒体中不良信息的传播通常以聊天、评论等短文本形式为主,这类文本的文本长度短、用词无约束、特征稀疏,句式语法多变、口语化严重,此外,在表达上更加隐晦,为规避自动检测,通常以原不良词汇的谐音字词、形变词等变体形式出现。
[0003]目前广泛采用的不良文本分类方法主要有两种,一种是使用字符串匹配方法检索出待检测文本中的不良关键词,若文本语句中含有不良词汇,则认为该文本为不良文本,此类方法缺陷在于带有不良词汇的文本不一定是不良文本,误判率较高;另一种则是采用深度学习模型融合的方式进行文本分类,首先使用文本溯源的模型将不良文本拟合为正常文本,再使用溯源后的文本数据作为训练集训练一个文本分类器,最后利用训练好的文本分类器进行文本分类任务,这类方法的缺点在于溯源模型训练慢,分类的准确率过度依赖于文本溯源的结果。
[0004]因此,如何自动、高效地实现不良信息的分类与过滤,对提高用户的正常网络社交体验与维护社会的长治久安有着重要意义,如果能够设计出一种准确、高效的不良信息检测与分类模型,那么该模型将具有较高的现实意义及商业价值。
[0005]有鉴于此,提出一种融合多特征图注意力机制的不良文本分类方法及系统是非常具有意义的。

技术实现思路

[0006]为了解决现有的不良文本分类方法存在误判率较高,溯源模型训练慢,分类的准确率过度依赖于文本溯源的结果,深度学习模型的泛化性差、精度较低等问题,本专利技术提供一种融合多特征图注意力机制的不良文本分类方法及系统,以解决上述存在的技术缺陷问题。
[0007]第一方面,本专利技术提出了一种融合多特征图注意力机制的不良文本分类方法,该方法包括如下步骤:
[0008]响应于对获取的文本数据进行预处理;
[0009]将获取的文本数据进行进一步处理,以构建文本图;
[0010]利用图注意力机制对所述文本图进行特征学习;
[0011]进一步将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,同时利用Bi_GRU神经网络进行并行处理获得输出;以及
[0012]将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。
[0013]优选的,对获取的文本数据进行预处理包括去除干扰词和格式化语句,具体包括:
[0014]采用字符串匹配的方式将包含特殊标识符的干扰词进行去除;
[0015]采用正则表达式将社交文本中的自带的固有话语句进行去除。
[0016]优选的,将获取的文本数据进行进一步处理,以构建文本图,具体包括:
[0017]将获取的文本进行分词和词性标注:分词后的结果通过预训练模型转换为低维与稠密的词向量,进行词性分析后,去除连词、助词、副词的冗余词语,将名词、动词、形容词、副词作为图节点;
[0018]构建词语需要的变形词库:使用预先收集的不良文本变形词库,其中变形词的种类主要包括形变词、音变词、拆分词和同义词;
[0019]使用滑动窗口得到文本词的文本图:使用固定大小的滑动窗口作用在文本语句上作为构建边的规则,如果两个词语在同一窗口内则添加一条无向边,不良词汇与其变形词之间直接添加无向边。
[0020]优选的,利用图注意力机制对所述文本图进行特征学习包括利用图注意力机制进行特征聚合,具体包括:
[0021]已知节点i,其邻域为N(i),设节点j∈N(i),首先计算节点对(i,j)之间的注意力系数:
[0022][0023]其中,σ表示任意非线性激活函数,W
(l)
是可训练的矩阵,拼接特征节点h
i
、h
j
的线性变换矩阵后与可学习的注意力函数α
(l)
做点积运算,再利用非线性激活函数σ对得到的节点进行激活处理得到原始注意力分数;
[0024]再对节点邻域内所有入边的原始注意力分数进行归一化,得到注意力聚合系数,对邻域节点特征加权求和,得到更新后的节点i的嵌入表示:
[0025][0026]h
i(l+1)
=σ(∑
j∈N(i)
α
ij(l)
z
j(l)
)。
[0027]进一步优选的,还包括:
[0028]为促进图注意力机制更稳定地进行特征聚合,拼接K个多头注意力机制以丰富模型的提取能力,如果该层是模型的最后一层,则采用求K个头的平均值的方式表示节点:
[0029][0030][0031]优选的,将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,具体包括:
[0032]第一层是对GAT进行并行操作的Transformer层:使用Transformer编码层部分,将Transformer编码层部分自注意力输入部分修改为GAT,实现多个GAT并行计算;
[0033]mh
output
=conca(head1,head2,...,head
n
)
[0034]其中,n表示GAT模块的个数;
[0035]第二层为全连接层和激活层,保留Transformer中的残差连接和归一化操作,将归一化的结果接入一个Feedword层,由全连接层和relu激活函数组成,得到MGAT

Transformer的输出;
[0036]Feedforward
output
=ReLU(mh
output
W1+b1)W2+b2。
[0037]优选的,将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果,具体包括:
[0038]将MGTransformer的输出与Bi_GRU的输出进行横向拼接,得到最终的文本向量表示;
[0039]然后将得到的文本向量接入到一个全连接和log_softmax函数进行分类结果预测,得到最终的类别置信分数;
[0040]最后利用置信分数得到文本对应的分类标签,并记录每条文本的分类结果;
[0041]H
output
=concat(h
MGT
+h
Bi_GRU
)
[0042]output=softmax(fullconnect(H
output
))
[0043]其中,fullconnect(H
output
)=relu(H
output
W1+e1),output值即为整个模型对输入文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合多特征图注意力机制的不良文本分类方法,其特征在于,该方法包括如下步骤:响应于对获取的文本数据进行预处理;将获取的文本数据进行进一步处理,以构建文本图;利用图注意力机制对所述文本图进行特征学习;进一步将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,同时利用Bi_GRU神经网络进行并行处理获得输出;以及将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。2.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,对获取的文本数据进行预处理包括去除干扰词和格式化语句,具体包括:采用字符串匹配的方式将包含特殊标识符的干扰词进行去除;采用正则表达式将社交文本中的自带的固有话语句进行去除。3.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,将获取的文本数据进行进一步处理,以构建文本图,具体包括:将获取的文本进行分词和词性标注:分词后的结果通过预训练模型转换为低维与稠密的词向量,进行词性分析后,去除连词、助词、副词的冗余词语,将名词、动词、形容词、副词作为图节点;构建词语需要的变形词库:使用预先收集的不良文本变形词库,其中变形词的种类主要包括形变词、音变词、拆分词和同义词;使用滑动窗口得到文本词的文本图:使用固定大小的滑动窗口作用在文本语句上作为构建边的规则,如果两个词语在同一窗口内则添加一条无向边,不良词汇与其变形词之间直接添加无向边。4.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,利用图注意力机制对所述文本图进行特征学习包括利用图注意力机制进行特征聚合,具体包括:已知节点i,其邻域为N(i),设节点j∈N(i),首先计算节点对(i,j)之间的注意力系数:其中,σ表示任意非线性激活函数,W
(l)
是可训练的矩阵,拼接特征节点h
i
、h
j
的线性变换矩阵后与可学习的注意力函数α
(l)
做点积运算,再利用非线性激活函数σ对得到的节点进行激活处理得到原始注意力分数;再对节点邻域内所有入边的原始注意力分数进行归一化,得到注意力聚合系数,对邻域节点特征加权求和,得到更新后的节点i的嵌入表示:h
i(l+1)
=σ(∑
j∈N(i)
α
ij(l)
z
j(l)
)。5.根据权利要求4所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,还包括:
为促进图注意力机制更稳定地进行特征聚合,拼接K个多头注意力机制以丰富模型的提取能力,如果该层是模型的最后一层,则采用求K个头的平均值的方式表示节点:提取能力,如果该层是模型的最后一层,则采用求K个头的平均值的方式表示节点:6.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,将图注...

【专利技术属性】
技术研发人员:彭闯王丽娟赵建强陈诚张辉极韩名羲
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1