【技术实现步骤摘要】
一种融合多特征图注意力机制的不良文本分类方法及系统
[0001]本专利技术属于文本分类的
,具体涉及一种融合多特征图注意力机制的不良文本分类方法及系统。
技术介绍
[0002]随着互联网技术的加速普及,社交媒体平台已经人们日常沟通交流不可或缺的工具,但由于社交媒体的虚拟性与网络信息传播的隐蔽性,一些非法用户借助于社交媒体平台发布和传播负面言论,如各种不良信息。社交媒体中不良信息的传播通常以聊天、评论等短文本形式为主,这类文本的文本长度短、用词无约束、特征稀疏,句式语法多变、口语化严重,此外,在表达上更加隐晦,为规避自动检测,通常以原不良词汇的谐音字词、形变词等变体形式出现。
[0003]目前广泛采用的不良文本分类方法主要有两种,一种是使用字符串匹配方法检索出待检测文本中的不良关键词,若文本语句中含有不良词汇,则认为该文本为不良文本,此类方法缺陷在于带有不良词汇的文本不一定是不良文本,误判率较高;另一种则是采用深度学习模型融合的方式进行文本分类,首先使用文本溯源的模型将不良文本拟合为正常文本,再使用溯源后的文本数据作为训练集训练一个文本分类器,最后利用训练好的文本分类器进行文本分类任务,这类方法的缺点在于溯源模型训练慢,分类的准确率过度依赖于文本溯源的结果。
[0004]因此,如何自动、高效地实现不良信息的分类与过滤,对提高用户的正常网络社交体验与维护社会的长治久安有着重要意义,如果能够设计出一种准确、高效的不良信息检测与分类模型,那么该模型将具有较高的现实意义及商业价值。
[0005]有 ...
【技术保护点】
【技术特征摘要】
1.一种融合多特征图注意力机制的不良文本分类方法,其特征在于,该方法包括如下步骤:响应于对获取的文本数据进行预处理;将获取的文本数据进行进一步处理,以构建文本图;利用图注意力机制对所述文本图进行特征学习;进一步将图注意力机制嵌入到Transformer网络中进行并行处理获得输出,同时利用Bi_GRU神经网络进行并行处理获得输出;以及将MGTransformer与Bi_GRU的输出拼接,得到最终的文本分类结果。2.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,对获取的文本数据进行预处理包括去除干扰词和格式化语句,具体包括:采用字符串匹配的方式将包含特殊标识符的干扰词进行去除;采用正则表达式将社交文本中的自带的固有话语句进行去除。3.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,将获取的文本数据进行进一步处理,以构建文本图,具体包括:将获取的文本进行分词和词性标注:分词后的结果通过预训练模型转换为低维与稠密的词向量,进行词性分析后,去除连词、助词、副词的冗余词语,将名词、动词、形容词、副词作为图节点;构建词语需要的变形词库:使用预先收集的不良文本变形词库,其中变形词的种类主要包括形变词、音变词、拆分词和同义词;使用滑动窗口得到文本词的文本图:使用固定大小的滑动窗口作用在文本语句上作为构建边的规则,如果两个词语在同一窗口内则添加一条无向边,不良词汇与其变形词之间直接添加无向边。4.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,利用图注意力机制对所述文本图进行特征学习包括利用图注意力机制进行特征聚合,具体包括:已知节点i,其邻域为N(i),设节点j∈N(i),首先计算节点对(i,j)之间的注意力系数:其中,σ表示任意非线性激活函数,W
(l)
是可训练的矩阵,拼接特征节点h
i
、h
j
的线性变换矩阵后与可学习的注意力函数α
(l)
做点积运算,再利用非线性激活函数σ对得到的节点进行激活处理得到原始注意力分数;再对节点邻域内所有入边的原始注意力分数进行归一化,得到注意力聚合系数,对邻域节点特征加权求和,得到更新后的节点i的嵌入表示:h
i(l+1)
=σ(∑
j∈N(i)
α
ij(l)
z
j(l)
)。5.根据权利要求4所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,还包括:
为促进图注意力机制更稳定地进行特征聚合,拼接K个多头注意力机制以丰富模型的提取能力,如果该层是模型的最后一层,则采用求K个头的平均值的方式表示节点:提取能力,如果该层是模型的最后一层,则采用求K个头的平均值的方式表示节点:6.根据权利要求1所述的融合多特征图注意力机制的不良文本分类方法,其特征在于,将图注...
【专利技术属性】
技术研发人员:彭闯,王丽娟,赵建强,陈诚,张辉极,韩名羲,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。