一种文本分类方法技术

技术编号：39662501 阅读：8 留言：0更新日期：2023-12-11 18:25

本发明专利技术提供了一种文本分类方法，属于文本分类技术领域，包括：将文本中的词转化为词向量；将文本的词向量转化为文本图后，将文本图输入到图神经网络层中，利用图神经网络输出标签向量；将文本的词向量输入到多头自注意力神经网络中进行特征提取，输出自注意力特征向量；将自注意力特征向量和标签向量点乘后的结果，输入预测层中进行分类得到分类后的预测标签，实现文本分类

全部详细技术资料下载

【技术实现步骤摘要】
一种文本分类方法

[0001]本专利技术属于文本分类
，具体涉及一种文本分类方法
。

技术介绍

[0002]随着科技的进步以及信息时代的到来，伴随着信息
、
数据的爆炸式增长，人工对数据的标注以及分类愈发显得效率低下，不仅费时费力，而且受技术员主观意识的影响较大
。
为了提高效率，文本分类模型应运而生，利用计算机以及机器的自动化来实现对文本数据的分类及标注，将枯燥且繁琐的文本标注任务完全交由计算机来进行处理，避免了人的主观意识对结果的影响，产生更可观更可靠的分类结果
。
[0003]一般来说，文本分类分为两大基础结构：特征表示和分类模型
。
文本特征表示目的是让文本转变为一种可以被计算机处理的形式，常见的方法有
n
‑
gram
，
TF
‑
IDF
和
word2vec
等
。
文本分类模型可分为两类：浅层学习模型和深度学习模型
。
浅层学习模型是基于传统的机器学习方法，例如朴素贝叶斯，
K
近邻和支持向量机等
。
但浅层学习模型通常需要人工提取文本特征，非常耗时且昂贵，而且往往忽略文本数据中自然的顺序结构或上下文信息，使学习词汇的语义信息变得困难
。
深度学习模型的出现，大量深度学习算法，如循环神经网络和卷积神经网络，被广泛应用于文本分类领域，成功的解决了上述问题
。Yo...

【技术保护点】

【技术特征摘要】
1.
一种文本分类方法，其特征在于，包括：获取待分类的文本信息；将文本中的词转化为词向量，并将文本的词向量转化为文本图；将文本图输入到图神经网络中，利用图神经网络输出文本图所对应的标签向量；将文本的词向量输入到多头自注意力神经网络中进行特征提取，输出自注意力特征向量；将自注意力特征向量和标签向量点乘后的结果，输入神经网络的预测层中进行分类得到分类后的预测标签，实现文本分类
。2.
根据权利要求1所述的一种文本分类方法，其特征在于，所述将文本中的词转化为词向量，包括：将文本
T
＝
{t1,t2,
……
,t
n
}
输入到
Albert
模型的输入表示层中进行编码，输出词嵌入向量位置嵌入向量
E0,E2……
E
n
和句子特征嵌入向量
E
A
……
E
B
；其中词嵌入表示单词本身的向量表示；位置嵌入是用于区分两个句子的向量表示；句子特征嵌入表示将单词的位置信息编码成的特征向量；将词嵌入向量
、
位置嵌入向量
、
句子特征嵌入向量相加后输入到编码器中，利用编码器输出文本的词向量
。3.
根据权利要求2所述的一种文本分类方法，其特征在于，所述编码器包括多个堆叠的
Transformer
编码器模块，所述
Transformer
编码器模块包括：串联的注意力机制层
、
归一化层，线性变换层；所述注意力机制层和归一化层之间设有残差连接
。4.
根据权利要求1所述的一种文本分类方法，其特征在于，所述将文本的词向量转化为文本图，包括：将词向量
A1
作为节点；将词向量
A1
左边的
p
个词向量与右边的
p
个词通过边与词向量
A
相连，构成词向量
A1
的文本图
。5.
根据权利要求1所述的一种文本分类方法，其特征在于，所述利用图神经网络输出文本图所对应的标签向量；包括：对节点进行随机池化和平均池化；根据随机池化和平均池化的结果得到节点最终的特征信息；对迭代
T
次提取出的节点的特征信息进行求和，得到标签向量
M
gnn
；所述标签向量
M
gnn
为：
M
gnn
＝
{M
t
+M
t+1
+
……
+M
T
}
其中，
M
＝
η
M
sto
+(1
‑
η
)M
meanmean
其中，
M
sto
表示每个节点通过随机池化学习到的特征信息；
M
mean
表示每个节点通过平均
池化机制学习到的特征信息；
Rand
函数为规约函数，表示按概率取各个维度上的元素值，元素值越大被取到的概率越大；
Mean
函数表示各个维度上的元素值的平均值；表示文本中距离
n
节点距离为
p
的节点的集合；
e
an
表示节点
a
与节点
n
之间的边特征；
t
a
表示节点
a
的特征；
M
表示每个词最终获得的特征信息；
η
控制池化操作的比重；
T
...

【专利技术属性】
技术研发人员：殷丽凤，潘鹏程，刘震，郑广海，任洪海，
申请(专利权)人：大连交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人