一种文本分类方法技术

技术编号:39662501 阅读:8 留言:0更新日期:2023-12-11 18:25
本发明专利技术提供了一种文本分类方法,属于文本分类技术领域,包括:将文本中的词转化为词向量;将文本的词向量转化为文本图后,将文本图输入到图神经网络层中,利用图神经网络输出标签向量;将文本的词向量输入到多头自注意力神经网络中进行特征提取,输出自注意力特征向量;将自注意力特征向量和标签向量点乘后的结果,输入预测层中进行分类得到分类后的预测标签,实现文本分类

【技术实现步骤摘要】
一种文本分类方法


[0001]本专利技术属于文本分类
,具体涉及一种文本分类方法


技术介绍

[0002]随着科技的进步以及信息时代的到来,伴随着信息

数据的爆炸式增长,人工对数据的标注以及分类愈发显得效率低下,不仅费时费力,而且受技术员主观意识的影响较大

为了提高效率,文本分类模型应运而生,利用计算机以及机器的自动化来实现对文本数据的分类及标注,将枯燥且繁琐的文本标注任务完全交由计算机来进行处理,避免了人的主观意识对结果的影响,产生更可观更可靠的分类结果

[0003]一般来说,文本分类分为两大基础结构:特征表示和分类模型

文本特征表示目的是让文本转变为一种可以被计算机处理的形式,常见的方法有
n

gram

TF

IDF

word2vec


文本分类模型可分为两类:浅层学习模型和深度学习模型

浅层学习模型是基于传统的机器学习方法,例如朴素贝叶斯,
K
近邻和支持向量机等

但浅层学习模型通常需要人工提取文本特征,非常耗时且昂贵,而且往往忽略文本数据中自然的顺序结构或上下文信息,使学习词汇的语义信息变得困难

深度学习模型的出现,大量深度学习算法,如循环神经网络和卷积神经网络,被广泛应用于文本分类领域,成功的解决了上述问题
。YoonKim
等人提出将
CNN
用于文本分类的
TextCNN
模型,将
CNN
运用于文本分类取得了不错的表现,但
CNN
最大的问题就是无法获得更长的序列信息;
Liu
等人提出了将
RNN
用于文本分类的模型
TextRNN
,可以捕获长距离的依赖关系,解决了
TextCNN
的缺陷,但由于无法进行并行处理,导致模型训练速度过慢
。Lai
等人提出了文本分类模型
TextRCNN
,将卷积层和池化层加入了
RNN
网络中提升了模型的训练速度,但这类序列学习模型都存在无法获取全局信息

[0004]近年来兴起了图神经网络,
GNN
不将文本看作序列,而是将其视为贡献单词的集合,解决了序列学习模型集中在单词局部,无法获取长距离和非连续的单词交互的问题

在将图神经网络应用在文本分类方向的实践中,
Yao
等人提出了基于图卷积网络的文本分类算法
TextGCN
,将文本分类问题转化为了节点分类问题,提升了文本分类效率,但存在构建文本图时由于边的权重是固定的从而限制了边的表达能力,在构建文本异构图时需要考虑整个语料库从而占用了大量的内存资源的问题

在这个基础上,
Huang
等人提出的
Text

Level

GNN
中没有给整个语料库构建大图,而是为每个输入的文本单独构建一个图,并采用消息传播机制来减少内存的消耗,解决了上述模型所具有的问题

与此同时,
Zhang
等人提出了
TextING
模型,通过每个文本中的滑动窗口构建单个图,单词节点信息通过门控神经网络传播到邻居,汇总到文本嵌入,取得良好的效果
。William L
等人提出了
GraphSAGE
模型,使用节点之间连接信息,对邻居进行采样,然后通过多层聚合函数不断地将相邻节点的信息融合在一起,用融合后的信息预测节点标签

[0005]然而上述方法都没有充分考虑到文本深层次的语义交互,忽略了文本标签之间的相关性,使得预测结果不准确


技术实现思路

[0006]为了克服上述现有技术存在的不足,本专利技术提供了一种文本分类方法

[0007]为了实现上述目的,本专利技术提供如下技术方案:
[0008]一种文本分类方法,包括:
[0009]获取待分类的文本信息;
[0010]将文本中的词转化为词向量,并将文本的词向量转化为文本图;
[0011]将文本图输入到图神经网络中,利用图神经网络输出文本图所对应的标签向量;
[0012]将文本的词向量输入到多头自注意力神经网络中进行特征提取,输出自注意力特征向量;
[0013]将自注意力特征向量和标签向量点乘后的结果,输入神经网络的预测层中进行分类得到分类后的预测标签,实现文本分类

[0014]进一步,所述将文本中的词转化为词向量,包括:
[0015]将文本
T

{t1,t2,
……
,t
n
}
输入到
Albert
模型的输入表示层中进行编码,输出词嵌入向量位置嵌入向量
E0,E2……
E
n
和句子特征嵌入向量
E
A
……
E
B
;其中词嵌入表示单词本身的向量表示;位置嵌入是用于区分两个句子的向量表示;句子特征嵌入表示将单词的位置信息编码成的特征向量;
[0016]将词嵌入向量

位置嵌入向量

句子特征嵌入向量相加后输入到编码器中,利用编码器输出文本的词向量

[0017]进一步,所述编码器包括多个堆叠的
Transformer
编码器模块,所述
Transformer
编码器模块包括:
[0018]串联的注意力机制层

归一化层,线性变换层;
[0019]所述注意力机制层和归一化层之间设有残差连接

[0020]进一步,所述将文本的词向量转化为文本图,包括:
[0021]将词向量
A1
作为节点;
[0022]将词向量
A1
左边的
p
个词向量与右边的
p
个词通过边与词向量
A
相连,构成词向量
A1
的文本图

[0023]进一步,所述利用图神经网络输出标签向量;包括:
[0024]对节点进行随机池化和平均池化;
[0025]根据随机池化和平均池化的结果得到节点最终的特征信息;
[0026]对迭代
T
次提取出的节点的特征信息进行求和,得到标签向量
M
gnn

[0027]所述标签向量
M
gnn
为:
[0028]M
g本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本分类方法,其特征在于,包括:获取待分类的文本信息;将文本中的词转化为词向量,并将文本的词向量转化为文本图;将文本图输入到图神经网络中,利用图神经网络输出文本图所对应的标签向量;将文本的词向量输入到多头自注意力神经网络中进行特征提取,输出自注意力特征向量;将自注意力特征向量和标签向量点乘后的结果,输入神经网络的预测层中进行分类得到分类后的预测标签,实现文本分类
。2.
根据权利要求1所述的一种文本分类方法,其特征在于,所述将文本中的词转化为词向量,包括:将文本
T

{t1,t2,
……
,t
n
}
输入到
Albert
模型的输入表示层中进行编码,输出词嵌入向量位置嵌入向量
E0,E2……
E
n
和句子特征嵌入向量
E
A
……
E
B
;其中词嵌入表示单词本身的向量表示;位置嵌入是用于区分两个句子的向量表示;句子特征嵌入表示将单词的位置信息编码成的特征向量;将词嵌入向量

位置嵌入向量

句子特征嵌入向量相加后输入到编码器中,利用编码器输出文本的词向量
。3.
根据权利要求2所述的一种文本分类方法,其特征在于,所述编码器包括多个堆叠的
Transformer
编码器模块,所述
Transformer
编码器模块包括:串联的注意力机制层

归一化层,线性变换层;所述注意力机制层和归一化层之间设有残差连接
。4.
根据权利要求1所述的一种文本分类方法,其特征在于,所述将文本的词向量转化为文本图,包括:将词向量
A1
作为节点;将词向量
A1
左边的
p
个词向量与右边的
p
个词通过边与词向量
A
相连,构成词向量
A1
的文本图
。5.
根据权利要求1所述的一种文本分类方法,其特征在于,所述利用图神经网络输出文本图所对应的标签向量;包括:对节点进行随机池化和平均池化;根据随机池化和平均池化的结果得到节点最终的特征信息;对迭代
T
次提取出的节点的特征信息进行求和,得到标签向量
M
gnn
;所述标签向量
M
gnn
为:
M
gnn

{M
t
+M
t+1
+
……
+M
T
}
其中,
M

η
M
sto
+(1

η
)M
meanmean
其中,
M
sto
表示每个节点通过随机池化学习到的特征信息;
M
mean
表示每个节点通过平均
池化机制学习到的特征信息;
Rand
函数为规约函数,表示按概率取各个维度上的元素值,元素值越大被取到的概率越大;
Mean
函数表示各个维度上的元素值的平均值;表示文本中距离
n
节点距离为
p
的节点的集合;
e
an
表示节点
a
与节点
n
之间的边特征;
t
a
表示节点
a
的特征;
M
表示每个词最终获得的特征信息;
η
控制池化操作的比重;
T
...

【专利技术属性】
技术研发人员:殷丽凤潘鹏程刘震郑广海任洪海
申请(专利权)人:大连交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1