当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于注意力机制和GCN的文本多标签分类方法和系统技术方案

技术编号:28225778 阅读:20 留言:0更新日期:2021-04-28 09:59
本发明专利技术公开了一种基于注意力机制和GCN的文本多标签分类方法,包括:获取待分类文本,对该待分类文本进行预处理,并使用Glove预训练词向量将预处理后的待分类文本转换为多维向量;将得到的多维向量输入到预先训练好的分类模型中,以得到待分类文本的分类结果。本发明专利技术利用注意力机制构建文本、单词、标签之间的语义相关性,一方面,汇总文本和标签信息形成新的文本单词表示形式,更充分地进行文本特征提取,另一方面,汇总文本和单词信息形成新的标签表示形式,利用图神经网络进行标签的相关性建模。在两个角度上提升文本多标签分类的效果。果。果。

【技术实现步骤摘要】
一种基于注意力机制和GCN的文本多标签分类方法和系统


[0001]本专利技术属于自然语言处理
,更具体地,涉及一种基于注意力机制和图卷积网络(Graphic convolutional network,简称GCN)的文本多标签分类方法和系统。

技术介绍

[0002]随着社会和网络技术的发展,存在海量文本形式的信息资源。如何对这些文本进行有效的分类,从中快速、准确、全面的挖掘有效信息,已经成为了自然语言处理研究领域的热点之一。文本分类是指为文档集合中的每个文档确定类别,存在广泛的应用场景。而多标签分类作为文本分类领域中的难点,也引起了不少的关注,目前的多标签分类方法大多考虑两部分内容:
[0003]1.特征提取,此步骤一般使用神经网络等方法来处理文本数据,学习将其映射到一个向量空间进行表示。目前,通常使用卷积神经网络、循环神经网络、以及两种网络混合使用进行文本分类,比如在TextCNN网络中,采用了多个卷积核提取词向量矩阵特征,通过多个不同的卷积核来关注文中的关键信息,从而实现提取文本特征的目的;
[0004]2.标签相关性,多标签比单标签分类任务更复杂,主要体现在标签往往是相关的。现有方法往往倾向于忽略标签之间的相关性,难以达到很好的效果。为获取和利用这种相关性,旷视研究院提出一种基于图卷积网络的多标签分类模型ML

GCN,该模型通过数据驱动的方式建立有向图并由GCN将类别标记映射为对应类别分类器,以此建模标签相关性关系。
[0005]但是,现有的多标签分类方法仍然存在一些不可忽略的缺陷:第一、循环神经网络在特征提取过程中,主要是提取语义关系,这往往会忽略文中的关键部分,从而影响文本分类准确度;第二、基于卷积神经网络(例如TextCNN)的方式容易捕捉文本中的关键部分,但由于采用了卷积操作,容易忽略文本语义关系,从而影响文本分类准确度;第三、使用GCN进行标签相关性建模大多采用数据驱动的方式,其忽略了文本的不同部分对于预测不同的标签的作用,进而会影响文本分类准确度。

技术实现思路

[0006]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于注意力机制和GCN的文本多标签分类方法和系统,其目的在于,解决现有多标签分类方法由于往往会忽略文中的关键部分,导致影响文本分类准确度的技术问题,以及由于使用卷积神经网络的卷积操作,导致容易忽略文本语义关系,从而影响文本分类准确度的技术问题,以及由于大多采用数据驱动的方式,其忽略了文本的不同部分对于预测不同的标签的作用,从而导致影响文本分类准确度的技术问题。
[0007]为实现上述目的,按照本专利技术的一个方面,提供了一种基于注意力机制和GCN的文本多标签分类方法,包括如下步骤:
[0008](1)获取待分类文本,对该待分类文本进行预处理,并使用Glove预训练词向量将
预处理后的待分类文本转换为多维向量;
[0009](2)将步骤(1)得到的多维向量输入到预先训练好的分类模型中,以得到待分类文本的分类结果。
[0010]优选地,步骤(1)首先是使用正则表达式对待分类文本进行数据清洗,以去除特殊符号,然后使用自然语言处理工具包(Natural Language Toolkit,简称NLTK)对去除了特殊符号后的待分类文本进行处理,以去除其中的停用词并修正其中的单词表示,最后使用Glove预训练词向量将处理后的待分类文本转换成300维向量。
[0011]优选地,分类模型包含依次连接的第一TextCNN网络、注意力网络、第二TextCNN网络以及GCN网络;
[0012]注意力网络的具体结构为:
[0013]第一层是矩阵变换层,输入为C
×
d维向量表示,包含文本、单词和标签的向量信息,利用三个d
×
C维的Q、K、V矩阵,输出3个C
×
C的q、k、v向量;其中C为自然数,d等于300;
[0014]第二层为注意力机制计算层,其输入为第一层得到的3个C
×
C维的q、k、v向量,输出为C
×
C维的相关性向量;
[0015]第三层为拼接层,其将第二层得到的C
×
C维的相关性向量与原始输入的C
×
d维向量进行拼接,以输出C
×
(C+d)维向量。
[0016]GCN网络的具体结构为:
[0017]第一层是图卷积层,其输入为标签词向量矩阵和关系矩阵,该层使用d
×
512维权重矩阵,该层输出为标签相关性矩阵,;
[0018]第二层是图卷积层,其输入为第一层输出的标签相关性矩阵和第一层输入的关系矩阵,该层使用512
×
100维权重矩阵,该层输出为标签相关性矩阵。
[0019]优选地,分类模型是通过以下步骤训练得到的:
[0020](2

1)获取文本数据集,将该文本数据集进行预处理,并将预处理后的文本数据集按照7:2:1的比例划分为训练集、验证集、以及测试集。
[0021](2

2)对于训练集中的每个待分类文本而言,使用Glove预训练词向量获取该待分类文本的L
×
d维特征向量W,并将特征向量W输入第一TextCNN网络中,以获得该待分类文本所对应的d维特征向量T,其中L表示该待分类文本的长度;
[0022](2

3)获取训练集中的所有标签,使用Glove预训练词向量将每个标签转换为d维特征向量,所有J个标签对应的特征向量构成J
×
d维标签向量U,其中J表示文本数据集中的标签总数;
[0023](2

4)对步骤(2

1)所获得的每个待分类文本对应的d维特征向量T、待分类文本单词的L
×
d维特征向量W、以及步骤(2

3)得到的待分类文本对应的标签向量U在行方向上进行拼接,以得到该待分类文本对应的C
×
d维特征向量A,其中C=L+J+1;
[0024](2

5)将步骤(2

4)得到的每个待分类文本对应的C
×
d维特征向量A分别与3个d
×
C维的矩阵Q、K、V进行乘法处理,以获得三个C
×
C维向量q、k、v,并根据得到的C
×
C维向量q、k、v获得每个待分类文本对应的注意力分数s;
[0025](2

6)对步骤(2

5)得到的每个待分类文本对应的注意力分数s进行处理,以得到该待分类文本对应的C
×
C维向量
[0026](2

7)将步骤(2

4)得到的每个待分类文本对应的C
×
d维特征向量A和步骤(2

6)...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制和GCN的文本多标签分类方法,其特征在于,包括如下步骤:(1)获取待分类文本,对该待分类文本进行预处理,并使用Glove预训练词向量将预处理后的待分类文本转换为多维向量;(2)将步骤(1)得到的多维向量输入到预先训练好的分类模型中,以得到待分类文本的分类结果。2.根据权利要求1所述的基于注意力机制和GCN的文本多标签分类方法,其特征在于,步骤(1)首先是使用正则表达式对待分类文本进行数据清洗,以去除特殊符号,然后使用自然语言处理工具包(Natural Language Toolkit,简称NLTK)对去除了特殊符号后的待分类文本进行处理,以去除其中的停用词并修正其中的单词表示,最后使用Glove预训练词向量将处理后的待分类文本转换成300维向量。3.根据权利要求1或2所述的基于注意力机制和GCN的文本多标签分类方法,其特征在于,分类模型包含依次连接的第一TextCNN网络、注意力网络、第二TextCNN网络以及GCN网络;注意力网络的具体结构为:第一层是矩阵变换层,输入为C
×
d维向量表示,包含文本、单词和标签的向量信息,利用三个d
×
C维的Q、K、V矩阵,输出3个C
×
C的q、k、v向量;其中C为自然数,d等于300;第二层为注意力机制计算层,其输入为第一层得到的3个C
×
C维的q、k、v向量,输出为C
×
C维的相关性向量;第三层为拼接层,其将第二层得到的C
×
C维的相关性向量与原始输入的C
×
d维向量进行拼接,以输出C
×
(C+d)维向量。GCN网络的具体结构为:第一层是图卷积层,其输入为标签词向量矩阵和关系矩阵,该层使用d
×
512维权重矩阵,该层输出为标签相关性矩阵,;第二层是图卷积层,其输入为第一层输出的标签相关性矩阵和第一层输入的关系矩阵,该层使用512
×
100维权重矩阵,该层输出为标签相关性矩阵。4.根据权利要求1至3中任意一项所述的基于注意力机制和GCN的文本多标签分类方法,其特征在于,分类模型是通过以下步骤训练得到的:(2

1)获取文本数据集,将该文本数据集进行预处理,并将预处理后的文本数据集按照7∶2∶1的比例划分为训练集、验证集、以及测试集。(2

2)对于训练集中的每个待分类文本而言,使用Glove预训练词向量获取该待分类文本的L
×
d维特征向量W,并将特征向量W输入第一TextCNN网络中,以获得该待分类文本所对应的d维特征向量T,其中L表示该待分类文本的长度;(2

3)获取训练集中的所有标签,使用Glove预训练词向量将每个标签转换为d维特征向量,所有J个标签对应的特征向量构成J
×
d维标签向量U,其中J表示文本数据集中的标签总数;(2

4)对步骤(2

1)所获得的每个待分类文本对应的d维特征向量T、待分类文本单词的L
×
d维特征向量W、以及步骤(2

3)得到的待分类文本对应的标签向量U在行方向上进行拼接,以得到该待分类文本对应的C
×
d维特征向量A,其中C=L+J+1;
(2

5)将步骤(2

4)得到的每个待分类文本对应的C
×
d维特征向量A分别与3个d
×
C维的矩阵Q、K、V进行乘法处理,以获得三个C
×
C维向量q、k、v,并根据得到的C
×
C维向量q、k、v获得每个待分类文本对应的注意力分数s;(2

6)对步骤(2

5)得到的每个待分类文本对应的注意力分数s进行处理,以得到该待分类文本对应的C
×
C维向量(2

7)将步骤(2

4)得到的每个待分类文本对应的C
×
d维特征向量A和步骤(2

6)得到的新的C
×
C维向量在列方向上进行拼接,以获得每个待分类文本对应的、新的C
×
(C+d)维特征向量(2

8)对于训练集中的每个待分类文本而言,根据训练集中每两个标签的共现情况创建该待分类文本对应的概率矩阵P;(2

9)针对训练集中的每个待分类文本而言,对步骤(2

8)得到的概率矩阵P进行二值化处理,以得到二值化处理后的概率矩阵P:(2

10)根据步骤(2

9)二值化处理后的概率矩阵P并使用以下公式获取标签共现矩阵(2

11)针对训练集中的每个待分类文本而言,将步骤(2

【专利技术属性】
技术研发人员:刘孝炎肖正郭修远王立峰
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1