当前位置: 首页 > 专利查询>郑州大学专利>正文

一种基于自注意力机制和BiGRU的文本分类方法技术

技术编号:29835711 阅读:11 留言:0更新日期:2021-08-27 14:25
本发明专利技术适用于文本分类技术领域,提供了一种基于自注意力机制和BiGRU的文本分类方法,包括如下步骤:步骤S1:使用自注意力机制生成新的字嵌入作为文本表示;步骤S2:使用CNN提取文本局部特征;步骤S3:利用BiGRU获取文本上下文语义信息和长距离依赖关系;步骤S4:对CNN和BiGRU的输出进行融合;步骤S5:使用全连接层,结合Softmax函数获得文本分类结果;利用自注意力机制关注对分类贡献较大的文本部分,使用含有不同尺寸卷积核的多通道CNN提取不同粒度的文本局部特征,同时通过含有跳层连接结构的堆叠BiGRU网络提取文本间上下文语义信息和长距离依赖关系,最后将CNN和BiGRU的输出进行特征融合,训练分类器对不同类型的文本信息进行分类。

【技术实现步骤摘要】
一种基于自注意力机制和BiGRU的文本分类方法
本专利技术属于文本分类
,尤其涉及一种基于自注意力机制和BiGRU的文本分类方法。
技术介绍
文本分类技术是对文本集按照一定的分类体系或标准进行自动分类标注的技术,20世纪90年代,在计算机研究领域各种基于数学表达的机器学习方法不断涌现,一些经典的机器学习方法,如支持向量机、朴素贝叶斯、决策树、最近邻方法等被广泛应用于文本分类研究,PANGB等人使用词袋模型,结合贝叶斯、最大熵、支持向量机等机器学习方法对IMDB影评数据集进行情感分类,取得了较好的效果,基于机器学习方法的文本分类模型虽然拥有较为简单的函数表达,但其通常需要繁杂的人工特征工程,生成的文本特征表示均为高维度的稀疏向量,忽略了词义、词序等信息,其特征表达能力也相对较弱,在分类任务中无法很好地保留上下文信息;Bengio等人提出神经网络语言模型,将深度学习方法引入自然语言处理研究领域,神经网络语言模型将单词映射到低维稠密空间,并采用词向量度量单词之间的语义相关性,此后Golve和word2vec等词向量模型的提出,实现了词向量的高效运算,使得深度学习方法在自然语言处理研究领域的应用更为成熟,随后,各种基于深度神经网络的文本分类方法相继出现,这些方法首先使用数学向量对词汇进行语义表示,然后通过组合的方式获得句子和文档级别的语义表示。在文本分类任务中,双向门控循环单元被广泛使用,其不仅能提取文本上下文语义信息和长距离依赖关系,还可以避免出现传统RNN中存在的梯度弥散或爆炸问题,然而,BiGRU无法较好地捕获文本的局部特征。
技术实现思路
本专利技术提供一种基于自注意力机制和BiGRU的文本分类方法,旨在解决BiGRU无法较好地捕获文本的局部特征问题。本专利技术是这样实现的,一种基于自注意力机制和BiGRU的文本分类方法,包括如下步骤:步骤S1:使用自注意力机制生成新的字嵌入作为文本表示;步骤S2:使用CNN提取文本局部特征;步骤S3:利用BiGRU获取文本上下文语义信息和长距离依赖关系;步骤S4:对CNN和BiGRU的输出进行融合;步骤S5:使用全连接层,结合Softmax函数获得文本分类结果。优选的,所述步骤S1中,中文文本分类采用基于字粒度的处理方式,将每一个文本实例看作是由字符构成的序列,并通过前述计算步骤将其转换成字嵌入序列。优选的,GRU引入门对原始RNN中隐藏状态的计算方法进行修改,该门包括重置门、更新门、候选隐藏状态和隐藏状态。优选的,所述BiGRU每个时间步隐藏状态的输出由当前时间步前向隐藏状态和后向隐藏状态拼接而成。优选的,包括SBUTC模型,SBUTC模型由多个通道组成,其主体部分是4个CNN模型通道和1个BiGRU模型通道。优选的,4个CNN模型通道分别使用4种不同尺寸的卷积核,其大小分别为2×768、3×768、4×768和5×768,每种尺寸的卷积核数目均为300个,卷积步长设置为1。优选的,所述BiGRU模型通道由2个堆叠的BiGRU构成,隐藏层的维度均设置为300维。优选的,所述CNN和BiGRU的输出通过拼接操作进行融合,进而作为全连接层的输入,全连接层使用ReLU作为激活函数,并且加入dropout机制。与现有技术相比,本专利技术的有益效果是:本专利技术的一种基于自注意力机制和BiGRU的文本分类方法,利用自注意力机制关注对分类贡献较大的文本部分,使用含有不同尺寸卷积核的多通道CNN提取不同粒度的文本局部特征,同时通过含有跳层连接结构的堆叠BiGRU网络提取文本间上下文语义信息和长距离依赖关系,最后将CNN和BiGRU的输出进行特征融合,训练分类器对不同类型的文本信息进行分类。附图说明图1为本专利技术的方法步骤示意图;图2为本专利技术中的GRU结构示意图;图3为本专利技术中的BiGRU结构示意图;图4为本专利技术中的SBUTC模型整体结构示意图;图5为本专利技术中的卷积过程示意图;具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。请参阅图1-5,本专利技术提供一种技术方案:一种基于自注意力机制和BiGRU的文本分类方法,包括如下步骤:步骤S1:使用自注意力机制生成新的字嵌入作为文本表示;在本实施方式中,通过对预训练语言模型ERNIE进行微调的方式生成字嵌入表示,其间使用自注意力机制计算每一个字的self-attention值,该值决定了输入的文本中某一位置上的字与该文本内部其他部分的相互关注程度,self-attention计算过程分如式(1)~(3)所示:其中,qi为一个句子中位置i上的字(词)wi的向量Query,kj、vj分别表示同一句子中位置j上的字(词)wj的向量Key和Value;dk表示kj的维度大小;i,j=0,1,2,…,N-1,N表示句子包含的字(词)的数量;si,j为qi与kj作向量点积运算和除法运算后得到的结果;是si,j的Softmax分值;zi即为wi经self-attention计算后得到的输出结果,最后,将zi和wi进行拼接,作为CNN和BIGRU的输入;在中文文本分类任务中,一般需要对文本进行分词和去停用词等基于词粒度的处理,本文中的中文文本分类实验则采用基于字粒度的处理方式,将每一个文本实例看作是由字符构成的序列,并通过前述计算步骤将其转换成字嵌入序列,根据ZipF定律,大部分中文词汇出现次数很少,若使用基于词粒度的处理方式,会导致模型对应的词汇索引表规模过大,影响模型的训练效率和性能,并且在进行微调的时候,Out-of-Vocabulary问题会比较严重,而基于字粒度的处理方式能很好地避免这些问题,不再需要分词和去停用词等繁琐步骤,而且,在中文中单个汉字也有其特定意义,包含丰富的语义信息,此外,基于字嵌入的文本表示能够在一定程度上解决短文本特征词过少的问题,并有效避免对文本中出现的不规则特征词的错误划分。步骤S2:使用CNN提取文本局部特征;在本实施方式中,GRU引入了门的概念,对原始RNN中隐藏状态的计算方法进行了修改,其单元结构如图2所示,包括重置门、更新门、候选隐藏状态和隐藏状态等部分;相关参数的计算和更新过程如式(4)~(7)所示:Rt=σ(ItWir+Ht-1Whr+br)(4)Zt=σ(ItWiz+Ht-1Whz+bz)(5)其中,假设隐藏单元个数为h,时间步t的输入为It∈R1×d(1×d表示输入向量维度),上一时间步t-1的隐藏状态为Ht-1∈R1×h,Wir,Wiz,Wih∈Rd×h和Whr,Whz,Whh∈Rh×h表示权重参数矩阵,br,bz,bh∈R1×h是偏差参数,σ表示sigmoid激活函数,⊙表示做本文档来自技高网
...

【技术保护点】
1.一种基于自注意力机制和BiGRU的文本分类方法,其特征在于:包括如下步骤:/n步骤S1:使用自注意力机制生成新的字嵌入作为文本表示;/n步骤S2:使用CNN提取文本局部特征;/n步骤S3:利用BiGRU获取文本上下文语义信息和长距离依赖关系;/n步骤S4:对CNN和BiGRU的输出进行融合;/n步骤S5:使用全连接层,结合Softmax函数获得文本分类结果。/n

【技术特征摘要】
1.一种基于自注意力机制和BiGRU的文本分类方法,其特征在于:包括如下步骤:
步骤S1:使用自注意力机制生成新的字嵌入作为文本表示;
步骤S2:使用CNN提取文本局部特征;
步骤S3:利用BiGRU获取文本上下文语义信息和长距离依赖关系;
步骤S4:对CNN和BiGRU的输出进行融合;
步骤S5:使用全连接层,结合Softmax函数获得文本分类结果。


2.如权利要求1所述的一种基于自注意力机制和BiGRU的文本分类方法,其特征在于:所述步骤S1中,中文文本分类采用基于字粒度的处理方式,将每一个文本实例看作是由字符构成的序列,并通过前述计算步骤将其转换成字嵌入序列。


3.如权利要求1所述的一种基于自注意力机制和BiGRU的文本分类方法,其特征在于:GRU引入门对原始RNN中隐藏状态的计算方法进行修改,该门包括重置门、更新门、候选隐藏状态和隐藏状态。


4.如权利要求1所述的一种基于自注意力机制和BiGRU的文本分类方法,其特征在于:所述BiGRU每个时间步隐...

【专利技术属性】
技术研发人员:石磊王明宇高宇飞陶永才卫琳
申请(专利权)人:郑州大学
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1