一种基于注意力机制和特征强化融合的中文文本分类方法技术

技术编号:19277420 阅读:39 留言:0更新日期:2018-10-30 17:59
本发明专利技术一种基于注意力机制和特征强化融合的中文文本分类方法属于数据挖掘技术领域;所述一种基于注意力机制和特征强化融合的中文文本分类方法中提出一种基于注意力机制、长短期记忆网络与卷积神经网络的特征强化融合中文文本分类模型和特征差异强化注意力算法模型;特征强化融合中文文本分类模型,以双层LSTM和CNN模块依次对注意力机制提取的文本特征进行强化融合,不断增强所提取文本特征的丰富程度和,使其包含的文本特征更加全面更加细致,从而提高了模型对中文文本特征的识别能力。

A Chinese text categorization method based on attention mechanism and feature enhancement fusion

A Chinese text classification method based on attention mechanism and feature enhancement fusion belongs to the technical field of data mining; the Chinese text classification method based on attention mechanism and feature enhancement fusion proposes a feature enhancement fusion method based on attention mechanism, long-term and short-term memory network and convolution neural network. It combines Chinese text categorization model with feature difference to enhance attention algorithm model; feature enhancement fusion Chinese text categorization model, which uses two-layer LSTM and CNN modules to reinforce and fuse the text features extracted by attention mechanism in turn, and constantly enhances the richness and richness of the extracted text features, so as to make the text features contained more complete. The surface is more detailed, which improves the recognition ability of the model to Chinese text features.

【技术实现步骤摘要】
一种基于注意力机制和特征强化融合的中文文本分类方法
本专利技术一种基于注意力机制和特征强化融合的中文文本分类方法属于数据挖掘

技术介绍
随着Internet应用的普及,互联网上电子文档数量正在高速增长;为从海量电子文档中快速、准确、全面的挖掘有效信息,近年来,文本分类技术得到了人们的广泛关注;随着中文信息越来越丰富,中文信息的利用率也越来越大,因此对中文文本进行自动分类,具有非常重要的现实意义。在自然语言处理领域中,通过对基于神经网络的人工智相关算法模型进行设计与改进,使提出的算法模型更加契合具体数据集的语体特点与文本语料结构以及其配套应用场景对算法模型性能的需求,是人工智能领域的研究热点之一;注意力机制,通过对输入神经网络的中文文本向量的语义编码生成并配置以不同的注意力权重,在不损失文本信息的基础上,突出重点内容在中文文本特征识别过程中所发挥的作用。因此,基于注意力机制构建的字符级问答系统具有较好的性能;但是其处理粒度仅为字符级较为单一,如果能综合考虑词级和句子级粒度的文本产生的注意力,特征会更丰富。在中文文本长度相对较长的情况下,文本分类会存在问题,文本中隐含有重要文本特征信息的文本组成元素在文本中的位置分布不均匀;注意力机制可以体现出中文文本中不同文本元素在文本识别过程中所发挥作用的大小,为重要的文本元素配以更大的权重,但是由于是基于神经网络迭代训练而得出学习到的权重矩阵,是一个神经网络不断学习的过程,其间并不能保证所有的权重都配置得合适,可能会导致特征提取的不够充分或提取的特征包含的中文文本深层语义不够全面。
技术实现思路
针对上述问题,本专利技术公开了一种基于注意力机制和特征强化融合的中文文本分类方法,所述一种基于注意力机制和特征强化融合的中文文本分类方法中提出一种基于注意力机制、长短期记忆网络与卷积神经网络的特征强化融合中文文本分类模型和特征差异强化注意力算法模型;特征强化融合中文文本分类模型,以双层LSTM和CNN模块依次对注意力机制提取的文本特征进行强化融合,不断增强所提取文本特征的丰富程度和,使其包含的文本特征更加全面更加细致,从而提高了模型对中文文本特征的识别能力。本专利技术的目的是这样实现的:一种基于注意力机制和特征强化融合的中文文本分类方法,包括以下步骤:步骤a,整理原始中文文本语料,将所述原始中文文本语料进行分词并预训练词向量字典,进行文本预处理;步骤b,把将中文文本语料预处理成基于词条的N维向量;对预处理后文本进行特征选择,组成文本数据集的特征空间;步骤c,所述原始中文文本语料经过预处理后进入神经网络模块进行训练和测试前,先存入嵌入层的嵌入矩阵中,每一行的表示形式为一篇文本文档的向量表示形式;步骤d,将所述嵌入层中存储的预处理后的中文文本语料,导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中;步骤e,所述双层LSTM在所述嵌入层中进行数据特征提取操作,将所述双层LSTM提取的特征作为特征信息,对所述注意力机制权重模型在所述嵌入层中提取的数据特征进行强化处理操作;强化处理操作采用相加融合方式,对中文文本不同卷积核尺寸的文本粒度特征采用所述CNN模块进行处理;步骤f,将所述相加融合和所述CNN模块中输出的不同维度数据,进行拼接融合处理;步骤g,将所述拼接融合处理后数据导入全连接层中;步骤h,将所述全连接层中处理后数据导入softmax分类器进行归一化处理,输出样本属于各个类别的概率,以最大值对应的类别,作为文本类别识别的结果。上述的一种基于注意力机制和特征强化融合的中文文本分类方法,所述注意力机制模型为语意特征差异化注意力算法模型构成,所述语意特征差异化注意力算法模型包括以下步骤:步骤a1,输入所述语意特征差异化注意力算法模型中文本为TEXT文本,确定文本中的词向量x1和x2;步骤b1,将所述词向量x1和x2导入编码器LSTM中;将导入所述编码器LSTM中的所述词向量x1和x2进行编码操作,所述词向量x1编码为语义编码h1,所述词向量x2编码为语义编码h2;步骤c1,将所述语义编码h1导入语义特征学习模块1中,所述语义编码h2导入语义特征学习模块2中;将所述语义特征学习模块1和所述语义特征学习模块2进行融合特征学习操作,将所述融合特征学习操作导入Softmax模块进行权重概率化分析;步骤d1,将所述Softmax模块中权重概率化分析结果导入特征差异放大模块进行特征差异放大操作,将所述特征差异放大模块中特征差异放大后生成的注意力权重α和所述语义编码h1、语义编码h2导入到注意力权重配置模块中;步骤e1,将所述注意力权重配置模块分析后数据导入激活层中进行分析,所述激活层分析后数据通过全连接层导入分类器处理。上述的一种基于注意力机制和特征强化融合的中文文本分类方法,所述CNN模块包括CNN3和CNN4两种卷积核尺寸的三维卷积神经网络,所述CNN3卷积核尺寸为3倍词向量维度,所述CNN4卷积核尺寸为4倍词向量维度。有益效果:第一、在本专利技术专利一种基于注意力机制和特征强化融合的中文文本分类方法中,本专利技术提出一种基于注意力机制、长短期记忆网络与卷积神经网络的特征强化融合中文文本分类模型和特征差异化注意力算法模型;特征强化融合中文文本分类模型,以双层LSTM和CNN模块依次对注意力机制提取的文本特征进行强化融合,不断增强所提取文本特征的丰富程度和,使其包含的文本特征更加全面更加细致,从而提高了模型对中文文本特征的识别能力。第二,在本专利技术专利一种基于注意力机制和特征强化融合的中文文本分类方法中,特征差异化注意力算法模型,除对重要文本特征配以更权重外还对强化了其与边缘化的文本特征之间的差异,以进一步提高重要特征对中文文本识别的作用,使重点内容对文本识别的作用更加突出,从而提高了注意力机制对中文文本特征的识别能力;同等实验条件下,相比于对比模型,DEATT模型与BATTL2_3C的中文文本分类性能明显提升证明了其有效性。附图说明图1是本专利技术整体算法示意图。图2是本专利技术语义特征差异化注意力机制示意图。具体实施方式下面结合附图对本专利技术具体实施方式作进一步详细描述。具体实施例一本实施例是一种基于注意力机制和特征强化融合的中文文本分类方法的具体实施例。一种基于注意力机制和特征强化融合的中文文本分类方法,包括以下步骤:步骤a,整理原始中文文本语料,将所述原始中文文本语料进行分词并预训练词向量字典,进行文本预处理;步骤b,把将中文文本语料预处理成基于词条的N维向量;对预处理后文本进行特征选择,组成文本数据集的特征空间;步骤c,所述原始中文文本语料经过预处理后进入神经网络模块进行训练和测试前,先存入嵌入层的嵌入矩阵中,每一行的表示形式为一篇文本文档的向量表示形式;步骤d,将所述嵌入层中存储的预处理后的中文文本语料,导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中;步骤e,所述双层LSTM在所述嵌入层中进行数据特征提取操作,将所述双层LSTM提取的特征作为特征信息,对所述注意力机制权重模型在所述嵌入层中提取的数据特征进行强化处理操作;强化处理操作采用相加融合方式,对中文文本不同卷积核尺寸的文本粒度特征采用所述CNN模块进行处理;步骤f,将所述相加融合本文档来自技高网...

【技术保护点】
1.一种基于注意力机制和特征强化融合的中文文本分类方法,其特征在于,包括以下步骤:步骤a,整理原始中文文本语料,将所述原始中文文本语料进行分词并预训练词向量字典,进行文本预处理;步骤b,把将中文文本语料预处理成基于词条的N维向量;对预处理后文本进行特征选择,组成文本数据集的特征空间;步骤c,所述原始中文文本语料经过预处理后进入神经网络模块进行训练和测试前,先存入嵌入层的嵌入矩阵中,每一行的表示形式为一篇文本文档的向量表示形式;步骤d,将所述嵌入层中存储的预处理后的中文文本语料,导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中;步骤e,所述双层LSTM在所述嵌入层中进行数据特征提取操作,将所述双层LSTM提取的特征作为特征信息,对所述注意力机制权重模型在所述嵌入层中提取的数据特征进行强化处理操作;强化处理操作采用相加融合方式,对中文文本不同卷积核尺寸的文本粒度特征采用所述CNN模块进行处理;步骤f,将所述相加融合和所述CNN模块中输出的不同维度数据,进行拼接融合处理;步骤g,将所述拼接融合处理后数据导入全连接层中;步骤h,将所述全连接层中处理后数据导入softmax分类器进行归一化处理,输出样本属于各个类别的概率,以最大值对应的类别,作为文本类别识别的结果。...

【技术特征摘要】
1.一种基于注意力机制和特征强化融合的中文文本分类方法,其特征在于,包括以下步骤:步骤a,整理原始中文文本语料,将所述原始中文文本语料进行分词并预训练词向量字典,进行文本预处理;步骤b,把将中文文本语料预处理成基于词条的N维向量;对预处理后文本进行特征选择,组成文本数据集的特征空间;步骤c,所述原始中文文本语料经过预处理后进入神经网络模块进行训练和测试前,先存入嵌入层的嵌入矩阵中,每一行的表示形式为一篇文本文档的向量表示形式;步骤d,将所述嵌入层中存储的预处理后的中文文本语料,导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中;步骤e,所述双层LSTM在所述嵌入层中进行数据特征提取操作,将所述双层LSTM提取的特征作为特征信息,对所述注意力机制权重模型在所述嵌入层中提取的数据特征进行强化处理操作;强化处理操作采用相加融合方式,对中文文本不同卷积核尺寸的文本粒度特征采用所述CNN模块进行处理;步骤f,将所述相加融合和所述CNN模块中输出的不同维度数据,进行拼接融合处理;步骤g,将所述拼接融合处理后数据导入全连接层中;步骤h,将所述全连接层中处理后数据导入softmax分类器进行归一化处理,输出样本属于各个类别的概率,以最大值对应的类别,作为文本类别识别的结果。2.根据权利要求1所述的一种基于注意力机制和特征强化融合的中文文本分类方法,其特征...

【专利技术属性】
技术研发人员:谢金宝侯永进马俊杰梁欣涛王玉静王滨生
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1