A Chinese text classification method based on attention mechanism and feature enhancement fusion belongs to the technical field of data mining; the Chinese text classification method based on attention mechanism and feature enhancement fusion proposes a feature enhancement fusion method based on attention mechanism, long-term and short-term memory network and convolution neural network. It combines Chinese text categorization model with feature difference to enhance attention algorithm model; feature enhancement fusion Chinese text categorization model, which uses two-layer LSTM and CNN modules to reinforce and fuse the text features extracted by attention mechanism in turn, and constantly enhances the richness and richness of the extracted text features, so as to make the text features contained more complete. The surface is more detailed, which improves the recognition ability of the model to Chinese text features.
【技术实现步骤摘要】
一种基于注意力机制和特征强化融合的中文文本分类方法
本专利技术一种基于注意力机制和特征强化融合的中文文本分类方法属于数据挖掘
技术介绍
随着Internet应用的普及,互联网上电子文档数量正在高速增长;为从海量电子文档中快速、准确、全面的挖掘有效信息,近年来,文本分类技术得到了人们的广泛关注;随着中文信息越来越丰富,中文信息的利用率也越来越大,因此对中文文本进行自动分类,具有非常重要的现实意义。在自然语言处理领域中,通过对基于神经网络的人工智相关算法模型进行设计与改进,使提出的算法模型更加契合具体数据集的语体特点与文本语料结构以及其配套应用场景对算法模型性能的需求,是人工智能领域的研究热点之一;注意力机制,通过对输入神经网络的中文文本向量的语义编码生成并配置以不同的注意力权重,在不损失文本信息的基础上,突出重点内容在中文文本特征识别过程中所发挥的作用。因此,基于注意力机制构建的字符级问答系统具有较好的性能;但是其处理粒度仅为字符级较为单一,如果能综合考虑词级和句子级粒度的文本产生的注意力,特征会更丰富。在中文文本长度相对较长的情况下,文本分类会存在问题,文本中隐含有重要文本特征信息的文本组成元素在文本中的位置分布不均匀;注意力机制可以体现出中文文本中不同文本元素在文本识别过程中所发挥作用的大小,为重要的文本元素配以更大的权重,但是由于是基于神经网络迭代训练而得出学习到的权重矩阵,是一个神经网络不断学习的过程,其间并不能保证所有的权重都配置得合适,可能会导致特征提取的不够充分或提取的特征包含的中文文本深层语义不够全面。
技术实现思路
针对上述问题,本专 ...
【技术保护点】
1.一种基于注意力机制和特征强化融合的中文文本分类方法,其特征在于,包括以下步骤:步骤a,整理原始中文文本语料,将所述原始中文文本语料进行分词并预训练词向量字典,进行文本预处理;步骤b,把将中文文本语料预处理成基于词条的N维向量;对预处理后文本进行特征选择,组成文本数据集的特征空间;步骤c,所述原始中文文本语料经过预处理后进入神经网络模块进行训练和测试前,先存入嵌入层的嵌入矩阵中,每一行的表示形式为一篇文本文档的向量表示形式;步骤d,将所述嵌入层中存储的预处理后的中文文本语料,导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中;步骤e,所述双层LSTM在所述嵌入层中进行数据特征提取操作,将所述双层LSTM提取的特征作为特征信息,对所述注意力机制权重模型在所述嵌入层中提取的数据特征进行强化处理操作;强化处理操作采用相加融合方式,对中文文本不同卷积核尺寸的文本粒度特征采用所述CNN模块进行处理;步骤f,将所述相加融合和所述CNN模块中输出的不同维度数据,进行拼接融合处理;步骤g,将所述拼接融合处理后数据导入全连接层中;步骤h,将所述全连接层中处理后数据导入soft ...
【技术特征摘要】
1.一种基于注意力机制和特征强化融合的中文文本分类方法,其特征在于,包括以下步骤:步骤a,整理原始中文文本语料,将所述原始中文文本语料进行分词并预训练词向量字典,进行文本预处理;步骤b,把将中文文本语料预处理成基于词条的N维向量;对预处理后文本进行特征选择,组成文本数据集的特征空间;步骤c,所述原始中文文本语料经过预处理后进入神经网络模块进行训练和测试前,先存入嵌入层的嵌入矩阵中,每一行的表示形式为一篇文本文档的向量表示形式;步骤d,将所述嵌入层中存储的预处理后的中文文本语料,导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中;步骤e,所述双层LSTM在所述嵌入层中进行数据特征提取操作,将所述双层LSTM提取的特征作为特征信息,对所述注意力机制权重模型在所述嵌入层中提取的数据特征进行强化处理操作;强化处理操作采用相加融合方式,对中文文本不同卷积核尺寸的文本粒度特征采用所述CNN模块进行处理;步骤f,将所述相加融合和所述CNN模块中输出的不同维度数据,进行拼接融合处理;步骤g,将所述拼接融合处理后数据导入全连接层中;步骤h,将所述全连接层中处理后数据导入softmax分类器进行归一化处理,输出样本属于各个类别的概率,以最大值对应的类别,作为文本类别识别的结果。2.根据权利要求1所述的一种基于注意力机制和特征强化融合的中文文本分类方法,其特征...
【专利技术属性】
技术研发人员:谢金宝,侯永进,马俊杰,梁欣涛,王玉静,王滨生,
申请(专利权)人:哈尔滨理工大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。