一种基于注意力机制的长文分类方法技术

技术编号:26478740 阅读:31 留言:0更新日期:2020-11-25 19:22
本发明专利技术涉及一种基于注意力机制的长文分类方法,包括:构建包括特征定位网络、特征提取网络和分类网络的深度学习网络模型;对文本数据进行预处理,采用按序分割的方法,将预处理后的文本数据拆分成N个段落;特征定位网络筛选出N个段落中,包含有用信息最多的K个段落;特征提取网络对K个段落进行词级、句子级和段落级分层特征提取;分类网络根据特征提取结果,预测长文类别。本发明专利技术建立硬注意力和软注意力相结合的模型,能够快速准确地从长文中找到重要段落位置,并利用层次注意力模型提高分类准确性,优化训练系统。在实际应用中,可以快速、准确地获取长文分类结果。

【技术实现步骤摘要】
一种基于注意力机制的长文分类方法
本专利技术属于人工智能领域,涉及自然语言处理长文本分类,具体涉及一种基于注意力机制的长文分类方法。
技术介绍
互联网正深入渗透到人们生产、生活的方方面面,与此同时,源源不断地产生大量的数据信息,如大量的文本数据。学术、工业研究、科技公司等领域都对文本数据有着极大的需求量,这些科技领域处理的文本往往篇幅较长,包含更多的信息量,同时对长文本数据的规范性及敏感度也有一定的要求,这使得长文本管理成为研究者的热门话题。文本分类是文本管理的基础任务,在信息检索、信息过滤、情感分类等方面都有着重要的应用。文本分类是指在某一确定的分类体系之下,依据文本包含的具体信息对文本进行自动分类的过程。深度学习中的文本分类方法是通过建立多隐层非线性的神经网络,提取数据特征,分析文本内容得到文章标签。为了有效提高分类准确度,文本分类的大多数模型是将文本看作是一个整体进行编码处理,整体编码能保证文本前后信息的充分提取,使得文本表示包含有足够多的文本语义信息。但对于长文档,整体编码会导致模型的输入维度非常庞大,模型内参数个数大量增加,大本文档来自技高网...

【技术保护点】
1.一种基于注意力机制的长文分类方法,其特征在于,包括如下步骤:/n步骤1、构建深度学习网络模型,深度学习网络模型包括特征定位网络、特征提取网络和分类网络;/n步骤2、对文本数据进行预处理,采用按序分割的方法,将预处理后的文本数据拆分成N个段落;/n步骤3、特征定位网络筛选出N个段落中,包含有用信息最多的K个段落;/n步骤4、特征提取网络对K个段落进行词级、句子级和段落级分层特征提取;/n步骤5、分类网络根据步骤4的特征提取结果,预测长文类别。/n

【技术特征摘要】
1.一种基于注意力机制的长文分类方法,其特征在于,包括如下步骤:
步骤1、构建深度学习网络模型,深度学习网络模型包括特征定位网络、特征提取网络和分类网络;
步骤2、对文本数据进行预处理,采用按序分割的方法,将预处理后的文本数据拆分成N个段落;
步骤3、特征定位网络筛选出N个段落中,包含有用信息最多的K个段落;
步骤4、特征提取网络对K个段落进行词级、句子级和段落级分层特征提取;
步骤5、分类网络根据步骤4的特征提取结果,预测长文类别。


2.根据权利要求1所述的基于注意力机制的长文分类方法,其特征在于,步骤2包括:
删除文本数据中的非常规单词,采用embedding的方式,将文本数据中的单词转化为词向量,继而将文本数据内的单词转化成词向量的编号,得到纯数字的词向量数组文件;统一长文单词个数为n,对于单词个数超过n的长文,删除多余单词;对于单词个数未满n的文本,采用补零的方式进行填充;
设置长文每句话的单词个数,按照每T个单词为一个有效句子,每L个句子为一个段落的方法,将长文由上到下按序分割成N个段落。


3.根据权利要求1或2所述的基于注意力机制的长文分类方法,其特征在于,步骤3包括:
特征定位网络为卷积神经网络,其通过特征定位函数选取关键段落,特征定位函数的表达式为:



公式(1)中,Wp和均为模型超参数,在后续模型训练中一同优化;通过定义激活函数sigmoid,将位置固定在[0:N-1]之间;其中,Ci代表第i个段落的卷积特征;Sigmoid(*)和gelu(*)均为激活函数;通过设置超参数Wp和维度,将固定为K维向量,分别对应K个段落,该K个段落即为包含有用特征最多的段落位置,记为以此作为后续特征提取网络的输入。


4.根据权利要求3所述的基于注意力机制的长文分类方法,其特征在于,步骤4包括:
特征提取网络包括卷积神经网络和双向长短期记忆网络,分为词级注意层、句子级注意层和段落级注意层三部分,使用层次结构,对输入文本分层提取特征;
词级注意层先使用卷积神经网络提取文本单词级向量的局部特征,然后利用双向长短期记忆网络关联各个单词的前后文本特征,结合单词的前向特征和后向特征,构成单词的特征向量;引入软注意力层给各个单词的注意力分配不同的权重值,每T个单词加权求和构成每个句子的特征向量;
句子级注意层和词级注意层结构相同,先经过卷积神经网络获取各个句子的局部特征,然后利用双向长短期记忆网络关联各个句子的前后文本特征,引入软注意力层计算每个句子的权重,每L个句子级特征加权求和构成每个段落的特征向量;
段落级注意层采用与句子级注意层相同的结构,先利用卷积神经网络提取各个段落的局部特征,然后利用双向长短期记忆网络关联各个段落的前后文本特征,引入软注意力层计算各个段落的权重,最后所有K个段落特征加权求和构成最终的文档向量作为文本表示,输入到分类网络。


5.根据权利要求4所述的基于注意力机制的长文分类方法,其特征在于,
对于K个段落,每个段落有L个句子,表示为i∈[1,L];每个句子有T个单词,表示为t∈[1,T];
词级注意层卷积神经网络的个数输入单词数为T*L*k,网络首先提取每一个词向量的卷积特征,采用大小为3、4、5的卷积核,经过卷积层,每一个词向量会得到3组特征g1,g2,g3,将特征...

【专利技术属性】
技术研发人员:冯姣李鹏姜恬静鲍闯
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1