基于深度学习模型的复合文本多分类方法及系统技术方案

技术编号:28979841 阅读:18 留言:0更新日期:2021-06-23 09:26
本发明专利技术属于自然语言处理技术领域,特别涉及一种基于深度学习模型的复合文本多分类方法及系统,包含:将复合文本转换至词语粒度级的文本表示,对转换后的词语粒度级文本表示进行预处理,并通过词嵌入方法表示为词向量;将词向量作为深度学习模型输入,通过模型CNN卷积层提取文本特征,选取卷积后向量,并保留全局部分序列关联信息,通过模型self‑attention层为文本特征向量附加权重并进行等长向量序列拼接,利用模型LSTM循环层提取文本特征向量;通过模型池化层对文本特征向量进行平均化操作,并利用softmax分类器获取输入的文本类别概率,依据概率大小来获取文本分类结果。本发明专利技术可解决复合文本精确多分类问题,满足自然语言文本多分类预测识别的实际应用。

【技术实现步骤摘要】
基于深度学习模型的复合文本多分类方法及系统
本专利技术属于自然语言处理
,特别涉及一种基于深度学习模型的复合文本多分类方法及系统,通过复合深度学习模型CNN、LSTM、self-attention对文本进行多分类预测。
技术介绍
文本分类是自然语言处理中关键且基础的任务之一,其常见的方法有传统的机器学习分类模型如朴素贝叶斯、支持向量机、逻辑回归等,以及演变至目前一系列基于深度学习的分类模型,主要包括CNN、LSTM、attention等。Text-CNN实现简单,支持并行,其主要的特点是局部感知和权值共享。局部感知使模型每次只需要感知较小的局部地区,降低参数量的同时提高拟合能力。权值共享使一些基本特征可以重复利用,提高神经网络训练效果。Attention机制原理是从从大量信息中筛选并聚焦在更为有效的信息上,聚焦的过程体现在权重系数的计算上。LSTM循环神经网络是一种以序列数据为输入来进行建模的深度学习模型,相比于其它神经网络模型,LSTM能更有效的处理序列信息,是NLP中常用的模型。在文本分类的实际应用中,CNN模型简单、训练速度快,效果可观,但可解释性不强,在调优模型时很难根据训练结果针对性调整具体特征,不易对每个特征重要度进行评估;Attention机制中能无视词之间的举例直接计算依赖关系,能够学习句子内部结构,实现简单且可并行计算,但进行权重计算时需要计算每个特征向量之间相关性,当特征向量较多时计算量较高;LSTM能够有效处理序列信息,但不够直观缺乏可解释性。
技术实现思路
此,本专利技术提供一种基于深度学习模型的复合文本多分类方法及系统,采用CNN、LSTM、attention三种深度学习模型来组成用于解决文本精确多分类的复合学习模型,以满足自然语言文本多分类预测识别的实际应用。按照本专利技术所提供的设计方案,提供一种基于深度学习模型的复合文本多分类方法,包含:将复合文本转换至词语粒度级的文本表示,对转换后的词语粒度级文本表示进行预处理,并通过词嵌入方法表示为词向量;将词向量作为已训练的深度学习模型的输入,通过模型中CNN卷积层提取文本特征,选取卷积后的向量,并保留全局部分序列关联信息,通过模型中self-attention层为文本特征向量附加权重并进行等长向量序列拼接,利用模型中LSTM循环层提取文本特征向量;通过模型池化层对文本特征向量进行平均化操作,并利用softmax分类器获取输入的文本类别概率,依据概率大小来获取文本分类结果。作为本专利技术基于深度学习模型的复合文本多分类方法,进一步地,针对复合文本,以词典为基本切分方法,根据文本语言特征、语序特征及结构特征,使用分词系统进行不同级别分词。作为本专利技术基于深度学习模型的复合文本多分类方法,进一步地,针对复合文本进行特征分析,以基于字典匹配的分词方法为基础,并结合词频统计和语义理解分词将复合文本划分至词语粒度级。作为本专利技术基于深度学习模型的复合文本多分类方法,进一步地,预处理中,针对词语粒度级的文本表示,通过加载停止词词典去除停止词,利用TF-IDF词频统计去除所有类别内高频词,并利用Word2Vec词嵌入方法表示为多维词向量,其中,高频词为词频大于设定值的词语。作为本专利技术基于深度学习模型的复合文本多分类方法,进一步地,CNN卷积层中,使用不同卷积窗口对输入的词向量进行卷积操作,以不同视野宽度提取文本特征。作为本专利技术基于深度学习模型的复合文本多分类方法,进一步地,利用模型Top-K池化层从卷积操作提取的文本特征向量中选取前K个代表性特征向量,从不定长的卷积层输出截取订场序列,并保留部分序列关联信息。作为本专利技术基于深度学习模型的复合文本多分类方法,进一步地,self-attention层中,针对输入的特征向量序列,通过计算选定特征向量与其余特征向量相关度来确定该选定特征向量相对整体文本表示的贡献度,并对其附加权重,通过拼接操作将词向量拼接为表示文本的特征向量。作为本专利技术基于深度学习模型的复合文本多分类方法,进一步地,深度学习模型中,利用单层LSTM循环层对输入的特征向量矩阵进行单层循环学习并输出文本特征向量。作为本专利技术基于深度学习模型的复合文本多分类方法,进一步地,将经过平均化处理的文本特征向量输入至softmax分类器来获取类别分布概率,并选取概率最大的类别作为最终分类预测结果。进一步地,基于上述的方法,本专利技术还提供一种基于深度学习模型的复合文本多分类系统,包含:数据预处理模块和分类预测模块,其中,数据预处理模块,用于将复合文本转换至词语粒度级的文本表示,对转换后的词语粒度级文本表示进行预处理,并通过词嵌入方法表示为词向量;分类预测模块,用于将词向量作为已训练的深度学习模型的输入,通过模型中CNN卷积层提取文本特征,选取卷积后的向量,并保留全局部分序列关联信息,通过模型中self-attention层为文本特征向量附加权重并进行等长向量序列拼接,利用模型中LSTM循环层提取文本特征向量;通过模型池化层对文本特征向量进行平均化操作,并利用softmax分类器获取输入的文本类别概率,依据概率大小来获取文本分类结果。本专利技术的有益效果:本专利技术复合CNN、Self-attention、LSTM三种模型,可以发挥彼此优势,互相弥补不足:可以通过self-attention机制解决CNN、LSTM可解释性差的问题,有效评估每个特征向量对分类结果的贡献;通过CNN卷积的机制可以使Self-attention关注到局部序列特征之间的依赖关系,不需要计算每个特征向量之间的相关性;通过LSTM处理序列信息的优势,解决CNN卷积、池化操作丢失文本序列顺序、位置关系的问题。根据文本特征适用分词系统,构建输入层,使用Word2Vec将分词结果数值化,通过CNN卷积层的多种类型卷积窗口提取特征向量序列,通过self-attention层对特征向量进行权重计算,通过LSTM循环层对特征向量进行非线性变换与映射,进而通过softmax分类器映射到概率空间判断文本类别,提升文本多分类效率和精确度,具有较好应用前景。附图说明:图1为实施例中文本预处理流程示意;图2为实施例中卷积操作流程示意;图3为实施例中附加权重流程示意;图4为实施例中分类输出流程示意。具体实施方式:为使本专利技术的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本专利技术作进一步详细的说明。针对如何进行文本精确多分类的情形,本专利技术实施例,提供一种基于深度学习模型的复合文本多分类方法,包含:将复合文本转换至词语粒度级的文本表示,对转换后的词语粒度级文本表示进行预处理,并通过词嵌入方法表示为词向量;将词向量作为已训练的深度学习模型的输入,通过模型中CNN卷积层提取文本特征,选取卷积后的向量,并保留全局部分序列关联信息,通过模型中self-attention层为文本特征向量附加权重并进行等长向量序列拼接,利用模型中LSTM循环层提取本文档来自技高网...

【技术保护点】
1.一种基于深度学习模型的复合文本多分类方法,其特征在于,包含:/n将复合文本转换至词语粒度级的文本表示,对转换后的词语粒度级文本表示进行预处理,并通过词嵌入方法表示为词向量;/n将词向量作为已训练的深度学习模型的输入,通过模型中CNN卷积层提取文本特征,选取卷积后的向量,并保留全局部分序列关联信息,通过模型中self-attention层为文本特征向量附加权重并进行等长向量序列拼接,利用模型中LSTM循环层提取文本特征向量;通过模型池化层对文本特征向量进行平均化操作,并利用softmax分类器获取输入的文本类别概率,依据概率大小来获取文本分类结果。/n

【技术特征摘要】
1.一种基于深度学习模型的复合文本多分类方法,其特征在于,包含:
将复合文本转换至词语粒度级的文本表示,对转换后的词语粒度级文本表示进行预处理,并通过词嵌入方法表示为词向量;
将词向量作为已训练的深度学习模型的输入,通过模型中CNN卷积层提取文本特征,选取卷积后的向量,并保留全局部分序列关联信息,通过模型中self-attention层为文本特征向量附加权重并进行等长向量序列拼接,利用模型中LSTM循环层提取文本特征向量;通过模型池化层对文本特征向量进行平均化操作,并利用softmax分类器获取输入的文本类别概率,依据概率大小来获取文本分类结果。


2.根据权利要求1所述的基于深度学习模型的复合文本多分类方法,其特征在于,针对复合文本,以词典为基本切分方法,根据文本语言特征、语序特征及结构特征,使用分词系统进行不同级别分词。


3.根据权利要求1所述的基于深度学习模型的复合文本多分类方法,其特征在于,针对复合文本进行特征分析,以基于字典匹配的分词方法为基础,并结合词频统计和语义理解分词将复合文本划分至词语粒度级。


4.根据权利要求1或2或3所述的基于深度学习模型的复合文本多分类方法,其特征在于,预处理中,针对词语粒度级的文本表示,通过加载停止词词典去除停止词,利用TF-IDF词频统计去除所有类别内高频词,并利用Word2Vec词嵌入方法表示为多维词向量,其中,高频词为词频大于设定值的词语。


5.根据权利要求1所述的基于深度学习模型的复合文本多分类方法,其特征在于,CNN卷积层中,使用不同卷积窗口对输入的词向量进行卷积操作,以不同视野宽度提取文本特征。


6.根据权利要求1所述的基于深度学习模型的复合文...

【专利技术属性】
技术研发人员:卜佑军孙嘉陈博张桥王方玉张鹏周锟伊鹏马海龙胡宇翔李锦玲张稣荣路祥雨张进
申请(专利权)人:中国人民解放军战略支援部队信息工程大学网络通信与安全紫金山实验室
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1