用于短文本意图识别的网络层结构及短文本意图识别方法技术

技术编号:22755067 阅读:27 留言:0更新日期:2019-12-07 03:58
本发明专利技术公开了一种用于短文本意图识别的网络层结构,包括CNN层、特征连接层、全连接层,其中,CNN层用于对输入句矩阵通过包含n个卷积核的卷积窗口的卷积操作,然后使用最大池化操作,提取出n个特征;特征连接层用于在CNN层完成卷积操作后对得到的特征进行纵向叠加形成m维特征;全连接层采用每层神经元递减的方式搭建,使深层神经元能够代表更复杂的特征,全连接层用于将特征连接层得到的m维特征的特征值作为输入,并进行计算最终输出计算结果。本发明专利技术的网络层结构是结合CNN与全连接的一种深度学习网络,实现一种意图分类的方法,试验证明可达到在10毫秒以内完成意图识别的目标,且准确度保证在98%以上。

Network layer structure and short text intention recognition method for short text intention recognition

The invention discloses a network layer structure for short text intention recognition, including CNN layer, feature connection layer and full connection layer, wherein, CNN layer is used for convolution operation of input sentence matrix through convolution window containing N convolution kernels, and then maximum pooling operation is used to extract n features; feature connection layer is used for convolution operation after CNN layer completes convolution operation Vertical superposition forms m-dimensional features; the full connection layer is constructed by decreasing neurons in each layer, so that the deep neurons can represent more complex features. The full connection layer is used to input the characteristic values of m-dimensional features obtained from the feature connection layer, and calculate the final output calculation results. The network layer structure of the invention realizes a method of intention classification by combining CNN and a fully connected deep learning network. The test shows that the goal of intention recognition can be achieved within 10 milliseconds, and the accuracy is guaranteed to be more than 98%.

【技术实现步骤摘要】
用于短文本意图识别的网络层结构及短文本意图识别方法
本专利技术涉及自然语言处理
,特别涉及用于短文本意图识别的网络层结构及短文本意图识别方法。
技术介绍
近年来,AI计算迅猛发展,在很多方向上都有突破,特别是最近几年神经网络的崛起、google的深度学习框架tensorflow的飞速发展,给人工智能注入新的血液,同时传统机器学习方法在自然语言处理领域的应用也显得十分乏力,而深度学习在各种自然语言处理任务上显得十分得心应手,这使我们尝试使用深度学习来处理自然语言的任务,比如意图识别。意图识别可以转化为文本分类问题,以前处理文本分类的问题主要用传统的机器学习方法,比如SVM。但是目前文本分类有一些明显的特征:数据量大,训练数据几十万甚至上千万条、维度高,每行文本的维度可能高达200-800维、对于分类速度要求高,某些场景下需要分类速度在10ms以内。传统机器学习就不太适合处理这类分类任务,而神经网络可以很好地完成这类任务。目前,大部分的意图识别方法采用多层神经网络、lstm等网络结构,为了提高速度减少多层网络的层数,导致数据欠拟合,识别度低,虽然采用复杂的lstm识别度高,但是速度较慢,不能满足使用需求。
技术实现思路
本专利技术的目的是克服上述
技术介绍
中不足,提供用于短文本意图识别的网络层结构及短文本意图识别方法,通过设计一种结合CNN与全连接的一种深度学习网络,实现一种意图分类的方法,试验证明可达到在10毫秒以内完成意图识别的目标,且准确度保证在98%以上。为了达到上述的技术效果,本专利技术采取以下技术方案:一种用于短文本意图识别的网络层结构,包括CNN层、特征连接层、全连接层,其中,所述CNN层用于对输入句矩阵通过包含n个卷积核的卷积窗口的卷积操作,然后使用最大池化操作,提取出n个特征;所述特征连接层用于在CNN层完成卷积操作后对得到的特征进行纵向叠加形成m维特征;所述全连接层采用每层神经元递减的方式搭建,使深层神经元能够代表更复杂的特征,且可减少计算量,提高计算速度,全连接层用于将特征连接层得到的m维特征的特征值作为输入,并进行计算最终输出计算结果。进一步地,所述CNN层包括第一CNN层及第二CNN层,所述第一CNN层用于对输入句矩阵通过包含n个卷积核的卷积窗口的卷积操作,然后使用最大池化操作,提取出n个特征,所述第二CNN层用于对输入句矩阵通过包含n个卷积核的卷积窗口的卷积操作,然后使用最大池化操作,提取出n个特征。进一步地,所述特征连接层用于在CNN层完成卷积操作后对得到两组特征进行纵向叠加形成m维特征,m=2n。进一步地,所述全连接层包含一个输入层、一个输出层、二个隐藏层,其中,输入层维度为2n,输出层是N个分类的神经元节点,二个隐藏层分别为n个神经元和n/2个神经元。进一步地,其特征在于,n=128。进一步地,所述第一CNN层的卷积窗口大小为1,所述第二CNN层的卷积窗口大小为2。同时,本专利技术还公开了一种短文本意图识别方法,基于上述的用于短文本意图识别的网络层结构及输入层、预测层实现,包括以下步骤:A.输入层生成用户录入的文本的特征矩阵;B.第一CNN层及第二CNN层分别对输入句矩阵通过包含n个卷积核的卷积窗口的卷积操作,提取出n个特征向量,然后使用最大池化操作,得到n个特征值;C.特征连接层将各包含n个特征值的两组特征值进行纵向叠加形成1*2n个特征向量;D.全连接层设置一个输入层、两层隐藏层、一个输出层,其中,输入层的神经元个数为2n,隐藏层神经元个数分别为n和n/2,输出层神经元个数x根据分类数确定;E.将1*2n个特征向量作为全连接层的输入并进入两层隐藏层进行计算,两层隐藏层将计算结果输出给输出层,输出层输出x个数值;F.预测层使用softmax函数归一化全连接层的x个输出值,得到x个对应每个分类的概率值,且所有概率值之和为1,其中,概率最大的值对应的分类即为预测分类。进一步地,所述步骤A具体包括:A1.通过分词工具把用户录入的句子切分为b个词;A2.加载预训练的词向量模型得到A1中的b个词词向量,并得到b*y的特征矩阵,其中,y为每个词向量的维数。进一步地,所述步骤A还包括步骤A3:若b小于15则在b*y的特征矩阵的基础上补充15-b行0向量,得到15*y的特征矩阵,若b大于15则截取前15行向量,得到15*y的特征矩阵。进一步地,所述第一CNN层的卷积窗口大小为1,所述第二CNN层的卷积窗口大小为2,n=128。本专利技术与现有技术相比,具有以下的有益效果:本专利技术的用于短文本意图识别的网络层结构及短文本意图识别方法,相对现有技术解决了两个核心问题,即在满足分类速度的同时还提高了分类精度,其中,分类速度在长句子和短句子在分类速度上表现出了差异,虽然长句子要比短句子稍慢,但是通过验证证明总体上分类速度基本上在4-5毫秒左右,而分类准确率则通过在测试数据集上进行验证得到分类准确率高达98%以上。附图说明图1是本专利技术的一个实施例的短文本意图识别方法流程示意图。图2是本专利技术的一个实施例中预测层进行训练和实际预测时的示意图。具体实施方式下面结合本专利技术的实施例对本专利技术作进一步的阐述和说明。实施例:实施例一:一种用于短文本意图识别的网络层结构,具体分为三层:CNN层、特征连接层、全连接层。具体的,本实施例中,CNN层又分为两个层次,分别为:第一CNN层及第二CNN层,第一CNN层用于对输入句矩阵通过包含128个卷积核的卷积窗口的卷积操作,然后使用最大池化操作,提取出128个特征,第二CNN层用于对输入句矩阵通过包含128个卷积核的卷积窗口的卷积操作,然后使用最大池化操作,提取出128个特征。具体的,本实施例中,第一CNN层的卷积窗口大小为1,第二CNN层的卷积窗口大小为2。特征连接层用于在第一CNN层及第二CNN层完成卷积操作后,对得到的两组特征(每组特征128个)进行纵向叠加形成256维特征并输出256各特征值。全连接层采用每层神经元递减的方式搭建,使深层神经元能够代表更复杂的特征,且可减少计算量,提高计算速度,具体的本实施例中,全连接层包含一个输入层、一个输出层、二个隐藏层,其中,输入层维度为256(即特征连接层输出的特征值个数),输出层的神经元节点数具体根据分类数确定,如若有N个分类则输出层的神经元节点数即为N,二个隐藏层的神经元个数分别为128,64,同时,为了避免过拟合,设置dropdout为0.5。本实施例的短文本意图识别的网络层结构在具体使用时作为意图识别系统的网络层,可结合意图识别系统的输入层及预测层一同实现意图识别。实施例二如图1所示,一种短文本意图识别方法,基于上述的用于短文本意图识别的网络层结构及输入层、预测层实现,包括以下步骤:步骤1.输入层生成用户录入的文本的本文档来自技高网...

【技术保护点】
1.一种用于短文本意图识别的网络层结构,其特征在于,包括CNN层、特征连接层、全连接层,其中,所述CNN层用于对输入句矩阵通过包含n个卷积核的卷积窗口的卷积操作,然后使用最大池化操作,提取出n个特征;所述特征连接层用于在CNN层完成卷积操作后对得到的特征进行纵向叠加形成m维特征;所述全连接层采用每层神经元递减的方式搭建,使深层神经元能够代表更复杂的特征,全连接层用于将特征连接层得到的m维特征的特征值作为输入,并进行计算最终输出计算结果。/n

【技术特征摘要】
1.一种用于短文本意图识别的网络层结构,其特征在于,包括CNN层、特征连接层、全连接层,其中,所述CNN层用于对输入句矩阵通过包含n个卷积核的卷积窗口的卷积操作,然后使用最大池化操作,提取出n个特征;所述特征连接层用于在CNN层完成卷积操作后对得到的特征进行纵向叠加形成m维特征;所述全连接层采用每层神经元递减的方式搭建,使深层神经元能够代表更复杂的特征,全连接层用于将特征连接层得到的m维特征的特征值作为输入,并进行计算最终输出计算结果。


2.根据权利要求1所述的一种用于短文本意图识别的网络层结构,其特征在于,所述CNN层包括第一CNN层及第二CNN层,所述第一CNN层用于对输入句矩阵通过包含n个卷积核的卷积窗口的卷积操作,然后使用最大池化操作,提取出n个特征,所述第二CNN层用于对输入句矩阵通过包含n个卷积核的卷积窗口的卷积操作,然后使用最大池化操作,提取出n个特征。


3.根据权利要求2所述的一种用于短文本意图识别的网络层结构,其特征在于,所述特征连接层用于在CNN层完成卷积操作后对得到两组特征进行纵向叠加形成m维特征,m=2n。


4.根据权利要求2所述的一种用于短文本意图识别的网络层结构,其特征在于,所述全连接层包含一个输入层、一个输出层、二个隐藏层,其中,输入层维度为2n,输出层是N个分类的神经元节点,二个隐藏层分别为n个神经元和n/2个神经元。


5.根据权利要求2至4中任一所述的一种用于短文本意图识别的网络层结构,其特征在于,n=128。


6.根据权利要求5所述的一种用于短文本意图识别的网络层结构,其特征在于,所述第一CNN层的卷积窗口大小为1,所述第二CNN层的卷积窗口大小为2。


7.一种短文本...

【专利技术属性】
技术研发人员:周杰李足红贾川江张清静
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1