一种改进的语义意图识别方法以及LSTM构架系统技术方案

技术编号:26304589 阅读:10 留言:0更新日期:2020-11-10 20:00
本发明专利技术公开了一种改进的语义意图识别方法以及LSTM构架系统,包括以下步骤:获取训练语料;中文分词步骤;去除停用词及标点符号步骤;词向量计算步骤;根据训练语料中特征词的数量n以及每一特征词的词向量维度m,生成对应的m*n的词向量矩阵,将该词向量矩阵输入至叠加式LSTM架构以对所述训练语料进行学习训练;所述叠加式LSTM架构由多个LSTM层叠加而成,首个LSTM层对所述词向量矩阵进行学习训练,生成学习训练后的第一特征数值矩阵,该第一特征数值矩阵作为下一个LSTM层的输入,最后一个LSTM层对上一个LSTM层输出的特征数值矩阵进行学习训练,从而输出经过学习训练后的第二特征数值矩阵;将第二特征数值矩阵通过外接的softmax函数对其进行分类。

【技术实现步骤摘要】
一种改进的语义意图识别方法以及LSTM构架系统
本专利技术涉及一种改进的语义意图识别方法以及LSTM构架系统。
技术介绍
在自然语言处理领域中,意图识别是一种理解语义的直接方式。它主要是通过分类的办法将文本分到相应的意图种类,这在互联网搜索引擎和智能问答系统中都起着很重要的作用。简单来讲,就是当用户输入一句话或者一段短文本时,意图识别系统可以准确识别出它是属于哪个领域的问题,然后分配给相应的领域智能机器人等相关模块进行后续处理,这在当前众多问题分类的情况下,可以显著提升问题匹配的准确率。现有技术主要提供了如下方法:1.基于词典以及模版规则的方法:不同的意图会有的不同的领域词典,比如商品名、地名、歌曲名等。我们根据用户的意图和词典的匹配程度或者重合程度来进行判断,最简单的一个规则是将该文本判别给与词典重合程度高的类别。但这个工作的关键是每个类别领域词典必须得做地足够完备。2.基于机器学习模型的方法:这种主要是通过机器学习及深度学习的方式,对已标注好的领域的语料进行训练学习,得到一个意图识别的模型。利用该模型,当再输入一个测试集时,它能快速地预测出该语料对应的分类,并提供对应的置信度。使用这种方式的一个好处就是,在语料不断丰富后,模型的准确度会不断提升。本专利技术主要介绍的就是采用深度学习的这种方式进行意图识别。请参见图1,LSTM(LongShort-TermMemory)长短期记忆网络是一种时间循环神经网络,亦是一种特殊的RNN。RNN(RecurrentNeuralNetwork)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有循环单元按链式连接的递归神经网络。而LSTM主要是为了解决一般的RNN存在的长期依赖问题而被专门设计出来,在很多领域方向上,它比标准的RNN学习网络表现得更好。
技术实现思路
针对上述现有技术的不足,本专利技术所要解决的技术问题是:提供了能够提高训练语料的准确度、进一步提高意图分别识别的准确率的一种改进的语义意图识别方法以及LSTM构架系统。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种改进的语义意图识别方法,包括以下步骤:获取训练语料;中文分词:对获取到的训练语料进行中文分词;去除停用词及标点符号:去除训练语料中的停用词及符号,从而得到训练语料的若干特征词;词向量计算:计算所述训练语料中每一个特征词的词向量,从而得到每一个特征词的词向量;根据所述训练语料中特征词的数量n以及每一特征词的词向量维度m,生成对应的m*n的词向量矩阵,将该词向量矩阵输入至叠加式LSTM架构以对所述训练语料进行学习训练;其中,所述叠加式LSTM架构由多个LSTM层叠加而成,首个LSTM层对所述词向量矩阵进行学习训练,生成学习训练后的第一特征数值矩阵,该首个LSTM层学习训练后的第一特征数值矩阵作为下一个LSTM层的输入,最后一个LSTM层对上一个LSTM层输出的特征数值矩阵进行学习训练,从而输出经过学习训练后的第二特征数值矩阵;将最后一个LSTM层输出的第二特征数值矩阵通过外接的softmax函数对其进行分类,从而将所述训练语料分类至对应的意图分类中。进一步的,在获取训练语料的步骤中,通过人工标注方式或爬虫采集方式获取所述训练语料。进一步的,在中文分词的步骤中,通过开源的jieba分词对所述获取到的训练语料进行中文分词。进一步的,在去除停用词及标点符号的步骤中,建立停用词/字典,去除副词、形容词、连接词以及标点符号。进一步的,在词向量计算的步骤中,采用Word2Vec计算所述训练语料中每一个特征词的词向量,从而得到每一个特征词的词向量。为解决上述技术问题,本专利技术采用的另一个技术方案是:提供一种叠加式LSTM架构系统,包括:输入层、叠加式LSTM架构以及输出层,所述叠加式LSTM架构由多个LSTM层叠加而成;所述输入层用于根据训练语料中特征词的数量n以及每一特征词的词向量维度m,生成对应的m*n的词向量矩阵,将该词向量矩阵输入至首个LSTM层;所述首个LSTM层对所述词向量矩阵进行学习训练,生成学习训练后的第一特征数值矩阵,该首个LSTM层学习训练后的第一特征数值矩阵作为下一个LSTM层的输入,最后一个LSTM层对上一个LSTM层输出的特征数值矩阵进行学习训练,从而输出经过学习训练后的第二特征数值矩阵;所述输出层用于通过外接的softmax函数对第二特征数值矩阵进行分类,从而将所述训练语料分类至对应的意图分类中。进一步的,所述叠加式LSTM架构由首个LSTM层和最后一个LSTM层叠加而成,其中:所述首个LSTM层对所述输入层输入的词向量矩阵进行学习训练,生成与所述词向量矩阵结构相同的第一特征数值矩阵;所述最后一个LSTM层用于对首个LSTM层输出的第一特征数值矩阵进行学习训练,从而生成与所述第一特征数值矩阵结构相同的第二特征数值矩阵。进一步的,所述叠加式LSTM架构由首个LSTM层、中间LSTM层以及最后一个LSTM层叠加而成,其中:所述首个LSTM层对所述输入层输入的词向量矩阵进行学习训练,生成与所述词向量矩阵结构相同的第一特征数值矩阵;所述中间LSTM层用于将所述第一特征数值矩阵作为输入,并对其进行学习训练,从而生成与所述第一特征数值矩阵结构相同的特征数值矩阵,并将其输出至所述最后一个LSTM层;所述最后一个LSTM层用于对所述中间LSTM层输出的特征数值矩阵进行学习训练,从而生成与所述中间LSTM层输出的特征数值矩阵结构相同的第二特征数值矩阵。进一步的,所述叠加式LSTM架构为由首个LSTM层、多个中间LSTM层以及最后一个LSTM层组成的三层叠加式LSTM架构,其中:所述首个LSTM层对所述输入层输入的词向量矩阵进行学习训练,生成与所述词向量矩阵结构相同的第一特征数值矩阵,并将所述第一特征数值矩阵输出至相邻的一中间LSTM层;与所述首个LSTM层相邻的中间LSTM层用于对所述第一特征数值矩阵进行学习训练,从而生成与所述第一特征数值矩阵结构相同的特征数值矩阵,并将其发送至下一个中间LSTM层;与所述最后一个LSTM层相邻的一中间LSTM层对上一层输出的特征数值矩阵进行学习训练后,输出对应的特征数值矩阵并将其发送至最后一个LSTM层;所述最后一个LSTM层用于将相邻的中间LSTM层发送的对应的特征数值矩阵进行学习训练,并输出所述第二特征数值矩阵。进一步的,所述输出层还用于在通过外接的softmax函数对第二特征数值矩阵进行分类过后,通过sigmoid激活函数进行二次分类,从而将所述训练语料分类至对应的意图分类中。本专利技术通过采用改进后的LSTM,叠加LSTM隐藏层,使模型更深入,更准确地描述作为。神经网络的深度通常归因于该方法在广泛的具有挑战性的预测问题上的成功,可以将其他隐藏层添加到多层感知器神经网络中以使其更深。附加隐藏层被理本文档来自技高网
...

【技术保护点】
1.一种改进的语义意图识别方法,包括以下步骤:/n获取训练语料;/n中文分词:对获取到的训练语料进行中文分词;/n去除停用词及标点符号:去除训练语料中的停用词及符号,从而得到训练语料的若干特征词;/n词向量计算:计算所述训练语料中每一个特征词的词向量,从而得到每一个特征词的词向量;/n根据所述训练语料中特征词的数量n以及每一特征词的词向量维度m,生成对应的m*n的词向量矩阵,将该词向量矩阵输入至叠加式LSTM架构以对所述训练语料进行学习训练;其中,所述叠加式LSTM架构由多个LSTM层叠加而成,首个LSTM层对所述词向量矩阵进行学习训练,生成学习训练后的第一特征数值矩阵,该首个LSTM层学习训练后的第一特征数值矩阵作为下一个LSTM层的输入,最后一个LSTM层对上一个LSTM层输出的特征数值矩阵进行学习训练,从而输出经过学习训练后的第二特征数值矩阵;/n将最后一个LSTM层输出的第二特征数值矩阵通过外接的softmax函数对其进行分类,从而将所述训练语料分类至对应的意图分类中。/n

【技术特征摘要】
1.一种改进的语义意图识别方法,包括以下步骤:
获取训练语料;
中文分词:对获取到的训练语料进行中文分词;
去除停用词及标点符号:去除训练语料中的停用词及符号,从而得到训练语料的若干特征词;
词向量计算:计算所述训练语料中每一个特征词的词向量,从而得到每一个特征词的词向量;
根据所述训练语料中特征词的数量n以及每一特征词的词向量维度m,生成对应的m*n的词向量矩阵,将该词向量矩阵输入至叠加式LSTM架构以对所述训练语料进行学习训练;其中,所述叠加式LSTM架构由多个LSTM层叠加而成,首个LSTM层对所述词向量矩阵进行学习训练,生成学习训练后的第一特征数值矩阵,该首个LSTM层学习训练后的第一特征数值矩阵作为下一个LSTM层的输入,最后一个LSTM层对上一个LSTM层输出的特征数值矩阵进行学习训练,从而输出经过学习训练后的第二特征数值矩阵;
将最后一个LSTM层输出的第二特征数值矩阵通过外接的softmax函数对其进行分类,从而将所述训练语料分类至对应的意图分类中。


2.如权利要求1所述的改进的语义意图识别方法,其特征在于,在获取训练语料的步骤中,通过人工标注方式或爬虫采集方式获取所述训练语料。


3.如权利要求1所述的语义意图识别方法,其特征在于,在中文分词的步骤中,通过开源的jieba分词对所述获取到的训练语料进行中文分词。


4.如权利要求1所述的语义意图识别方法,其特征在于,在去除停用词及标点符号的步骤中,建立停用词/字典,去除副词、形容词、连接词以及标点符号。


5.如权利要求1所述的语义意图识别方法,其特征在于,在词向量计算的步骤中,采用Word2Vec计算所述训练语料中每一个特征词的词向量,从而得到每一个特征词的词向量。


6.一种叠加式LSTM架构系统,包括:输入层、叠加式LSTM架构以及输出层,所述叠加式LSTM架构由多个LSTM层叠加而成;
所述输入层用于根据训练语料中特征词的数量n以及每一特征词的词向量维度m,生成对应的m*n的词向量矩阵,将该词向量矩阵输入至首个LSTM层;
所述首个LSTM层对所述词向量矩阵进行学习训练,生成学习训练后的第一特征数值矩阵,该首个LSTM层学习训练后的第一特征数值矩阵作为下一个LSTM层的输入,最后一个LSTM层对上一个LSTM层输出的特征数值矩阵进行学习训练,从而输出经过学习训练后的第二特征数值矩阵;
所述输出层用于通过外接的softma...

【专利技术属性】
技术研发人员:张宗世汪溪张世侠
申请(专利权)人:深圳宜搜天下科技股份有限公司
类型:发明
国别省市:广东;44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1