基于Star-Transformer的口语理解方法、系统及设备技术方案

技术编号:26381137 阅读:42 留言:0更新日期:2020-11-19 23:49
基于Star‑Transformer的口语理解方法、系统及设备,属于语言处理技术领域。本发明专利技术是为了解决利用现有的神经网络对口语进行识别存在的准确度较低的问题。本发明专利技术所述的方法首先利用Star‑Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取;然后使用双向门控循环单元对Star‑Transformer提取的全局信息和局部信息进行整合,最后将插槽预测的概率最大的意图作为输出结果。主要用于口语的计算机理解。

【技术实现步骤摘要】
基于Star-Transformer的口语理解方法、系统及设备
本专利技术涉及口语的理解方法和系统;属于语言处理

技术介绍
随着人工智能的发展,基于深度神经网络的模型对语言识别能力越来越高,智能语音助手也相应产生;比如点播歌曲、上网购物,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等;语言识别技术在人工智能有着不可替代的作用;随着深度学习技术的发展,利用神经网络对自然语言进行识别,已经能够取得较为不错的效果;但是由于自然语言具有一定的模糊性和歧义性,如何更准确的识别到人们想表达的意愿仍然是一个巨大的挑战;针对于自然语言的口语而言,口语表达相对简单且更加随意,有事甚至不符合常规的表达逻辑,而且可能具有更多的意思表达可能性,所以口语更加具有模糊性和歧义性,利用现有的神经网络对于口语的识别时,对应的准确度(准确的识别到人们想表达的意愿)和准确率较低,都有待于进一步提高。
技术实现思路
本专利技术是为了解决利用现有的神经网络对口语进行识别存在的准确度较低的问题;现提供一种基于Star-Transformer的口语理解方法、系统及设备。基于Star-Transformer的口语理解方法,首先利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取;然后使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合,最后将插槽预测的概率最大的意图作为输出结果。进一步地,所述方法还包括采集口语语音信息并将口语语音转换为文本序列,获得文本序列的特征矩阵的步骤。进一步地,所述利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取的过程包括以下步骤:口语语音信息对应文本序列的特征矩阵记为H=[h1,…,hn],其中hj表示第j个字的特征,n为文本长度;对于查询向量q∈R1×d,注意力公式如下:其中,K=HWk,V=HWv,Wk和Wv为可学习参数;查询向量q为1×d的实数矩阵,表示查询向量q的列数;由注意力公式得到多头注意力公式:MultiHead(q,H)=concat(head1,…,headh)Wo(2)headi=Attention(qWiQ,HWiK,HWiv),i∈[1,h](3)其中,h为头的个数,WiQ,WiK,Wiv,Wo为可学习参数;concat(·)为concat函数;对于第t∈[1,T]层,定义向量st表示中继结点,矩阵Ht表示长度为n的所有卫星结点,矩阵E=[e1,…,en]表示序列长度为n的字嵌入,其中ek表示第k个字的嵌入;将卫星结点初始化为H0=E,中继结点初始化为st=average(E),average表示对矩阵取平均;T表示最后一层;对于Star-Transformer更新第t层时,要分为两个阶段:(1)更新卫星结点H,(2)更新中继结点s;在第一阶段,每一个卫星结点都将与它相邻的卫星结点、中继结点和它自己的嵌入进行拼接;随后使用多头注意力机制进行更新;最后进行归一化操作得到新的卫星结点;其中,为临时矩阵;所有带上角标的参数均表示对应层的参数,表示第t层的hi,st-1为第t-1层的中继结点;ReLU(·)为ReLU激活函数,LayerNorm(·)为归一化函数;在第二阶段,中继结点与已经更新过的所有卫星结点进行拼接:st=LayerNorm(RELU(MultiHead(st-1,[st-1;Ht])));Star-Transformer模型处理结束后完成信息提取。进一步地,所述使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合的过程包括以下步骤:使用汇集了全局信息的最后一层的中继结点sT作为双向门控循环单元初始隐藏结点,将最后一层中所有的卫星结点HT作为迭代信息被送到双向门控循环单元中;其中,分别表示HT的正向迭代和反向迭代;分别为每个正向GRU输出的整合矩阵和最后一个结点的隐藏结点,分别为每个反向GRU输出的整合矩阵和最后一个结点的隐藏结点;最后,把sT、和进行拼接作为意图整合信息结点,和进行拼接作为插槽整合信息结点;其中,intent和solt向量分别是意图和插槽预测的概率;最终把预测概率最大的意图作为输出结果。基于Star-Transformer的口语理解系统,所述系统包括Star-Transformer信息提取单元和信息整合单元;所述Star-Transformer信息提取单元利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取;所述信息整合单元使用双向门控循环单元对Star-Transformer提取的信息进行整合,最后将插槽预测的概率最大的意图作为输出结果。进一步地,所述系统还包括文本序列的特征矩阵获取单元,所述文本序列的特征矩阵获取单元首先采集口语语音信息,并将口语语音转换为文本序列;然后根据文本序列获得文本序列的特征矩阵。一种口语理解设备,所述设备用于存储和/或运行基于Star-Transformer的口语理解系统。有益效果:本专利技术通过Star-Transformer对自然语言分别进行局部信息和全局信息的提取,利用双向门控循环单元(BiGRU)对局部信息和全局信息进行整合,进而提高插槽填充和意图检测的性能,从而解决了利用现有的神经网络对口语进行识别存在的准确度较低的问题。附图说明图1为基于Star-Transformer的口语理解方法的流程示意图。具体实施方式具体实施方式一:参照图1具体说明本实施方式,本实施方式为基于Star-Transformer的口语理解方法,包括以下步骤:s1、搭建Star-Transformer信息提取层,提取全局信息和局部信息:口语语音信息对应文本序列的特征矩阵记为H=[h1,…,hn],其中hj表示第j个字(中文就是字,英文就是单词)的特征,n为文本长度(中文就是字数,英文就是单词数);对于查询向量q∈R1×d,注意力公式如下:其中,K=HWk,V=HWv,Wk和Wv为可学习参数;查询向量q为1×d的实数矩阵,表示查询向量q的列数;由注意力公式得到多头注意力公式:MultiHead(q,H)=concat(head1,…,headh)Wo(2)headi=Attention(qWiQ,HWiK,HWiv),i∈[1,h](3)其中,h为头的个数,WiQ,WiK,Wiv,Wo为可学习参数;concat(·)为concat函数;对于第t∈[1,T]层,定义向量st表示中继结点,矩阵Ht表示长度为n的所有卫星结点,矩阵E=[本文档来自技高网...

【技术保护点】
1.基于Star-Transformer的口语理解方法,其特征在于,所述方法首先利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取;然后使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合,最后将插槽预测的概率最大的意图作为输出结果。/n

【技术特征摘要】
1.基于Star-Transformer的口语理解方法,其特征在于,所述方法首先利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取;然后使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合,最后将插槽预测的概率最大的意图作为输出结果。


2.根据权利要求1所述的基于Star-Transformer的口语理解方法,其特征在于,所述方法还包括采集口语语音信息并将口语语音转换为文本序列,获得文本序列的特征矩阵的步骤。


3.根据权利要求1或2所述的基于Star-Transformer的口语理解方法,其特征在于,所述利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取的过程包括以下步骤:
口语语音信息对应文本序列的特征矩阵记为H=[h1,...,hn],其中hj表示第j个字的特征,n为文本长度;对于查询向量q∈R1×d,注意力公式如下:



其中,K=HWk,V=HWv,Wk和Wv为可学习参数;查询向量q为1×d的实数矩阵,d表示查询向量q的列数;
由注意力公式得到多头注意力公式:
MultiHead(q,H)=concat(head1,...,headh)Wo(2)
headi=Attention(qWiQ,HWiK,HWiv),i∈[1,h](3)
其中,h为头的个数,WiQ,WiK,Wiv,Wo为可学习参数;concat(·)为concat函数;
对于第t∈[1,T]层,定义向量st表示中继结点,矩阵Ht表示长度为n的所有卫星结点,矩阵E=[e1,...,en]表示序列长度为n的字嵌入,其中ek表示第k个字的嵌入;将卫星结点初始化为H0=E,中继结点初始化为st=average(E),average表示对矩阵取平均;T表示最后一层;
对于Star-Transformer更新第t层时,要分为两个阶段:(1)更新卫星结点H,(2)更新中继结点s;
在第一阶段,每一个卫星结点都将与它相邻的卫星结点、中继结点和它自己的嵌入进行拼接;随后使用多头注意力机制进行更新;最后进行归一化操作得到新的卫星结点;






其中,为临时矩阵;所有带上角标的参数均表示对应层的参数,表示第t层的hi,st-1为第t-1层的中继结点;ReLU(·)为ReLU激活函数,LayerNorm(·)为归一化函数;
在第二阶段,中继结点与已经更新过的所有卫星结点进行拼接:
st=LayerNorm(RELU(MultiHead(st-1,[st-1;Ht])));
Star-Transformer模型处理结束后完成信息提取。


4.根据权利要求3所述的基于Star-Transformer的口语理解方法,其特征在于,所述使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合的过程包括以下步骤:
使用汇集了全局信息的最后一层的中继结点sT作为双向门控循环单元初始隐藏结点,将最后一层中所有的卫星结点HT作为迭代信息被送到双向门控循环单元中;






其中,分别表示HT的正向迭代和反向迭代;分别为每个正向GRU输出的整合矩阵和最后一个结点的隐藏结点,分别为每个反向GRU输出的整合矩阵和最后一个结点的隐藏结点;
最后,把sT、和进行拼接作为意图整合信息结点,和进行拼接作为插槽整合信息结点;






其中,intent和solt向量分别是意图和插槽预测的概率;
最终把预测概率最大的意图作为输出结果。


5.基于Star-Transformer的口语理解系统,其特征在于,所述系统包括Star-Transformer信息提取单元和信息整合单元;
所述Star-Transformer信息提取单元利用Star-Trans...

【专利技术属性】
技术研发人员:刘美玲马凯欣于洋
申请(专利权)人:东北林业大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1