基于Star-Transformer的口语理解方法、系统及设备技术方案

技术编号：26381137 阅读：42 留言：0更新日期：2020-11-19 23:49

基于Star‑Transformer的口语理解方法、系统及设备，属于语言处理技术领域。本发明专利技术是为了解决利用现有的神经网络对口语进行识别存在的准确度较低的问题。本发明专利技术所述的方法首先利用Star‑Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取；然后使用双向门控循环单元对Star‑Transformer提取的全局信息和局部信息进行整合，最后将插槽预测的概率最大的意图作为输出结果。主要用于口语的计算机理解。

全部详细技术资料下载

【技术实现步骤摘要】
基于Star-Transformer的口语理解方法、系统及设备
本专利技术涉及口语的理解方法和系统；属于语言处理

技术介绍
随着人工智能的发展，基于深度神经网络的模型对语言识别能力越来越高，智能语音助手也相应产生；比如点播歌曲、上网购物，或是了解天气预报，它也可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等；语言识别技术在人工智能有着不可替代的作用；随着深度学习技术的发展，利用神经网络对自然语言进行识别，已经能够取得较为不错的效果；但是由于自然语言具有一定的模糊性和歧义性，如何更准确的识别到人们想表达的意愿仍然是一个巨大的挑战；针对于自然语言的口语而言，口语表达相对简单且更加随意，有事甚至不符合常规的表达逻辑，而且可能具有更多的意思表达可能性，所以口语更加具有模糊性和歧义性，利用现有的神经网络对于口语的识别时，对应的准确度(准确的识别到人们想表达的意愿)和准确率较低，都有待于进一步提高。
技术实现思路
本专利技术是为了解决利用现有的神经网络对口语进行识别存在的准确度较低的问题；现提供一种基于Star-Transformer的口语理解方法、系统及设备。基于Star-Transformer的口语理解方法，首先利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取；然后使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合，最后将插槽预测的概率最大的意图作为输出结果。进一步地，所述方...

【技术保护点】
1.基于Star-Transformer的口语理解方法，其特征在于，所述方法首先利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取；然后使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合，最后将插槽预测的概率最大的意图作为输出结果。/n

【技术特征摘要】
1.基于Star-Transformer的口语理解方法，其特征在于，所述方法首先利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取；然后使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合，最后将插槽预测的概率最大的意图作为输出结果。

2.根据权利要求1所述的基于Star-Transformer的口语理解方法，其特征在于，所述方法还包括采集口语语音信息并将口语语音转换为文本序列，获得文本序列的特征矩阵的步骤。

3.根据权利要求1或2所述的基于Star-Transformer的口语理解方法，其特征在于，所述利用Star-Transformer对口语语音信息对应文本序列的特征矩阵进行信息提取的过程包括以下步骤：
口语语音信息对应文本序列的特征矩阵记为H＝[h1，...，hn]，其中hj表示第j个字的特征，n为文本长度；对于查询向量q∈R1×d，注意力公式如下：

其中，K＝HWk，V＝HWv，Wk和Wv为可学习参数；查询向量q为1×d的实数矩阵，d表示查询向量q的列数；
由注意力公式得到多头注意力公式：
MultiHead(q，H)＝concat(head1，...，headh)Wo(2)
headi＝Attention(qWiQ，HWiK，HWiv)，i∈[1，h](3)
其中，h为头的个数，WiQ，WiK，Wiv，Wo为可学习参数；concat(·)为concat函数；
对于第t∈[1，T]层，定义向量st表示中继结点，矩阵Ht表示长度为n的所有卫星结点，矩阵E＝[e1，...，en]表示序列长度为n的字嵌入，其中ek表示第k个字的嵌入；将卫星结点初始化为H0＝E，中继结点初始化为st＝average(E)，average表示对矩阵取平均；T表示最后一层；
对于Star-Transformer更新第t层时，要分为两个阶段：(1)更新卫星结点H，(2)更新中继结点s；
在第一阶段，每一个卫星结点都将与它相邻的卫星结点、中继结点和它自己的嵌入进行拼接；随后使用多头注意力机制进行更新；最后进行归一化操作得到新的卫星结点；

其中，为临时矩阵；所有带上角标的参数均表示对应层的参数，表示第t层的hi，st-1为第t-1层的中继结点；ReLU(·)为ReLU激活函数，LayerNorm(·)为归一化函数；
在第二阶段，中继结点与已经更新过的所有卫星结点进行拼接：
st＝LayerNorm(RELU(MultiHead(st-1，[st-1；Ht])))；
Star-Transformer模型处理结束后完成信息提取。

4.根据权利要求3所述的基于Star-Transformer的口语理解方法，其特征在于，所述使用双向门控循环单元对Star-Transformer提取的全局信息和局部信息进行整合的过程包括以下步骤：
使用汇集了全局信息的最后一层的中继结点sT作为双向门控循环单元初始隐藏结点，将最后一层中所有的卫星结点HT作为迭代信息被送到双向门控循环单元中；

其中，分别表示HT的正向迭代和反向迭代；分别为每个正向GRU输出的整合矩阵和最后一个结点的隐藏结点，分别为每个反向GRU输出的整合矩阵和最后一个结点的隐藏结点；
最后，把sT、和进行拼接作为意图整合信息结点，和进行拼接作为插槽整合信息结点；

其中，intent和solt向量分别是意图和插槽预测的概率；
最终把预测概率最大的意图作为输出结果。

5.基于Star-Transformer的口语理解系统，其特征在于，所述系统包括Star-Transformer信息提取单元和信息整合单元；
所述Star-Transformer信息提取单元利用Star-Trans...

【专利技术属性】
技术研发人员：刘美玲，马凯欣，于洋，
申请(专利权)人：东北林业大学，
类型：发明
国别省市：黑龙江;23

全部详细技术资料下载我是这个专利的主人