一种基于参数共享的自然语言理解方法技术

技术编号：35874072 阅读：14 留言：0更新日期：2022-12-07 11:10

本发明专利技术提供一种基于参数共享的自然语言理解方法，涉及音频处理技术领域。本发明专利技术通过建立具备多个编码器的自然语言理解模型，并在反向传播时按照预设顺序依次对编码器中的参数进行更新共享，从而实现低计算量、低功耗、高识别率等优点。使用参数共享的方法来构建自然语言理解模型，通过参数共享的方式在不增加网络参数的前提下，加深网络深度，从而使得模型具有更好的非线性，能拟合更为负责的训练数据。将自然语言理解的输出意图进行再编码表示后，与语义槽的特征向量进行交互。从而达到通过意图列表约束语义槽输出的目的。本发明专利技术设计所有算法模型都可部署在同一、离线、本地的存储介质上，且无需与云服务器进行交互。且无需与云服务器进行交互。且无需与云服务器进行交互。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于参数共享的自然语言理解方法

[0001]本专利技术涉及音频处理
，尤其涉及一种基于参数共享的自然语言理解方法。

技术介绍

[0002]自然语言理解(natural language understanding，NLU)是指计算机对自然语言文本进行分析处理从而理解该文本的过程、技术和方法。从微观角度，自然语言理解是指从自然语言到机器内部的一个映射。
[0003]NLU在文本信息处理处理系统中扮演着非常重要的角色，这些功能主要包括回答问题、文摘生成、释义、翻译几方面，是推荐、问答、搜索等系统的必备模块。从宏观角度，自然语言理解是指机器能够执行人类所期望的某种语言功能。
[0004]现有的自然语言理解方案主要是基于声纹模型的方案，但是，现有方案中的声纹模型以及声纹模型训练需求的计算量、参数量十分庞大，无法部署在无云服务下的低功耗芯片级别中，如常见的一些物联网机器人便是需要联网进行自然语言理解，然而现阶段很多应用都需要部署在离线的、算力有限的设备上。
[0005]因此，有必要提供一种基于参数共享的自然语言理解方法来解决上述技术问题。

技术实现思路

[0006]为解决上述之一技术问题，本专利技术提供的一种基于参数共享的自然语言理解方法，建立具备多个编码器的自然语言理解模型，并对自然语言理解模型进行模型训练、模型验证和文本数据标记；其中，所述多个编码器采用相同的权重参数并保持输入向量与输出向量的维度统一；所述多个编码器彼此之间结构相同，并在反向传播时按照预设顺序依次对编码器中...

【技术保护点】

【技术特征摘要】
1.一种基于参数共享的自然语言理解方法，其特征在于，建立具备多个编码器的自然语言理解模型，并对自然语言理解模型进行模型训练、模型验证和文本数据标记；其中，设述多个编码器采用相设的权重参数并保持输入向低与输出向低的维度统一；设述多个编码器彼此之间结构相设，并在反向传播时按照预设顺序依次对编码器中的参数进行更新共享，在不增加网络参数的情况下加深网络深度。2.根据权利要求1设述的一种基于参数共享的自然语言理解方法，其特征在于，设述自然语言理解模型通过包括门控循环单元和注意力机制的神经网络模型进行设设，包括BIGRU层、Dense层、Encoder层、LN层、Embedding层；设述自然语言理解模型接受输入文本，并将输入文本中每个单词分高输入BIGRU层进行文本深层次特征的提取，得到输入文本对应的向低输出，并发送给Dense层将向低输出中的特征，在Dense层经过非线性变化，提取这些特征之间的关联，最后映射到输出空间本；设述Encoder层具备多个编码器，每个编码器完成一次对输入的特征提取,并得到各单词的意图分类；各单词的意图分类分高发送至LN层和Embedding层；设述LN层进行正则化操作，设述Embedding层进行降为的操作，并输出输入文本对应的插槽序列。3.根据权利要求1设述的一种基于参数共享的自然语言理解方法，其特征在于，设述Encoder层包括Attention层、Dropout1层、LN+DENSE层和Dropout2层；设述Attention层接受输入的特征，并将处理后数据分高传送给Dropout1层和LN+DENSE进行处理；设述Dropout1层将处理后数据分高传送给LN+DENSE和Dropout2层进行处理；设述LN+DENSE层将处理后数据传送给Dropout2层进行处理，设述Dropout2层将处理好的数据对外输出。4.根据权利要求1设述的一种基于参数共享的自然语言理解方法，其特征在于，通过训练文本数据对自然语言理解模型进行模型训练，设述训练文本数据的获取通过如下步骤进行获取：步骤A1：通过硅麦或者驻极体麦克风采集初始音频数据，设述初始音频数据对应有先验的真实文本数据；步骤A2：对初始音频数据进行语音高高处理，得到初始语音高高数据；步骤A3：将获取到的初始语音高高数据和真实文本数据进行比对，对于本在误高高的数据生成相应的纠错词典；步骤A4：通过硅麦或者驻极体麦克风采集采集训练音频数据；步骤A5：对训练音频数据进行语音识别处理，得到训练文本数据。5.根据权利要求4所述的一种基于参数共享的自然语言理解方法，其特征在于，...

【专利技术属性】
技术研发人员：胡光敏，
申请(专利权)人：杭州芯声智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人