一种面向低资源环境的高效口语理解识别方法技术

技术编号:25915042 阅读:20 留言:0更新日期:2020-10-13 10:33
本发明专利技术适用于口语理解识别技术领域,提供一种面向低资源环境的高效口语理解识别方法,使用多任务学习将口语理解任务的两个子任务进行联合训练,多任务学习可以利用隐含在两个子任务的训练信号中的特定领域信息来提高泛化能力;而且使用了字符级和词语级别的词向量,可以捕捉输入文本不同粒度的特征;另外,使用张量分解的方法对模型进行了压缩,进一步降低模型的参数量。本发明专利技术方法在有效降低模型参数的情况下仍然可以保证模型的准确度,可以适应计算和存储资源非常有限实际生产环境,大大降低了模型的部署成本,节能环保。

【技术实现步骤摘要】
一种面向低资源环境的高效口语理解识别方法
本专利技术属于口语理解识别
,尤其涉及一种面向低资源环境的高效口语理解识别方法。
技术介绍
随着近年来科技的快速进步,能够与客户进行流畅对话的智能对话系统已经在电商客服、天气查询、搜索引擎等领域替代了大量的人工重复劳动,不仅大大解放了生产力,而且可以为客户提供快速精准的特色功能服务,因而成为现代科技特别是人工智能领域最为核心、最为热门的技术之一。口语理解识别任务是智能对话系统中非常重要的一环,目的是通过计算机自动从说话人产生的离散口语文字信息中提取出结构化数据,用于支持对话系统后续的信息检索、阅读理解、问答生成等任务。通常情况下,口语理解识别任务可以继续细分为两个子任务,分别是语句意图识别和语句词槽填充。其中语句意图识别主要完成对当前输入语句的用户意图分析,语句词槽填充则是从输入语句中解析出诸如时间、地点、数量等等关键的名词信息。目前关于口语理解识别任务已有大量研究,特别是随着深度学习的发展,基于深度神经网络的方法以其高准确率得到广泛的认可。目前的口语理解识别方法根据是否将语句识别和语句词槽填充两个任务进行独立建模,可分为独立建模和联合建模两种。其中效果较好的联合模型又包括基于卷积神经网络等方法、基于双向长短期记忆网络的方法、基于变压器模型的方法以及基于最新的BERT模型的方法等等。现有的方法主要目标是提高模型在口语理解任务的识别准确度,并没有考虑如何在计算资源非常有限实际生产环境,平衡准确率和资源占用两方面的因素,使得模型既能准确的预测同时占用少量资源,节能环保。
技术实现思路
鉴于上述问题,本专利技术的目的在于提供一种面向低资源环境的高效口语理解识别方法,旨在解决现有识别方法中识别准确度和资源占用两者无法平衡的技术问题。本专利技术采用如下技术方案:所述面向低资源环境的高效口语理解识别方法包括下述步骤:步骤S1、从合适的数据源中选取和设计用户的常用查询语句,从所述常用查询语句中提取重要实体和属性作为词槽,并分析常用查询语句的输入目的作为意图,以构建口语理解识别数据集,数据集划分为训练集,验证集和测试集;步骤S2、构建模型的嵌入表示层,包括词语级别的嵌入层和字符级别的嵌入层;步骤S3、在所述嵌入表示层上构建模型的意图识别神经网络分支;步骤S4、在所述嵌入表示层上构建模型的词槽填充神经网络分支;步骤S5、设置联合训练模型的损失函数,并选用优化器对所述意图识别神经网络分支和词槽填充神经网络分支在训练集上进行训练,同时在验证集上进行效果验证并选取训练超参数,最终在测试集上进行测试;步骤S6、对训练好的模型中参数量较大的全连接层的参数进行张量分解,构建压缩后的模型;步骤S7、对压缩后的模型继续在训练集上进行进一步训练微调,以提升压缩后模型的效果。进一步的,所述步骤S1具体包括:步骤S11、从合适的数据源中选取与任务相关的常用查询语句,根据提问的频率和质量选取部分常用查询语句作为待标注数据集;步骤S12、从常用查询语句中根据任务的目标设计常用实体以及属性的词语作为词槽;步骤S13、设计若干常见的意图作为标签,根据标签对待标注数据集中的常用查询语句进行分类和标注;步骤S14、根据设计的词槽以及标注后的常用查询语句构建标注口语理解数据集,并随机划分大小生成训练集、验证集和测试集。进一步的,所述步骤S2具体包括:步骤S21、根据口语理解识别数据集的语句,选用适合的预训练词向量作为模型的词语级别的的词嵌入层,预训练词向量的选用标准为尽量提高词表覆盖率,即口语理解识别数据集中常用查询语句的分词集合属于词向量词表中的部分在词向量词表中的占有百分比,其中词嵌入层的参数为词嵌入矩阵WE=concat(we1,we2,......,wen);这里wei为对口语理解识别数据集中常用查询语句的分词后的每个单词在预训练词向量中选取对应的单词向量,n表示分词操作后单词的个数,concat表示对词向量在句子方向上进行拼接,d为每个单词的向量维度,此时词嵌入矩阵WE大小为n×d;步骤S22、使用高斯分布随机初始字符级别的字符嵌入层参数并进行特征提取,构建模型的字符级别的嵌入层,其中字符嵌入层的参数为字符嵌入矩阵CE=concat(ce1,ce2,......,cem),这里需要对口语理解识别数据集中常用查询语句转化为字符序列,cei为字符序列中每个字符随机初始化一个d维的词向量,m为字符转化操作后字符序列的字符个数,此时得到的字符嵌入矩阵CE大小为m×d;这里特征提取具体包括:将字符嵌入矩阵CE输入到BiLSTM模型中进行特征提取并合并,得到新的字符嵌入特征CE',其大小为n×h,h为BiLSTM模型的隐藏层维度;步骤S23、将词嵌入层参数和字符嵌入层参数,得到融合后的嵌入表示层,并作为多任务学习的共享参数层SE=WE+CE'。进一步的,所述步骤S3具体包括:步骤S31、采用BiLSTM模型对共享参数层进行文本序列特征提取;步骤S32、依次添加层归一化和Dropout层来缓解过拟合问题;步骤S33、添加注意力表示层以捕捉语句的全局信息;步骤S34、添加全连接层并使用Softmax函数进行激活得到意图识别神经网络分支。进一步的,所述步骤S4具体包括:步骤S41、采用双向LSTM模型对共享参数层进行进行文本序列特征提取;步骤S42、依次添加层归一化和Dropout层来缓解过拟合问题;步骤S43、依次添加全连接层和条件随机场层得到模型的词槽填充神经网络分支。进一步的,所述步骤S5具体包括:步骤S51、设置联合训练模型的损失函数的损失函数Lall=kiLintnet+ksLslots,其中Lintent是图识别神经网络分支的输出和意图标签交叉熵损失函数,Lslots是词槽填充神经网络分支的输出和词槽标签的交叉熵损失函数,权重ki和ks作为超参数;步骤S52、选用优化器;步骤S53、对构建的意图识别神经网络分支和词槽填充神经网络分支在训练集上进行训练,同时在验证集上进行效果验证;步骤S54、通过网格搜索和交叉验证调整超参数;步骤S55、在测试集上进行测试模型效果。进一步的,所述步骤S6具体包括:步骤S61、对训练好的模型的参数矩阵进行张量分解,首先把全连接层的输入矩阵X和输出矩阵Y进行张量化表示,然后通过张量分解对全连接层的参数矩阵进行张量化表示步骤S62、重新构建张量分解压缩后的模型,即保持模型其他层的形式和参数不变,把模型的全连接层替换为张量分解后的层,然后把分解后的参数重新填入张量分解后的层中。进一步的,所述步骤S7具体包括:步骤S71、重新加载张量分解压缩后的模型,并在训练数据集上使用小学习率进行进一步训练,即微调;步骤S72、保存微调后的模型。本专利技术的有益效果是:本专利技术方法是一种基于多任本文档来自技高网
...

【技术保护点】
1.一种面向低资源环境的高效口语理解识别方法,其特征在于,所述方法包括下述步骤:/n步骤S1、从合适的数据源中选取和设计用户的常用查询语句,从所述常用查询语句中提取重要实体和属性作为词槽,并分析常用查询语句的输入目的作为意图,以构建口语理解识别数据集,数据集划分为训练集,验证集和测试集;/n步骤S2、构建模型的嵌入表示层,包括词语级别的嵌入层和字符级别的嵌入层;/n步骤S3、在所述嵌入表示层上构建模型的意图识别神经网络分支;/n步骤S4、在所述嵌入表示层上构建模型的词槽填充神经网络分支;/n步骤S5、设置联合训练模型的损失函数,并选用优化器对所述意图识别神经网络分支和词槽填充神经网络分支在训练集上进行训练,同时在验证集上进行效果验证并选取训练超参数,最终在测试集上进行测试;/n步骤S6、对训练好的模型中参数量较大的全连接层的参数进行张量分解,构建压缩后的模型;/n步骤S7、对压缩后的模型继续在训练集上进行进一步训练微调,以提升压缩后模型的效果。/n

【技术特征摘要】
1.一种面向低资源环境的高效口语理解识别方法,其特征在于,所述方法包括下述步骤:
步骤S1、从合适的数据源中选取和设计用户的常用查询语句,从所述常用查询语句中提取重要实体和属性作为词槽,并分析常用查询语句的输入目的作为意图,以构建口语理解识别数据集,数据集划分为训练集,验证集和测试集;
步骤S2、构建模型的嵌入表示层,包括词语级别的嵌入层和字符级别的嵌入层;
步骤S3、在所述嵌入表示层上构建模型的意图识别神经网络分支;
步骤S4、在所述嵌入表示层上构建模型的词槽填充神经网络分支;
步骤S5、设置联合训练模型的损失函数,并选用优化器对所述意图识别神经网络分支和词槽填充神经网络分支在训练集上进行训练,同时在验证集上进行效果验证并选取训练超参数,最终在测试集上进行测试;
步骤S6、对训练好的模型中参数量较大的全连接层的参数进行张量分解,构建压缩后的模型;
步骤S7、对压缩后的模型继续在训练集上进行进一步训练微调,以提升压缩后模型的效果。


2.如权利要求1所述面向低资源环境的高效口语理解识别方法,其特征在于,所述步骤S1具体包括:
步骤S11、从合适的数据源中选取与任务相关的常用查询语句,根据提问的频率和质量选取部分常用查询语句作为待标注数据集;
步骤S12、从常用查询语句中根据任务的目标设计常用实体以及属性的词语作为词槽;
步骤S13、设计若干常见的意图作为标签,根据标签对待标注数据集中的常用查询语句进行分类和标注;
步骤S14、根据设计的词槽以及标注后的常用查询语句构建标注口语理解数据集,并随机划分大小生成训练集、验证集和测试集。


3.如权利要求2所述面向低资源环境的高效口语理解识别方法,其特征在于,所述步骤S2具体包括:
步骤S21、根据口语理解识别数据集的语句,选用适合的预训练词向量作为模型的词语级别的的词嵌入层,预训练词向量的选用标准为尽量提高词表覆盖率,即口语理解识别数据集中常用查询语句的分词集合属于词向量词表中的部分在词向量词表中的占有百分比,其中词嵌入层的参数为词嵌入矩阵WE=concat(we1,we2,......,wen);
这里wei为对口语理解识别数据集中常用查询语句的分词后的每个单词在预训练词向量中选取对应的单词向量,n表示分词操作后单词的个数,concat表示对词向量在句子方向上进行拼接,d为每个单词的向量维度,此时词嵌入矩阵WE大小为n×d;
步骤S22、使用高斯分布随机初始字符级别的字符嵌入层参数并进行特征提取,构建模型的字符级别的嵌入层,其中字符嵌入层的参数为字符嵌入矩阵CE=concat(ce1,ce2,......,cem),这里需要对口语理解识别数据集中常用查询语句转化为字符序列,cei为字符序列中每个字符随机初始化一个d维的词向量,m为字符转化操...

【专利技术属性】
技术研发人员:莫益军孙焱
申请(专利权)人:湖北马斯特谱科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1