基于任务型对话系统的语义理解方法、装置、设备及介质制造方法及图纸

技术编号:28212974 阅读:15 留言:0更新日期:2021-04-24 14:52
本发明专利技术公开了一种基于任务型对话系统的语义理解方法、装置、设备及介质;在本方案中,提取的特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量,通过该方式,可以让特征向量保留更多的语义信息、上下文和句子结构信息,提高语义理解的准确性;并且,本方案通过联合意图分类及实体分类的语义理解模块对特征向量进行处理,相比于单一任务具有更高的识别效率及准确率。及准确率。及准确率。

【技术实现步骤摘要】
基于任务型对话系统的语义理解方法、装置、设备及介质


[0001]本专利技术涉及对话系统和自然语言理解领域,更具体地说,涉及一种基于任务型对话系统的语义理解方法、装置、设备及介质。

技术介绍

[0002]自然语言处理是人工智能的一个子领域,是指机器能够理解和解释人类语言的能力,应用场景非常广泛,例如情感分析,自动文摘,对话系统等。对话系统主要分为任务型,问答型和闲聊型三大类,其中任务型对话系统需要较强的领域知识,实现模块主要由语音识别(Automatic Speech Recognition,ASR)、语义理解(Natural Language Understanding,NLU)、对话管理(Dialog Management,DM)、自然语言生成(Natural Language Generation,NLG)和语音合成(Text To Speech,TIS)这五部分组成。
[0003]目前,对话系统的难点主要在于语义理解和对话管理,而语义理解模块是对话管理正常执行的前提和保障,目标是将语音识别后的文本转化为结构化的语义表示,主要包括意图分类和实体识别。当前主流的实现方法一般将两者当作独立的任务进行处理,即通过不同的模型分别进行识别。意图分类属于文本分类问题,目前主要方法有朴素贝叶斯,支持向量机(Support Vector Machine,SVN)等基于传统机器学习模型的方法,以及卷积神经网络(Convolutional Neural Networks,CNN),循环神经网络(Recurrent Neural Network,RNN)等基于深度神经网络模型的方法。实体识别属于序列标注问题,常用的模型同样有传统机器学习方法和深度学习方法,例如最大熵马尔可夫(Maximum Entropy Markov Model,MEMM),条件随机场(Conditional Random Fields,CRF),长短期机器网络模型(Long Short

Term Memory,LSTM)等。另外,当下最为流行的实体抽取方法是将神经网络模型和传统个机器学习模型以计算联合概率的方式结合在一起,例如LSTM+CRF模型。
[0004]意图分类和实体抽取处理的数据均为文本数据,因此都需要先将文本数据转化为特征向量。特征提取的方法主要包括两大类,稀疏矩阵表示和稠密矩阵表示,前者主要包括字和词级别的One

Hot、n

gram等方法,后者主要是指引入预训练模型,例如BERT,Glove等句子级别的特征提取方法。
[0005]语义理解模块主要流程是先对语料进行特征向量化,通过字词级别的稀疏矩阵表示或者句子级别的稠密矩阵表示,然后分别通过不同深度网络模型进行意图分类和实体抽取。这样存在两处问题,一是提取的特征向量不足以充分表示对话文本信息,即只存在字词级别的语义信息,或者只存在句子级别的上下文和结构信息;二是将意图分类和实体识别当作单一任务对待处理,不仅降低了在线识别效率,也降低了识别准确率。

技术实现思路

[0006]本专利技术的目的在于提供一种基于任务型对话系统的语义理解方法、装置、设备及介质,以提高语义理解的准确率。
[0007]为实现上述目的,本专利技术提供一种基于任务型对话系统的语义理解方法,包括:
[0008]获取待处理的文本信息;
[0009]确定所述文本信息中与每个字符对应的一维向量;
[0010]将每个字符对应的一维向量输入特征提取模块,通过所述特征提取模块提取与所述文本信息对应的特征向量;所述特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量;
[0011]将所述特征向量输入语义理解模块,通过所述语义理解模块获得与所述文本信息对应的语义理解结果;其中,所述语义理解模块为联合意图分类及实体分类的语义理解模块。
[0012]其中,所述将每个字符对应的一维向量输入特征提取模块,通过所述特征提取模块提取与所述文本信息对应的特征向量,包括:
[0013]将每个字符对应的一维向量输入稀疏矩阵提取模块,获得与所述文本信息对应的稀疏矩阵特征向量;
[0014]将每个字符对应的一维向量输入稠密矩阵提取模块,获得与所述文本信息对应的稠密矩阵特征向量;
[0015]将所述稀疏矩阵特征向量与所述稠密矩阵特征向量拼接,获得与所述文本信息对应的特征向量。
[0016]其中,所述将每个字符对应的一维向量输入稀疏矩阵提取模块,获得与所述文本信息对应的稀疏矩阵特征向量,包括:
[0017]将每个字符对应的一维向量输入n

gram语言模型,获取n

gram特征;
[0018]将所述n

gram特征进行one

hot编码获得与所述文本信息对应的稀疏矩阵特征向量。
[0019]其中,所述将每个字符对应的一维向量输入稠密矩阵提取模块,获得与所述文本信息对应的稠密矩阵特征向量,包括:
[0020]将每个字符对应的一维向量输入预训练模型,获得与所述文本信息对应的稠密矩阵特征向量。
[0021]其中,所述语义理解模块的训练过程包括:
[0022]确定训练数据;
[0023]对所述训练数据进行意图标注和实体标注,得到意图标签和实体标签;
[0024]确定所述训练数据中与每个字符对应的一维向量,并输入所述特征提取模块,获得训练特征向量;
[0025]将所述意图标签、所述实体标签和所述训练特征向量输入初始语义理解模块,对初始语义理解模块进行训练得到所述语义理解模块。
[0026]其中,对所述初始语义理解模块进行训练的过程中,还包括:
[0027]计算意图分类损失和实体识别损失;
[0028]利用所述意图分类损失和实体识别损失确定整体识别损失;
[0029]在对所述初始语义理解模块训练的过程,通过所述整体识别损失对所述初始语义理解模块的参数进行调整。
[0030]其中,所述将所述特征向量输入语义理解模块,通过所述语义理解模块获得与所述文本信息对应的语义理解结果,包括:
[0031]通过Transformer模型对所述特征向量处理,并将处理结果输入CRF模型,得到与
所述文本信息对应的语义理解结果。
[0032]为实现上述目的,本专利技术进一步提供一种基于任务型对话系统的语义理解装置,包括:
[0033]文本获取模块,用于获取待处理的文本信息;
[0034]向量确定模块,用于确定所述文本信息中与每个字符对应的一维向量;
[0035]向量输入模块,用于将每个字符对应的一维向量输入特征提取模块;
[0036]特征提取模块,用于提取与所述文本信息对应的特征向量;所述特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量;
[0037]特征输入模块,用于将所述特征向量输入语义理解模块;
[0038]语义理解模块,用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于任务型对话系统的语义理解方法,其特征在于,包括:获取待处理的文本信息;确定所述文本信息中与每个字符对应的一维向量;将每个字符对应的一维向量输入特征提取模块,通过所述特征提取模块提取与所述文本信息对应的特征向量;所述特征向量包括稀疏矩阵特征向量和稠密矩阵特征向量;将所述特征向量输入语义理解模块,通过所述语义理解模块获得与所述文本信息对应的语义理解结果;其中,所述语义理解模块为联合意图分类及实体分类的语义理解模块。2.根据权利要求1所述的语义理解方法,其特征在于,所述将每个字符对应的一维向量输入特征提取模块,通过所述特征提取模块提取与所述文本信息对应的特征向量,包括:将每个字符对应的一维向量输入稀疏矩阵提取模块,获得与所述文本信息对应的稀疏矩阵特征向量;将每个字符对应的一维向量输入稠密矩阵提取模块,获得与所述文本信息对应的稠密矩阵特征向量;将所述稀疏矩阵特征向量与所述稠密矩阵特征向量拼接,获得与所述文本信息对应的特征向量。3.根据权利要求2所述的语义理解方法,其特征在于,所述将每个字符对应的一维向量输入稀疏矩阵提取模块,获得与所述文本信息对应的稀疏矩阵特征向量,包括:将每个字符对应的一维向量输入n

gram语言模型,获取n

gram特征;将所述n

gram特征进行one

hot编码获得与所述文本信息对应的稀疏矩阵特征向量。4.根据权利要求2所述的语义理解方法,其特征在于,所述将每个字符对应的一维向量输入稠密矩阵提取模块,获得与所述文本信息对应的稠密矩阵特征向量,包括:将每个字符对应的一维向量输入预训练模型,获得与所述文本信息对应的稠密矩阵特征向量。5.根据权利要求1所述的语义理解方法,其特征在于,所述语义理解模块的训练过程包括:确定训练数据;对所述训练数据进行意图标注和实体标注,得到意图标签和实体标...

【专利技术属性】
技术研发人员:王梦婷李利娟
申请(专利权)人:浙江诺诺网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1