一种基于深度学习的语义理解方法和装置制造方法及图纸

技术编号:20448885 阅读:21 留言:0更新日期:2019-02-27 02:58
本发明专利技术提供了一种基于深度学习的语义理解方法和装置,在语义理解过程中,将最小绝对值收缩原理与深度学习架构相结合,通过Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到能够反映意图yj的有用的语义特征的映射关系,将与意图关联的某些非重要语义特征的权重在参数估计的过程中缩减成0,大幅减少语义理解过程中的“过度拟合”,提高语义理解的准确度。

A Semantic Understanding Method and Device Based on Deep Learning

The present invention provides a semantic understanding method and device based on deep learning. In the process of semantic understanding, the minimum absolute shrinkage principle is combined with the deep learning architecture, and the useless semantic features in the mapping relationship between intention YJ based on the basic full convolution neural network segmentation model and a series of semantic features XJP are eliminated by Lasso, so that the meaningless semantic features reflecting intention YJ can be obtained. Using the mapping relationship of semantic features, the weight of some non-important semantic features associated with intention is reduced to 0 in the process of parameter estimation, which greatly reduces the \over-fitting\ in the process of semantic understanding and improves the accuracy of semantic understanding.

【技术实现步骤摘要】
一种基于深度学习的语义理解方法和装置
本专利技术涉及计算处理
,具体而言,涉及一种基于深度学习的语义理解方法和装置。
技术介绍
目前,用户的特定意图可以用很多词、词组、句子来表达,而每个词、词组、句子的不同组合又可以表达出不同的意图。因此,在提取语义特征与意图之间的非线性映射关系时,某一特定的意图对应很多语义特征,每个语义特征所能代表的该意图的权重不同。由于人类语言中的语义特征是无穷尽的,会出现需要估计权重的语义特征数量过于巨量,因而产生“过度拟合”等问题,使得所训练出的模型的样本外预测效力大幅减弱。
技术实现思路
为解决上述问题,本专利技术实施例的目的在于提供一种基于深度学习的语义理解方法和装置。第一方面,本专利技术实施例提供了一种基于深度学习的语义理解方法,包括:使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fj(βj1xj1,βj2xj2,βj3xj3,βj4xj4,......,βjpxjp,ε),其中,f表示意图yj与语义特征xjp的非线性映射关系,βjp是映射函数的映射系数;利用最小绝对值收缩原理Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到能够反映意图yj的有用的语义特征的映射关系;其中,所述有用的语义特征,表示能够真实反映意图yj的语义特征;对意图yj与能够反映意图yj的有用的语义特征的映射关系进行存储,并在获取到用户发出的语音时,通过存储的意图yj与能够反映意图yj的有用的语义特征的映射关系对用户发出的语音进行语义理解操作。第二方面,本专利技术实施例还提供了一种基于深度学习的语义理解装置,包括:第一处理模块,用于使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fj(βj1xj1,βj2xj2,βj3xj3,βj4xj4,......,βjpxjp,ε),其中,f表示意图yj与语义特征xjp的非线性映射关系,βjp是映射函数的映射系数;第二处理模块,用于利用最小绝对值收缩原理Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到能够反映意图yj的有用的语义特征的映射关系;其中,所述有用的语义特征,表示能够真实反映意图yj的语义特征;语义理解模块,用于对意图yj与能够反映意图yj的有用的语义特征的映射关系进行存储,并在获取到用户发出的语音时,通过存储的意图yj与能够反映意图yj的有用的语义特征的映射关系对用户发出的语音进行语义理解操作。本专利技术实施例上述第一方面至第二方面提供的方案中,在语义理解过程中,将最小绝对值收缩原理(LeastAbsoluteShrinkageandSelectionOperator,Lasso)与深度学习架构相结合,通过Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到能够反映意图yj的有用的语义特征的映射关系,将与意图关联的某些非重要语义特征的权重在参数估计的过程中缩减成0,大幅减少不太能表达意图的语义特征与意图的关联度,尽可能降低语义理解过程的“过度拟合”问题,提高语义理解的准确度。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了可应用于本专利技术实施例中的服务器的结构框图;图2示出了本专利技术实施例1所提供的一种基于深度学习的语义理解方法的流程图;图3示出了本专利技术实施例1所提供的基于深度学习的语义理解方法中,全卷积神经网络分割模型示意图;图4示出了本专利技术实施例2所提供的一种基于深度学习的语义理解装置的结构示意图。图标:200-服务器;201-存储器;202-处理器;203-网络模块;221-操作系统;222-服务模块;400-第一处理模块;402-第二处理模块;404-语义理解模块。具体实施方式目前,用户的特定意图可以用很多词、词组、句子来表达,而每个词、词组、句子的不同组合又可以表达出不同的意图。因此,在提取语义特征与意图之间的非线性映射关系时,某一特定的意图对应很多语义特征,每个语义特征所能代表的该意图的权重不同。由于人类语言中的语义特征是无穷尽的,会出现需要估计权重的语义特征数量过于巨量,因而可能会将不太能表达意图的语义特征与意图相关联,从而产生“过度拟合”的问题,使得所训练出的语义模型对用户的语音进行预测时的效力大幅减弱。基于此,本申请实施例提出一种基于深度学习的语义理解方法和装置,将与意图关联的某些非重要语义特征的权重在参数估计的过程中缩减成0,大幅减少不太能表达意图的语义特征与意图的关联度,尽可能降低语义理解过程的“过度拟合”问题,提高语义理解的准确度。图1示出了一种可应用于本专利技术实施例中的服务器的结构框图。如图1所示,服务器200包括:存储器201、处理器202以及网络模块203。存储器201可用于存储软件程序以及模块,如本专利技术实施例中的基于深度学习的语义理解方法和装置对应的程序指令/模块,处理器202通过运行存储在存储器201内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现本专利技术实施例中的基于深度学习的语义理解方法。存储器201可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。进一步地,上述软件程序以及模块还可包括:操作系统221以及服务模块222。其中操作系统221,例如可为LINUX、UNIX、WINDOWS,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通讯,从而提供其他软件组件的运行环境。服务模块222运行在操作系统221的基础上,并通过操作系统221的网络服务监听来自网络的请求,根据请求完成相应的数据处理,并返回处理结果给客户端。也就是说,服务模块222用于向客户端提供网络服务。网络模块203用于接收以及发送网络信号。上述网络信号可包括无线信号或者有线信号。可以理解,图1所示的结构仅为示意,服务器200还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。另外,本申请实施例中的服务器还可以包括多个具体不同功能的服务器。为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请做进一步详细的说明。实施例1参见图2所示的基于深度学习的语义理解方法的流程图,本实施例提出一种基于深度学习的语义理解方法,包括以下具体步骤:步骤100、使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义本文档来自技高网...

【技术保护点】
1.一种基于深度学习的语义理解方法,其特征在于,包括:使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fj(βj1xj1,βj2xj2,βj3xj3,βj4xj4,……,βjpxjp,ε),其中,f表示意图yj与语义特征xjp的非线性映射关系,βjp是映射函数的映射系数;利用最小绝对值收缩原理Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系;其中,所述有用的语义特征,表示能够真实反映意图yj的语义特征;对意图yj与能够反映意图yj的有用的语义特征的映射关系进行存储,并在获取到用户发出的语音时,通过存储的意图yj与能够反映意图yj的有用的语义特征的映射关系对用户发出的语音进行语义理解操作。

【技术特征摘要】
1.一种基于深度学习的语义理解方法,其特征在于,包括:使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fj(βj1xj1,βj2xj2,βj3xj3,βj4xj4,……,βjpxjp,ε),其中,f表示意图yj与语义特征xjp的非线性映射关系,βjp是映射函数的映射系数;利用最小绝对值收缩原理Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系;其中,所述有用的语义特征,表示能够真实反映意图yj的语义特征;对意图yj与能够反映意图yj的有用的语义特征的映射关系进行存储,并在获取到用户发出的语音时,通过存储的意图yj与能够反映意图yj的有用的语义特征的映射关系对用户发出的语音进行语义理解操作。2.根据权利要求1所述的方法,其特征在于,所述全卷积神经网络分割模型,包括:卷积层、池化层和反卷积层;所述使用意图库和语义特征库对全卷积神经网络分割模型进行处理,得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fj(βj1xj1,βj2xj2,βj3xj3,βj4xj4,……,βjpxjp,ε)包括:输入的意图库和语义特征库依次经过卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、卷积层4、池化层4、卷积层5、池化层5,分别得到意图库的所有的意图yj和语义特征库中的所有的语义特征xjp;将意图库的所有的意图yj和语义特征库中的所有的语义特征xjp经过2倍的反卷积层与池化层4的得分层进行加权融合,获得融合层1;融合层1经过2倍的反卷积层与池化层3的得分层进行加权融合,获得融合层2;融合层2经过2倍的反卷积层与池化层2的得分层进行加权融合,获得融合层3;融合层3经过2倍的反卷积层与池化层1的得分层进行加权融合,获得融合层4;融合层4经过2倍的反卷积层得到基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系系数βj,并以此得到基于全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系yj=fj(βj1xj1,βj2xj2,βj3xj3,βj4xj4,……,βjpxjp,ε)。3.根据权利要求2所述的方法,其特征在于,所述输入的意图库和语义特征库依次经过卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、卷积层4、池化层4、卷积层5、池化层5,分别得到意图库的所有的意图yj和语义特征库中的所有的语义特征xjp,包括:在每个卷积层后对意图yj和语义特征xjp经过ReLu激活函数处理,得到引入意图yj与语义特征xjp的非线性映射关系f。4.根据权利要求1所述的方法,其特征在于,所述利用Lasso对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系,包括:基于意图yj与一系列语义特征xjp的映射关系yj=fj(βj1xj1,βj2xj2,βj3xj3,βj4xj4,……,βjpxjp,ε),得到如下映射关系回归模型:yj=βj1xj1+βj2xj2+…+βjpxjp+ε(1)其中,βj1,βj2,…βjp为映射关系系数;ε是随机扰动项;所述映射关系回归模型需满足其中,n表示意图的数量,m表示与意图yj有映射关系的一系列语义特征的数量;基于所述映射关系回归模型得到映射关系系数的Lasso估计公式:其中,c表示修订值;基于映射关系系数的Lasso估计公式,对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系。5.根据权利要求4所述的方法,其特征在于,所述基于映射关系系数的Lasso估计公式,对基于基础全卷积神经网络分割模型的意图yj与一系列语义特征xjp的映射关系中无用的语义特征进行剔除,得到意图yj与能够反映意图yj的有用的语义特征的映射关系,包括:针对意图yj,根据约束条件惩罚函数s和βjp的最小二乘估计值得到惩罚函数s的初始值从惩罚函数s的初始值s0开始,按照预设增量对得到的所述惩罚函数s进行增量操作,并根据增量操作后的所述惩罚函数s,对映射关系系数的Lasso估计公式进行计算,使得Lasso估计公式的结果为0,将意图yj与...

【专利技术属性】
技术研发人员:余轲
申请(专利权)人:北京轮子科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1