自然语言处理的训练方法、装置、自动问答方法和装置制造方法及图纸

技术编号:21952399 阅读:42 留言:0更新日期:2019-08-24 17:42
本公开提供了用于自然语言处理的训练方法和装置、自动问答方法和装置、电子设备以及计算机可读存储介质。所述训练方法包括:获取用于训练的语料库;初始化语料库的表示集,表示集的每一组成元素表示语料库中一个词;以表示集作为参数构造目标函数;以及执行训练,调整表示集,获得训练后的表示集,训练后的表示集使得目标函数满足预定训练结束条件;其中,目标函数包括正负样本相对差异表示部分,用于使得训练后语料库中的正样本和负样本满足预定收敛条件。根据本公开实施例训练方法,通过在训练方法中,针对特定的应用场景构造目标函数,实现对于词表示的进一步优化。

Training Method, Device, Automatic Question Answer Method and Device of Natural Language Processing

【技术实现步骤摘要】
自然语言处理的训练方法、装置、自动问答方法和装置
本公开涉及自然语言处理领域,更具体地,本公开涉及一种用于自然语言处理的训练方法和装置、自动问答方法和装置、电子设备以及计算机可读存储介质。
技术介绍
自然语言处理(NLP)是人工智能技术重要的应用领域之一。在自然语言处理过程中,首先需要把自然语言这种符号信息转化为计算机能识别形式的数字信息。这样就把自然语言理解的问题要转化为机器学习的问题。这种符号信息转化为计算机能识别形式的过程被称为自然语言的表示过程。当前,存在诸如Word2vec、Fast-text等多种不同的语言表示方法,通常都是根据不同的应用意图构造目标函数来解决各自应用场景的问题。例如,基于自然语言处理的问答系统和检索系统这两个不同应用场景的区别在于问答系统需要兼顾语义的相似性,而检索系统更多是考虑词出现的共现词的权重。因此,希望能够提供适应于自然语言处理的特定应用场景的训练方法,通过该训练方法获得适用于该特定应用场景的自然语言表示。
技术实现思路
鉴于上述问题而提出了本公开。本公开提供了一种用于自然语言处理的训练方法和装置、自动问答方法和装置、电子设备以及计算机可读存储介质。根据本公开的一个方面,提供了一种用于自然语言处理的训练方法,包括:获取用于训练的语料库;初始化所述语料库的表示集,所述表示集的每一组成元素表示所述语料库中一个词;以所述表示集作为参数构造目标函数;以及执行训练,调整所述表示集,获得训练后的所述表示集,所述训练后的所述表示集使得所述目标函数满足预定训练结束条件;其中,所述目标函数包括正负样本相对差异表示部分,用于使得训练后所述语料库中的正样本和负样本满足预定收敛条件。此外,根据本公开一个方面的训练方法,其中,所述表示集为表示矩阵,并且一个所述组成元素为所述表示矩阵的一列。此外,根据本公开一个方面的训练方法,其中,所述预定训练结束条件为所述训练后的所述表示集使得所述目标函数最小化,并且所述预定收敛条件为所述语料库中的正样本和负样本在表示空间中的距离最大化。此外,根据本公开一个方面的训练方法,其中,所述语料库中si和为正样本对,si和为负样本对,所述si、和经由所述嵌入表示矩阵W的嵌入表示分别为ri、和所述正样本对si和的相似度表示为所述负样本对si和的相似度表示为所述正负样本相对差异表示部分表示为其中,si、和分别代表所述语料库中的一条语料,ri、和分别代表si、和的表示向量,所述相似度表示指示两个所述表示向量之间的余弦相似度,μ为取值在0到1之间的惩罚系数,K是所述语料库中的样本数。此外,根据本公开一个方面的训练方法,其中,所述目标函数还包括正负样本绝对值表示部分,所述正负样本绝对值表示部分表示为:所述目标函数L表示为:L(W)=l(W)+λl0(W)其中,所述调整所述表示集表示为求解:W*=argminW(l(W)+λl0(W))其中,exp代表以e为底的指数函数,Sk表示对所述语料库中整体样本进行随机抽样得到的样本集合,λ表示所述正负样本相对差异表示部分l(W)和所述正负样本绝对值表示部分l0(W)之间的权重,其取值在0到1之间,argmin代表求使得l(W)+l0(W)取最小值的W。根据本公开的另一个方面,提供了一种基于自然语言处理的自动问答方法,包括:执行训练,获取语料库的表示集;接收问题语句,并且根据所述表示集,获取所述问题语句的表示;以及基于所述问题语句的表示,检索以获取所述问题语句的答案语句,其中,所述执行训练,获取语料库的表示集包括:执行如上所述的用于自然语言处理的训练方法。根据本公开的另一个方面,提供了一种用于自然语言处理的训练装置,包括:初始化单元,用于初始化用于训练的语料库的表示集,所述表示集的每一组成元素表示所述语料库中一个词;目标函数构造单元,用于以所述表示集作为参数构造目标函数;以及训练单元,用于执行训练,调整所述表示集,获得训练后的所述表示集,所述训练后的所述表示集使得所述目标函数满足预定训练结束条件;其中,所述目标函数包括正负样本相对差异表示部分,用于使得训练后所述语料库中的正样本和负样本满足预定收敛条件。此外,根据本公开另一个方面的训练装置,其中,所述表示集为表示矩阵,并且一个所述组成元素为所述表示矩阵的一列。此外,根据本公开另一个方面的训练装置,其中,所述预定训练结束条件为所述训练后的所述表示集使得所述目标函数最小化,并且所述预定收敛条件为所述语料库中的正样本和负样本在表示空间中的距离最大化。此外,根据本公开另一个方面的训练装置,其中,所述语料库中si和为正样本对,si和为负样本对,所述si、和经由所述表示矩阵W的表示分别为ri、和所述正样本对si和的相似度表示为所述负样本对si和的相似度表示为所述正负样本相对差异表示部分表示为其中,si、和分别代表所述语料库中的一条语料,ri、和分别代表si、和的表示向量,所述相似度表示指示两个所述表示向量之间的余弦相似度,μ为取值在0到1之间的惩罚系数,K是所述语料库中的样本数。此外,根据本公开另一个方面的训练装置,其中,所述目标函数还包括正负样本绝对值表示部分,所述正负样本绝对值表示部分表示为:所述目标函数L表示为:L(W)=l(W)+λl0(W)其中,所述调整所述表示集表示为求解:W*=argminW(l(W)+λl0(W))其中,exp代表以e为底的指数函数,Sk表示对所述语料库中整体样本进行随机抽样得到的样本集合,λ表示所述正负样本相对差异表示部分l(W)和所述正负样本绝对值表示部分l0(W)之间的权重,其取值在0到1之间,argmin代表求使得l(W)+l0(W)取最小值的W。根据本公开的又一个方面,提供了一种基于自然语言处理的自动问答装置,包括:训练单元,用于执行训练,获取语料库的表示集;问题接收单元,用于接收问题语句,并且根据所述表示集,获取所述问题语句的表示;以及回答单元,用于基于所述问题语句的表示,检索以获取所述问题语句的答案语句,其中,所述训练单元执行如上所述的用于自然语言处理的训练方法。根据本公开的又一个方面,提供了一种电子设备,包括:处理器;以及存储器,用于存储计算机程序指令;其中,当所述计算机程序指令由所述处理器加载并运行时,所述处理器执行如上所述的训练方法,或者如上所述自动问答方法。根据本公开的再一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序指令,其中,所述计算机程序指令被处理器加载并运行时,所述处理器执行如上所述的训练方法,或者如上所述自动问答方法。如以下将详细描述的,根据本公开实施例用于自然语言处理的词向量化表示的训练方法和装置、自动问答方法和装置、电子设备以及计算机可读存储介质,通过在训练方法中,针对特定的应用场景构造目标函数,获得适用于该特定应用场景的自然语言表示,实现对于自然语言表示的进一步优化。在特定的应用场景中,同义句的提取任务是自然语言处理的关键环节。通过在训练方法中,设计包括正负样本相对差异表示部分的目标函数,训练后所述语料库中的正样本和负样本满足预定收敛条件,该预定收敛条件使得正负样本的表示充分体现同义句和非同义句之间的差别。进一步地,通过在训练方法中,设计包括正负样本绝对值表示部分的目标函数,使得训练后所述语本文档来自技高网...

【技术保护点】
1.一种用于自然语言处理的训练方法,包括:获取用于训练的语料库;初始化所述语料库的表示集,所述表示集的每一组成元素表示所述语料库中一个词;以所述表示集作为参数构造目标函数;以及执行训练,调整所述表示集,获得训练后的所述表示集,所述训练后的所述表示集使得所述目标函数满足预定训练结束条件;其中,所述目标函数包括正负样本相对差异表示部分,用于使得训练后所述语料库中的正样本和负样本满足预定收敛条件。

【技术特征摘要】
1.一种用于自然语言处理的训练方法,包括:获取用于训练的语料库;初始化所述语料库的表示集,所述表示集的每一组成元素表示所述语料库中一个词;以所述表示集作为参数构造目标函数;以及执行训练,调整所述表示集,获得训练后的所述表示集,所述训练后的所述表示集使得所述目标函数满足预定训练结束条件;其中,所述目标函数包括正负样本相对差异表示部分,用于使得训练后所述语料库中的正样本和负样本满足预定收敛条件。2.如权利要求1所述的训练方法,其中,所述表示集为表示矩阵,并且一个所述组成元素为所述表示矩阵的一列。3.如权利要求1或2所述的训练方法,其中,所述预定训练结束条件为所述训练后的所述表示集使得所述目标函数最小化,并且所述预定收敛条件为所述语料库中的正样本和负样本在表示空间中的距离最大化。4.如权利要求2所述的训练方法,其中,所述语料库中si和为正样本对,si和为负样本对,所述si、和经由所述表示矩阵W的表示分别为ri、和所述正样本对si和的相似度表示为所述负样本对si和的相似度表示为所述正负样本相对差异表示部分表示为其中,si、和分别代表所述语料库中的一条语料,ri、知分别代表si、和的表示向量,所述相似度表示指示两个所述表示向量之间的余弦相似度,μ为取值在0到1之间的惩罚系数,K是所述语料库中的样本数。5.如权利要求4所述的训练方法,其中,所述目标函数还包括正负样本绝对值表示部分,所述正负样本绝对值表示部分表示为:所述目标函数L表示为:L(W)=l(W)+λl0(W)其中,所述调整所述表示集表示为求解:W*=argminW(l(W)+λl0(W))其中,exp代表以e为底的指数函数,Sk表示对所述语料库中整体样本进行随机抽样得到的样本集合,入表示所述正负样本相对差异表示部分l(W)和所述正负样本绝对值表示部分l0(W)之间的权重,其取值在0到1之间,argmin代表求使得l(W)+l0(W)取最小值的W。6.一种基于自然语言处理的自动问答方法,包括:执行训练,获取语料库的表示集;接收问题语句,并且根据所述表示集,获取所述问题语句的表示;以及基于所述问题语句的表示,检索以获取所述问题语句的答案语句,其中,所述执行训练,获取语料库的表示集包括:执行如权利要求1到5的任一项所述的用于自然语言处理的训练方法。7.一种用于自然语言处理的训练装置,包括:初始化单元,用于初始化用于训练的语料库的表示集,所述表示集的每一组成元素表示所述语料库中一个词;目标函数构造单元,用于以所述表示集作为参数构造目标函数;以及训练单元,用于执行训练,调整所述表示集,获...

【专利技术属性】
技术研发人员:罗定嘉翟铮
申请(专利权)人:腾讯科技深圳有限公司腾讯云计算北京有限责任公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1