一种句向量生成方法、装置及电子设备制造方法及图纸

技术编号:24207966 阅读:47 留言:0更新日期:2020-05-20 15:30
本发明专利技术实施例提供了一种句向量生成方法、装置及电子设备。所述句向量生成方法包括:确定目标文本中的目标语句;确定目标语句的前N个第一语句以及目标语句的后M个第二语句;获取每一第一语句和每一第二语句的句向量;将每一第一语句和每一第二语句的句向量,作为预设句向量预测模型的输入参数,通过预设句向量预测模型,预测出目标语句的目标句向量。本发明专利技术实施中,在生成目标语句的句向量时,不再是基于目标语句的词向量,而是基于目标语句的前后语句,并通过预设句向量预测模型,预测目标语句的句向量。由于不同语言环境中目标语句的前后语句,相似的概率较低,因此,这样得到的句向量,能够较好的对目标语句的语义信息进行表达,准确度较高。

A method, device and electronic equipment of sentence vector generation

【技术实现步骤摘要】
一种句向量生成方法、装置及电子设备
本专利技术实施例涉及自然语言处理
,尤其涉及一种句向量生成方法、装置及电子设备。
技术介绍
在很多自然语言处理(NaturalLanguageProcessing,简称NLP)任务中,经常需要将一个句子表达成一个向量,用于后续的分类、聚类等处理。现有技术中,在获得一个句子的向量表示时,是基于词向量来获得句子的句向量。现有的句向量表达方法在简单语言环境中能够有效地对句子的语义信息进行表达,在下游任务中能够获得较好的效果。但是对于某些复杂的语言环境,目前的句向量表达方法并不能获得很好的效果。比如对于下面两个句子:A:如何更改登录密码?B:如何更改支付密码?显然,A和B两个句子表达的是不同的含义,但是如果使用目前的句向量表达方法来获取相应的句子向量,则没有办法很好地将A和B两个句子区分开。原因是目前主流的句向量表达方法,都是基于词向量来学习句子向量,而词向量的获取都是基于上下文环境,即:词的语义是由其上下文决定的,上下文相近的词,其语义也相近。因此对于像A和B这种语境的本文档来自技高网...

【技术保护点】
1.一种句向量生成方法,其特征在于,包括:/n确定目标文本中的目标语句;其中,所述目标文本包括至少两个语句,所述目标语句为所述至少两个语句中的一个语句;/n确定所述目标语句的前N个第一语句以及所述目标语句的后M个第二语句;其中,N与M均为大于或等于1的整数;/n获取每一所述第一语句和每一所述第二语句的句向量;/n将每一所述第一语句和每一所述第二语句的句向量,作为预设句向量预测模型的输入参数,通过所述预设句向量预测模型,预测出所述目标语句的目标句向量。/n

【技术特征摘要】
1.一种句向量生成方法,其特征在于,包括:
确定目标文本中的目标语句;其中,所述目标文本包括至少两个语句,所述目标语句为所述至少两个语句中的一个语句;
确定所述目标语句的前N个第一语句以及所述目标语句的后M个第二语句;其中,N与M均为大于或等于1的整数;
获取每一所述第一语句和每一所述第二语句的句向量;
将每一所述第一语句和每一所述第二语句的句向量,作为预设句向量预测模型的输入参数,通过所述预设句向量预测模型,预测出所述目标语句的目标句向量。


2.根据权利要求1所述的句向量生成方法,其特征在于,所述获取每一所述第一语句和每一所述第二语句的句向量,包括:
分别对每一所述第一语句以及每一所述第二语句进行分词;
分别获取每一所述第一语句以及每一所述第二语句的分词对应的词向量;
分别将每一所述第一语句以及每一所述第二语句的分词对应的词向量,输入到预设网络模型,获得每一所述第一语句和每一所述第二语句的句向量;
其中,所述预设网络模型为循环神经网络模型或长短期记忆网络模型。


3.根据权利要求1所述的句向量生成方法,其特征在于,在通过所述预设句向量预测模型,预测出所述目标语句的目标句向量之前,所述句向量生成方法还包括:
通过至少两组样本数据,对所述预设句向量预测模型进行训练,并在所述预设句向量预测模型输出的向量与目标样本语句的初始句向量之间的距离小于或等于预设距离值,或所述样本数据的组数达到预设数值时,停止训练;
其中,每组所述样本数据包括:目标样本文本中的目标样本语句的初始句向量,以及所述目标样本语句的前N个第一样本语句以及所述目标样本语句的后M个第二样本语句。


4.根据权利要求3所述的句向量生成方法,其特征在于,在通过至少两组样本数据,对所述预设句向量预测模型进行训练之前,所述句向量生成方法还包括:
对所述目标样本语句进行分词,并获取每个分词对应的词向量;
计算所有词向量的均值向量;
将所述均值向量确定为所述目标样本语句的初始句向量。


5.根据权利要求1所述的句向量生成方法,其特征在于,在所述目标文本中,若所述目标语句之前的语句的数量X小于N时,则默认存在N个所述第一语句,并设置所述目标语句之前的第N-X个语句以及第N-X个语句之前的语句,对应的句向量为第一预设句向量;
在所述目标语句之后的语句的数量Y小于M时,默认存在M个所述第二语句,并设置所述目标语句之后的第Y+1个语句以及第Y+1个语句之后的语句,对应的句向量为第二预设句向量。

【专利技术属性】
技术研发人员:贺宇佟子健茹立云
申请(专利权)人:北京葡萄智学科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1